We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode META, APPLE 和草莓:美股周复盘20240714

META, APPLE 和草莓:美股周复盘20240714

2024/7/14
logo of podcast 左兜进右兜

左兜进右兜

Shownotes Transcript

今天后半段主要分享:

  • Meta Platforms的第三代大语言模型Llama 3;
  • Apple计划将Siri与ChatGPT整合;
  • OpenAI的AI分级和"草莓"项目。

META

美东时间7月12日周五,媒体援引一名Meta Platforms的员工消息称,Meta计划7月23日发布旗下第三代大语言模型(LLM)Llama 3的最大版本。这一最新版模型将拥有4050亿参数,也将是多模态模型,这意味着它将能够理解和生成图像和文本。该媒体未透露这一最强版本是否开源。

去年7月Meta发布的Llama 2有三个版本,最大版本70B的参数规模为700亿。今年4月,Meta发布Llama 3Meta,称它为“迄今为止能力最强的开源LLM”。当时推出的Llama 3有8B和70B两个版本。

Meta CEO扎克伯格当时称,大版本的Llama 3将有超过4000亿参数。Meta并未透露会不会将4000亿参数规模的Llama 3开源,当时它还在接受训练。

对比前代,Llama 3有了质的飞跃。Llama 2使用2万亿个 token进行训练,而训练Llama 3大版本的token超过15 万亿。

Meta称,由于预训练和训练后的改进,其预训练和指令调优的模型是目前8B和70B两个参数规模的最佳模型。在训练后程序得到改进后,模型的错误拒绝率(FRR)大幅下降,一致性提高,模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面,Llama 3相比Llama 2有极大改进,使Llama 3更易于操控。

4月Meta展示,8B和70B版本的Llama 3指令调优模型在大规模多任务语言理解数据集(MMLU)、研究生水平专家推理(GPQA)、数学评测集(GSM8K)、编程多语言测试(HumanEval)等方面的测评得分都高于Mistral、谷歌的Gemma和Gemini和Anthropic的Claude 3。8B和70B版本的预训练Llama 3多种性能测评优于Mistral、Gemma、Gemini和Mixtral。

APPLE

在Siri上整合ChatGPT

Siri 很快就能利用OpenAI 的Chat GPT回答多类问题。例如,如果你需要使用花园里的一些食材制作菜谱,你可以向 Siri 询问,Siri 会自动将信息反馈给 ChatGPT,为你生成一些选项。

而且你可以在通过Siri 向ChatGPT 提问时附上照片,也可以询问与文档或PDF相关的问题。例如,你在散步时遇到一种喜欢的花,但不知道它叫什么名字。这是你可以给它拍张照片,然后问Siri这花叫什么名字,在哪里可以找到。

这些操作甚至都不需要ChatGPT账户,只需要授予Siri接入该服务的权限。

能感知用户询问时所处的语境

借助苹果智能,Siri将能感知你询问时所处的独特语境,这意味着它可以采取更为个性化的操作,并能利用你设备上的可用信息,找到你正在寻找的东西。

例如,如果你不记得朋友爱丽丝是通过短信还是电子邮件与你分享了一份食谱,你可以要求Siri “调出爱丽丝几天前发送的食谱”。或者,如果你在预订机票时需要快速找到你的护照号码,你可以要求Siri从你的电子邮件或图中调出你的护照号码,并自动将其输入到必填栏。

更强的语言理解能力

Siri与用户的交流将变得更容易:Siri将能更好地理解人们交流的真实意思。即使你与Siri对话时磕磕绊绊,它也能听懂你话。例如,你可能说:"Siri,设置一个闹钟,哦,等等,不,设置一个 10 分钟的定时器。其实是五分钟"。Siri 会明白你的指令是什么。

你可以与Siri打字交流了

在升级之前,你只能通过语音与Siri交流。有了苹果智能,当你不想大声说话时,就可以打字给Siri。只需双击iPhone或 iPad屏幕上的按钮,就可以向 Siri 提出任何问题。

Siri将有屏幕感知能力

Siri 将可以理解屏幕上的内容,并根据你当前在设备上查看的内容采取行动。例如,如果你的朋友给你发了一条新地址的短信,你可以告诉 Siri 将该地址添加到他们的联系人信息中。

跨App采取行动

有了苹果智能,Siri 可以在App内或跨App采取行动。你可以在“照片”App中要求Siri为你增强照片效果,然后在“信息”App中要求Siri将照片发送给特定的人。你不必分别打开不同的应用程序或完成任务,因为Siri可以在这两个应用程序中自行采取行动。

草莓

这是openAI定义的几个级别的AI情况,直到昨天bloomberg和路透报道的所谓“OpenAI内部会议”,给一个5层AI分级和所谓“草莓”项目。

Level 1 : Chatbots, Al with conversational language;

Level 2: Reasoners, human-level problem solving;

Level 3: Agents, systems that can take actions;

Level 4: Innovators, Al that can aid in invention;

Level 5: organizations, Al that can do the work of organization.

OpenAI认为自己已经实现了L1,正在实现L2。要知道L2的定义要求很高的,“ a model that enables AI to plan ahead, reflect how the physical world functions, and work through challenging multi-step problems reliably” 如果GPT-5就实现L2,那的确是sam放的卫星“巨大飞跃”,但就算GPT-6实现,对于刚起步2年的行业来说也已经算很快了。

那么从OpenAI的角度,假如有一天领先行业实现了L2,他会做什么?

从目前行业的进展来看,模型尤其是scaling本身已经没有太多秘密(虽然工程难度依然巨大),模型的领先无法带来moat,就比如我们常见互联网公司的护城河是“躺着也能赚钱”,显然模型的领先无法让你“躺着赚钱”,只是个时间优势,甚至“跟随+后发”策略更省体力(算力)。夸张点说,一篇paper发出来或者几个人倍挖走,基本就没有秘密了(虽然执行的工程壁垒依然很高)。

因此合理推断,OpenAI认为L2已经在“视野范围内”,只是时间问题(和卡的问题),但想建立持续壁垒和护城河,一定是走到L3。基于L2的领先优势,快速建立L3,符合其最大利益。这也解释了为什么我们经常听说OpenAI“目前一半的精力都在搞应用。