We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
(
(新闻报道)
A
Ada McLaughlin
C
Connor Hayes
D
Daniel Campos
L
Louis-Franc-Anne
M
Mark Zuckerberg
创立Facebook和Meta的美国商人,致力于推动社交媒体和元宇宙技术的发展。
O
OpenAI
P
Pliny
S
Sam Altman
领导 OpenAI 实现 AGI 和超智能,重新定义 AI 发展路径,并推动 AI 技术的商业化和应用。
S
Satya Nadella
在任近十年,通过创新和合作,成功转型并推动公司价值大幅增长。
T
Ted Benson
Topics
Satya Nadella: 我认为20%到30%的微软代码是由AI生成的。这表明AI代码生成已经成为主流,并在不同编程语言中展现出不同的效果,Python表现最佳,C++相对较差。 Mark Zuckerberg: 虽然目前尚不清楚Meta有多少代码由AI生成,但我计划到明年年底将这一比例提高到50%。开源的优势在于可以混合搭配不同模型的优点,从而超越闭源模型。我们关注的重点是产品的实用性和性价比,而不是单纯的基准测试排名。基准测试容易被操纵,过分追求基准测试成绩可能会误导方向。 Sam Altman: 我们已经回滚了GPT-4.0的最新更新,以修复其过于谄媚的个性问题。这个问题是由于过度关注短期用户反馈,而没有充分考虑用户交互随时间的演变造成的。我们正在努力改进模型的个性,并将在未来几天分享更多信息。 Ada McLaughlin: GPT-4.0的个性变化主要源于一个新的系统提示,而非额外的后期训练。 Pliny: 修复GPT-4.0个性问题的措施虽然简单,但可能对特定行为有所改善 (10-20%)。 Louis-Franc-Anne: Duolingo将优先发展AI技术,并将其视为未来的发展方向。成为AI优先的公司意味着需要重新思考工作方式,并从零开始构建一些系统,即使AI技术尚未完全成熟。我们会为员工提供培训和工具,以支持向AI优先的转型,目标是让员工专注于创造性工作和解决实际问题。 Connor Hayes: Llama应用的社交功能旨在向人们展示AI的用途,帮助人们学习如何使用AI。 Daniel Campos: Meta在消费者和编码助手市场落后于OpenAI和Anthropic。 Ted Benson: Meta的AI战略是构建一个新的AI和AR计算平台的标准库,目标是成为未来AI和AR计算平台的基础设施提供商。 Dwarkesh: 虽然Llama 4 Maverick在LLaMA排行榜上排名较低,但开源模型最终将超越闭源模型,延迟和性价比是重要的产品属性。

Deep Dive

Shownotes Transcript

今天在AI每日简报中,Meta的Llama和开源是否落后?在此之前,头条新闻显示,微软高达30%的代码现在是由AI编写的。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。感谢今天的赞助商Vanta和Super Intelligent。如需节目的无广告版本,请访问patreon.com/AIDailyBrief。欢迎回到AI每日简报头条新闻版,所有您需要的每日AI新闻,大约五分钟即可看完。

朋友们,事实证明,AI编码不仅仅是为氛围型程序员准备的。在Meta的LlamaCon活动上(这将是我们今天主要节目的话题),微软CEO萨蒂亚·纳德拉与Meta CEO马克·扎克伯格进行了一次炉边谈话,作了一次跨界露面。其中一个比较有趣的话题是AI代码在大型科技公司中的接管。纳德拉表示,微软代码库中20%到30%的代码是由AI生成的。

换句话说,他表示这不仅仅是正在编写的新的代码的重要组成部分,而且AI生成的代码现在已成为整体代码库的重要组成部分。他还提供了一些细节,这很有趣。他提到,该公司在不同语言中看到了不同的结果,Python的表现最强,而C++的进展较少。扎克伯格反问Meta的CEO,Meta的CEO表示他不知道公司有多少代码是由AI生成的,但他目标是在明年年底达到50%。

您可能还记得,去年年底,谷歌CEO桑达尔·皮查伊表示,他的公司正在使用AI生成25%的代码。但本月初,他实际上更新了这一说法,称其现在“远超30%”。接下来是今天的新闻,OpenAI显然已经修复了GPT-4.0的个性,或者至少尝试修复了它,使其不那么谄媚。

正如我们在周一节目中讨论的那样,默认聊天GPT模型的个性在周末失控,导致它基本上同意所有内容并过度赞美用户。我们讨论了各种各样的坏处,所以如果您还没有听过,请查看那一集。但无论如何,昨天Sam Altman发布了,“我们昨晚开始回滚GPT-4.0的最新更新。现在免费用户已100%回滚,付费用户完成后将再次更新,希望今天晚些时候。我们正在努力修复模型个性,并将在未来几天分享更多信息。”

该公司还发布了一篇事后分析博客,解释道,“……在塑造模型行为时,我们从模型规范中概述的基本原则和指令开始。我们还通过整合用户信号(如点赞、点踩聊天GPT回复的反馈)来教我们的模型如何应用这些原则。”然而,在这个更新中,我们过于关注短期反馈,并没有充分考虑用户与聊天GPT的互动如何随着时间的推移而演变。结果,GPT-4.0偏向于过于支持但虚假的回复。

OpenAI模型设计师Ada McLaughlin此前曾评论道,我们最初发布的系统消息具有意想不到的行为影响,但找到了解药。现在这篇文章暗示,大部分个性变化是由于新的系统提示而不是额外的后期训练。当然,越狱者Penny the Liberator已经找到了隐藏的系统提示,让我们得以一窥其内部情况。

旧的、故障的提示写道:“在对话过程中,您会适应用户的语气和偏好。尝试匹配用户的氛围、语气以及他们通常的说话方式。”周一插入的新提示写道:“热情但诚实地与用户互动。要直接。避免无根据或谄媚的奉承。保持专业性和扎实的诚实,最好能代表OpenAI及其价值观。”当被问及他是否相信这能解决问题时,普林尼说:“问题的全部范围肯定要深得多。这是一个愚蠢的补救措施,但可能确实能使这种特定行为改善10-20%。”

OpenAI在其博客文章中承诺改进其训练技术和系统提示,以避免谄媚。但除此之外,我们没有得到太多细节。总的来说,这再次提醒我们这些技术是多么新颖,以及微小的变化如何能产生巨大的影响。

最后是今天的新闻,Duolingo是最新一家采用AI优先的公司。在一封全体员工邮件中,CEO路易斯-弗朗克-安妮写道:“AI已经改变了工作的完成方式。这不是是否或何时的问题,而是在现在发生的事情。当发生如此大的转变时,你能做的最糟糕的事情就是等待。2012年,我们大力押注移动端。当其他人专注于网站的移动伴侣应用程序时,我们决定首先构建移动端,因为我们看到它是未来。押注移动端带来了所有不同。我们现在正在做出类似的决定,而此时,平台的转变是AI。”

Van Aan讨论了该公司如何已经采用AI来帮助自动化其内容制作流程,并评论道:“该公司最近还推出了一项视频功能,允许用户与AI化身聊天,正如CEO指出的那样,这项功能以前是不可能实现的。”他继续说道:

AI不仅仅是生产力的提升。AI优先意味着我们将需要重新思考我们工作的大部分方式。对为人类设计的系统进行微调并不能让我们达到目标。在许多情况下,我们需要从头开始。我们不会在一夜之间重建所有东西,有些事情,比如让AI理解我们的代码库,需要时间。但是,我们不能等到技术100%完美。我们宁愿紧急行动,偶尔在质量上遭受一些小的打击,也不愿缓慢行动而错过时机。

在谈到公司实际的变化时,Van Aan写道:

现在,备忘录确实包含一个警告,即该公司仍然“非常关心其员工”,并将提供培训、指导和工具来支持这一转变。它表示,这项倡议是关于“消除瓶颈,以便我们可以利用我们现有的优秀员工做更多的事情”。我们希望您专注于创造性工作和实际问题,而不是重复性任务。

当然,这份备忘录与本月初发布的Shopify备忘录有着明显的共鸣,该备忘录告诉公司,除非团队证明他们无法使用AI完成他们想要完成的工作,否则将不会批准增加员工数量。AI顾问Ali K. Miller发布道:“首先是Shopify,现在是Duolingo。如果您是一家数字原生企业,并且还没有收到备忘录,那么这就是字面上的备忘录。”

现在,这是我们将在未来几天更多讨论的事情,所以我现在就先说到这里。但我认为,而且您不会惊讶于我认为这一点,这是趋势的开始。就目前而言,这就是今天的AI每日简报头条新闻版的全部内容。接下来是主要节目。今天的节目由Vanta赞助。

Vanta是一个信任管理平台,帮助企业自动化安全和合规性,使他们能够展示强大的安全实践并扩展规模。在今天的商业环境中,企业不能仅仅声称安全,他们必须证明这一点。

实现与SOC 2、ISO 27001、HIPAA、GDPR等框架的合规性,是企业展示强大安全实践的方式。而且我们每次在Superintelligent将企业与代理服务提供商联系起来时,都会看到这一点有多重要。对于企业来说,许多这些合规框架根本是不可协商的。

问题是,处理安全和合规性既费时又复杂。这可能需要数月的工作,并占用宝贵的时间和资源。Vanta通过自动化35多个框架的合规性,使其变得轻松快捷。它可以在几周而不是几个月内让您准备好接受审计,并为您节省高达85%的相关成本。事实上,最近的一份IDC白皮书发现,Vanta客户每年获得53.5万美元的收益,该平台在短短三个月内就能收回成本。

事实胜于雄辩。包括Atlassian、Quora等在内的10,000多家全球公司信任Vanta。在有限的时间内,听众可以在vanta.com/nlw获得1,000美元的折扣。这是v-a-n-t-a.com/nlw,可享受1,000美元的折扣。

今天的节目由Superintelligent赞助,我今天非常高兴地告诉您我们的咨询合作伙伴计划。新的Superintelligent是一个平台,帮助企业弄清楚要采用哪些代理,然后通过我们的市场,找到可以帮助他们实际构建、购买、定制和部署这些代理的合作伙伴。

这种体验的关键是我们所说的代理准备情况审计。我们部署了一套语音代理,可以采访您团队中的任何人,以发现代理在推动实际业务价值方面最有效的地方。从那里,我们提出了一系列建议,这些建议可以转化为市场上的RFP或其他类型的变更管理活动,帮助您为新的代理驱动型经济做好准备。

我们现在发现,咨询顾问将代理准备情况审计带给他们的客户作为帮助他们推进代理部署流程的一种方式,取得了巨大的成功,咨询顾问的角色是帮助他们的客户根据我们的建议确定合适的机遇,并帮助管理合作伙伴选择流程。基本上,审计大大减少了我们咨询合作伙伴的发现时间,这是我们非常高兴看到的事情。如果您经营一家公司,并且拥有可能适合代理准备情况审计的客户,

欢迎回到AI每日简报。今天我们将讨论Meta大型开发者大会LlamaCon,他们宣布的所有内容,人们对此感到兴奋的内容。我们将对扎克伯格的媒体闪电式访问进行一些回顾,因为

但所有这些背后都潜伏着一些问题,对Meta和开源都是如此。我认为,为了开始我们的讨论,重要的是回顾一下并提供一些背景信息。现在,Meta已坚定地将自己定位为一家大型科技公司,该公司将其未来与开源AI的成功联系在一起,而不是闭源模型。

这对许多人来说,是扎克伯格出人意料的转变。许多人认为这在很大程度上是机会主义的。但与此同时,对于长期以来一直在关注的人来说,马克·扎克伯格在苹果几乎通过改变iPhone模型的工作方式来扼杀他们的业务时,确实有过一种转变的经历。因此,开源的推动比人们想象的更具哲学上的连贯性。

无论动机是什么,它肯定奏效了。在2023年的大部分时间里,谷歌的一大恐慌是Meta的开发者生态系统击败了他们和OpenAI。在整个2024年,开源似乎也越来越接近闭源模型的性能,真正缩小了差距。

然而,Meta今年经历了一段艰难的时期。首先,早在1月份,当DeepSeek发布其推理模型时,有报道称Meta开始恐慌。我们看到了许多似乎来自内部的泄密事件,工程师报告说,该公司正在争先恐后地组建作战室,试图反向工程DeepSeek是如何用如此少的资源做到这一点的。总的来说,事情似乎处于动荡之中。

Meta的另一个争议时刻发生在他们发布Llama 4系列模型之后,人们指责他们有效地人为地提高了他们的基准分数,并且为一些基准测试发布了一个与他们向公众发布的模型不同的优先级模型。我们不会在这里重述这一点。关键是要说Meta进入LlamaCon时并没有处于浪潮之巅。在某种程度上,他们正在努力重新回到正轨。

所以首先,让我们谈谈在这个活动中发布了什么。请记住,大约一个月前我们收到了关于新模型的公告,所以没有人期望在这方面会有重大公告。一些重要的头条新闻包括首先是Llama的原生API。Llama API现在可在有限的预览版中使用,并与Meta的SDK配对,允许开发者在模型系列上进行构建。

该公司没有透露价格,但吹嘘其速度极快。通过与Cerebrus的合作,Meta声称其API的运行速度比OpenAI使用的传统GPU推理快18倍。当您考虑DeepSeek的原生API(其速度不到此速度的百分之一)时,这种比较甚至更好。

现在,API的功能符合您的预期,它提供了用于微调和评估的工具,以及为应用程序集成提供服务模型。它可能是基本的基础设施,但这仍然是Meta开始提供自己访问点的重要一步。另一个重要的公告,也是一个至少吸引更多消费者关注的公告,是关于Llama模型的独立聊天机器人应用程序的公告。现在,访问Meta的聊天机器人有很多方法。它们当然已经集成到WhatsApp、Instagram、Facebook和Messenger中。但是拥有一个独立的应用程序使Meta更接近其同行。

我们看到了Grok的类似情况,Grok最初仅通过Twitter/X发布其工具,但随后也推出了自己的应用程序。一个有趣的功能(来自Meta或许并不令人惊讶)是Llama应用程序有一个社交信息流。用户可以选择与Meta生态系统中的朋友分享他们的提示和回复。现在,我认为目前对这种功能没有“潜在需求”。

也就是说,Sam Altman公开谈论了可能在ChatGPT中创建一个社交网络的想法。总的来说,人们实际上喜欢分享和发现关于他们的同龄人和朋友的事情,这总是令人惊讶的。Meta的产品副总裁康纳·海耶斯表示,这个想法是向人们展示他们可以用AI做什么。

这实际上非常实用。在过去几年中,关于超级智能,我们看到的一件事是,AI使用的许多障碍在于人们只是不知道如何使用它。对于其他每项技术,模式都是少数几个用例发明者和发现者走出去,找出如何使用某物,然后我们都模仿他们。然而,在过去几年中,我们有点期望每个人都能自己找出如何使用AI,这再次与过去技术的推出方式背道而驰。

无论如何,至于重大公告,这些绝对是亮点。还有一些额外的技术补充可能会让一些开发者有所行动。例如,在他们的博客文章中,Meta强调了他们称之为LlamaStack的几个基础设施集成中的第一个。Meta表示,他们设想LlamaStack将成为企业寻求无缝部署生产级交钥匙AI解决方案的行业标准。他们还宣布了一套安全和审核工具以及开发者赠款。但总的来说,这是相当平静的。

关于人们对此的回应,TechCrunch认为整个会议都是关于削弱OpenAI的。Daniel Campos写道:“对一些人来说,很难不觉得在这个阶段,Meta已经明显落后了。根据基准测试,他们在消费者和编码助手市场落后于领先者OpenAI和Anthropic,

至少根据基准测试来看是这样。他们最新的模型已被来自中国的新的开源版本超越。然而,在他的主题演讲中,扎克伯格阐述了他所看到的AI竞赛的下一章将如何展开。他说:“开源的部分价值在于您可以混合搭配。因此,如果另一个模型如DeepSeq更好,或者Quan在某些方面更好,那么作为开发者,您可以利用不同模型中最好的智能部分来精确地生成您需要的内容。我认为这就是开源基本上超越所有闭源模型的方式。”

这感觉像是一种不可阻挡的力量。AI企业家Ted Benson阐述了他的看法,并发布道:“……第一个LlamaCon主题演讲刚刚结束几秒钟,我觉得我第一次了解了Meta的AI战略。他们没有直接说明,但你可以在字里行间听到。”许多人推测扎克伯格正在采取一种“商品化竞争对手”的方法,因为他害怕再次被困在另一个公司的平台中的应用程序中。我不认为是这样。

如果AI和AR代表了一种全新的计算范式,那么这种新的范式将需要一个新的操作系统。而这个新的操作系统将需要许多标准实用程序,就像GNU实用程序之于Linux一样。小型微调模型、大型库存模型、实时语音模型、3D理解模型、图像分割模型、场景生成模型……

总的来说,这听起来像是完全不同的AI和AR计算平台的标准库。坚持所有LAMA衍生产品都以LAMA-为前缀,这感觉很意味深长。在过去的40年中,我们一直在GNU Linux之上构建,我认为五年后,Meta希望我们都在LAMA-something之上构建。佐证这一点的是,在整个活动中,以及在他多次播客露面中,扎克伯格都戴着Meta Ray-Ban眼镜。

现在,让我们退一步,从Meta转向更广泛的问题,即开源的现状。重要的是要记住,虽然DeepSeek R1是一种现象,但这并不是因为它在基准测试中超越了OpenAI的R01等产品。事实上,就性能而言,它很快就被所有主要AI实验室的版本所掩盖。

它之所以产生如此大的共鸣,是因为它是第一个免费提供的推理模型,是消费者第一次在免费聊天应用程序中获得推理功能,并且是因为围绕其廉价训练方式的各种小道消息。

在与会议同时发布的Dwarkesh播客中的一次露面中,Dwarkesh直接询问扎克伯格他对Llama 4 Maverick现在在LLaMA排名第35位,并且在大多数基准测试中普遍落后且表现不佳的感受。Dwarkesh说,扎克伯格回应道:

预测今年开源模型将普遍超过闭源模型成为最常用的模型,总体上正在实现。在谈到推理模型的基准测试优势时,扎克伯格表示,扩展测试时间计算的新范式令人信服,并且很快就会推出Llama 4推理模型。然而,他补充说,对于我们关心的许多事情来说,延迟和每单位成本的良好智能实际上是更重要的产品属性。

他还认为基准测试是可以操纵的,尤其是在LM Arena方面,并表示针对基准测试性能进行调整经常会使公司误入歧途。他说:“我认为你只需要对一些基准测试稍微小心一点,我们将主要根据产品进行索引。”现在,如果你环顾四周,仍然有很多怀疑Meta目前状况的声音。本月早些时候,《财富》杂志例如发表了一篇文章,题为《一些内部人士说Meta的AI研究实验室正在缓慢走向死亡》。

我不太确定。毫无疑问,开源竞争正在加剧,来自中国的模型正在给扎克伯格和所有其他正在考虑开源的人施加巨大的竞争压力。开源模型也没有超越大型闭源模型,尤其是在推理成为主导范式的情况下。但我确实认为,扎克伯格在这里正在玩一场极其漫长的游戏。

我不相信他认为获胜是看谁在Apple App Store排行榜上拥有最多的下载量应用程序。我认为他认为获胜是看谁拥有未来的基础设施,这基本上是Ted Benson在那篇文章中所争论的。毫无疑问,某些竞争压力可能迫使Meta的时间表以一些令人不舒服的方式进行,并给人留下落后的印象,但我还远没有放弃他们。但至少现在就是这样。

感谢大家一直以来的收听或观看。直到下次,再见。