We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #210 - Claude 4, Google I/O 2025, OpenAI+io, Gemini Diffusion

#210 - Claude 4, Google I/O 2025, OpenAI+io, Gemini Diffusion

2025/5/26
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
Topics
Andrey Kurenkov: 我认为Google在IO 2025上展示了其在AI工具和应用方面的强大实力,包括AI搜索、Project Mariner、Veo视频生成、Imagen图像生成等。这些工具的发布和升级,标志着Google在AI领域的全面进攻,旨在保持其在搜索和技术领域的领先地位。特别是AI搜索的深度整合,以及Project Mariner的Agent能力,都显示了Google对未来AI应用的深刻理解和布局。 Jeremie Harris: 我认为Google的AI战略是防御性的,旨在防止OpenAI等竞争对手侵蚀其核心搜索业务。Google在AI领域的巨大投入和技术积累,使其能够迅速推出各种AI工具和应用。Veo视频生成和Imagen图像生成等工具的发布,展示了Google在多模态AI方面的强大能力。Project Mariner的Agent能力,以及AI搜索的深度整合,都显示了Google对未来AI应用的深刻理解和布局。Google需要确保其AI产品在安全性和可靠性方面达到最高标准,以避免潜在的负面影响。

Deep Dive

Chapters
Anthropic released Claude Opus 4 and Sonnet 4, showcasing improvements in coding, long workflows, and reduced shortcut behaviors compared to previous versions. The models excel at managing memory files and integrating with development environments.
  • Claude Opus 4 and Sonnet 4 released
  • Significant improvements in coding and long workflows
  • Reduced shortcut and loophole behaviors
  • Improved memory performance and file management
  • Tighter integration with development environments via SDK

Shownotes Transcript

您好,欢迎收听本周 AI 播客,在这里您可以听到我们聊聊 AI 领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的 AI 新闻。您可以访问节目说明,查看我们正在讨论的新闻的所有链接和时间戳,以便您可以跳到您想讨论的部分。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习 AI,现在在一家生成式 AI 初创公司工作。

您可以听到我在这里打字,因为我正在对疯狂的一周做最后的记录。如果我们今天的工作做得好,这将是一集精彩的节目。如果我们工作做得不好,它看起来就像任何其他一周一样。这太疯狂了。顺便说一下,我是 Jeremy。如果你收听的话,你们都认识我。Gladstone AI,国家安全,所有这些爵士乐。这太疯狂了。我认为我们上周谈到过这一点,

我们正在追赶两周的新闻。我们当时谈到,每当我们错过一周,变成两周时,不可避免地,这就像最糟糕的两周。而 AI 宇宙那时是仁慈的。这次它并不仁慈。这又是一个疯狂的、精彩的一周。真的很兴奋能深入了解它。但是,天哪,有很多内容需要涵盖。没错。是的。几个月来可能都没有这样的一周了。

我认为大约在二月份,有一周的情况类似,来自多家公司的许多发布和公告都集中在一起。这就是我们在这周看到的情况。为了让您有所了解,令人兴奋且内容丰富的部分是关于工具和消费产品的公告。

谷歌举行了 2025 年的 I/O 大会,大部分新闻都来自那里。你可以说,他们真的全力出击,发布了大量内容,要么是从测试版中发布,要么是宣布的实验,要么是演示等等。我们将深入探讨所有这些。之后,Anthropic 发布了 Claude 4。并且-

除了 Claude 4 之外还有一些额外的东西,这也是一件大事。这两者加在一起,让这一周变得非常非常热闹。所以这将是我们一直在讨论的内容。然后在应用和业务方面,我们将有一些与 OpenAI 相关的报道。我们将有一些有趣的研究,以及一些关于

与这些新模型和其他近期发布相关的安全性的政策和安全更新。但是,是的,令人兴奋的内容肯定会在最前面,我们只会深入探讨。工具和应用中的第一个是 Claude 4。也许是因为我对什么令人兴奋有自己的偏见。

所以这是 Claude Opus 4 和 Claude Sonnet 4。这是 Anthropic 的 Claude 的大型和中型版本。之前,我认为我们几个月来一直使用 Claude 3.7。Claude 3.7 已经存在一段时间了,但时间并不长。这几乎是一个等效的更新。它们的价格与 3.7 版本相同。Claude

这里的重点是它们在编码方面特别好,并且在长时间的工作流程方面也更好。因此,它们能够在工作流程的许多步骤中保持专注的努力。这也与

Cloud Code 的更新相结合。因此,它现在与开发环境更紧密地集成,现在带有 SDK,因此您不必将其用作命令行工具,您可以以编程方式使用它。并且与此相关的是,这两个模型 Opus 和 Sonnet 与 3.7 一样都是混合模型。因此,您可以调整模型的推理预算。所以

我认为,与 Anthropic 一直在做的事情相比,在质量上没有什么新东西,但它确实加倍关注了代理方向,即人们似乎正在针对以下任务优化这些模型:给模型一些工作,让它去做,然后过一会儿回来看看它用类似 Cloud Code 的东西构建了什么。

是的,发布的两个模型是 Claude Opus 4 和 Claude Sonnet 4。请注意命名约定再次发生细微变化。所以不再是 Claude 4 Sonnet 或 Claude 4 Opus。现在是 Claude Sonnet 4、Claude Opus 4,我个人更喜欢后者,但是,随你便。

很多非常有趣的结果。让我们从 Sweebench 开始吧,对吧?所以这个 Sweebench 验证了这种类似软件工程伪现实世界任务的基准测试,OpenAI 确实对其进行了改进,但无论如何,它是在一段时间前首先开发的。因此,OpenAI 的 Codex One,我年纪够大,记得几天前它还是一件大事的时候,仅供参考,它达到了大约 72%,72.1% 的成功率。

在这个基准测试中。那真的相当高。事实上,在整整 20 秒的时间里,它都是苏打水。这真是个大事,就像它在发布的那天星期二一样。而现在是星期五,不再是大事了,因为

Sonnet 4 达到了 80.2%。现在,从 72% 到 80%,这是一个很大的飞跃,对吧?你想想有多少……剩下的东西不多。你只有 30 个百分点的空间,而他们用一次进步就拿走了其中的八个。有趣的是……

Opus 4 得分 79.4%。所以在这一点上与 Sonnet 的性能差不多。我们对 Opus 4 与 Sonnet 4 之间的关系以及蒸馏是如何发生的(如果有的话)并没有太多信息,例如额外的训练。无论如何,这是一种我们将来可能会了解更多的情况。而这是数字 V,就像具有大量计算数据的高端一样。

你知道,例如与 OpenAI 的 O3 类似,当你让这些模型工作一段时间而不

一种更有限的变体。实际上,这是一个非常好的标志,对吧?存在推理时间计算、测试时间计算模型的范围,是的,您拥有这种低推理时间计算预算分数,在这种情况下约为 70% 到 73%,然后是高推理时间计算预算,对于这两个模型都约为 80%。再次与 Codex One 相比,Codex One 的得分为 72.1%,

在这个数字中,他们实际上并没有表明这是低计算模式还是高计算模式,这本身就有点模棱两可。但无论如何,这是一个巨大的飞跃。这在许多获得早期访问权限的人们在 X 上分享的定性评估中得到了证实。所以你对此怎么想就怎么想。

各种非常有趣的事情。因此,他们显然已经找到了如何显著减少与让模型使用捷径或漏洞相关的行为。Codex One 的一个巨大的挑战。

很多人一直在抱怨这个问题。就像,它太聪明了,对吧?O3 模型也存在这个问题。他们有时会找到一些有点危险的创造性解决方案,你会说,不,我不是想让你那样解决问题。就像那是一种,那是一种,你在这里有点作弊。以及其他一些事情,他们会告诉你他们完成了任务,但实际上他们并没有。这是一种我发现对,尤其对 O3 来说有点令人沮丧的事情。但是这个模型的这种情况要少得多。

这两个模型,即 Opus 4 和 Sonnet 4,他们说,在特别容易出现捷径和漏洞的代理任务上,它们参与这种行为的可能性比 Sonnet 3.7 低 65%。

所以这很酷。另一个重要的方面是内存性能。因此,当开发人员构建允许 Claude 访问本地文件的应用程序时,Opus 4 非常擅长创建和维护内存文件以存储信息。所以这是一种

对持久性 LLM 内存问题的部分解决方案,对吧?就像你只能在上下文窗口中放入这么多内容一样。这些模型非常擅长构建,例如创建内存文件,显式内存文件。所以不仅仅是存储上下文,而是检索它们。所以它们真的很好

一种隐式 rag,我想你可以这样称呼它。它不是真正的 rag。只是它们的回忆能力非常好。有很多功能与此一起提供。与任何大型版本一样,这就像各种各样的东西,你必须挑选并选择你想要强调的内容。我们将深入探讨这一点,但这里一些最有趣的内容是在 Cloud 4 系统卡中。我认为,Andrey,如果我错了请纠正我,我们稍后会有一个专门讨论系统卡的部分吗,还是就这样?

我认为我们可以在进展部分再回到这个问题,因为关于谷歌的内容太多了。所以我们稍后会更深入地探讨技术细节。但在高层次上,我认为,作为谷歌、

ChatGPT、LLM 等的用户,这是一个相当大的进步。尤其是在 Cloud Code 上,以及让这些 LLM 去完成你的事情的能力上。所以现在从 Anthropic 转向,接下来我们将讨论来自谷歌 I/O 2025 的所有新闻,以及

有很多东西需要处理,所以我们将尝试快速处理它们。首先是谷歌搜索中的 AI 模式。所以很快,我想你将在谷歌搜索中有一个标签,其中包含 AI 模式,这基本上就像搜索的 ChatGPT 一样。

谷歌已经有一段时间提供 AI 概述了,如果你这样做,我认为至少对于某些搜索来说,你会得到来自各种来源的 LLM 摘要以及对你的查询的答案。AI 模式就是这样,但更深入。它深入探讨各种来源,你可以向它提出后续问题。所以非常像

现在,与 Perplexity 提供的内容、ChatGPT 搜索提供的内容等类似,

是的,我认为这与之相当。谷歌已经展示了各种各样的东西,你可以用它来购物。它有图表。它可以进行深度搜索,能够查看数百个来源等等。

是的,这种紧密的集成是,我的意思是,谷歌必须这样做。显然,谷歌的一个问题是,当你每年从搜索市场赚取数百亿美元,并且拥有 90% 的市场份额时,这都是负面因素,对吧?你担心的是,如果有一天 OpenAI,比如 ChatGPT 突破某个阈值,并且成为搜索的默认选择怎么办?

甚至不是一个巨大的默认选择,只是对 5% 以上用户的默认选择。一旦发生这种情况,谷歌的市值实际上会下降超过 5%,因为这表明其业务基础正在受到侵蚀,对吧?所以这对谷歌来说是一场非常严重的五级火灾。这就是他们试图更积极地在搜索功能中加入生成式 AI 的原因,这已经过期了。我

我认为很多人都在想,为什么这花了这么长时间?我认为需要注意的一点是,在如此巨大的市场中拥有如此巨大的市场份额会带来巨大的风险。是的,对于 OpenAI 来说,推出 ChatGPT 并让它告诉人们自杀或帮助人们埋葬尸体偶尔是可以的。人们会原谅它,因为它是一个新兴企业,对吧?至少他们在 2022 年是这样做的。而对于谷歌来说,如果谷歌这样做,

现在你会有国会和参议院的传票,人们会想要你出庭作证,他们会严厉盘问你,Josh Hawley 会狠狠地批评你。

但这就是问题所在,对吧?你接触到的受众规模要大得多。这已经平衡了。所以 OpenAI 仍然受益于其品牌,即有点全力以赴。所以在某种程度上,期望值有点低,这在这一点上是不公平的。但谷歌肯定继承了大型公司拥有大量用户的遗产。所以是的,由于完全合法的市场用户原因,推出速度会比较慢。

市场原因。无论如何,我认为这非常有趣。我们将看看这是否真的会成功。我们也将看看这对 ChatGPT 会有什么影响。我要说的是,谷歌产品套件是一个相对来说鲜为人知的、非常好的生成式 AI 产品套件。我经常使用 Gemini。

人们不太谈论它。我觉得这很有趣。我认为这是谷歌营销方面的一个失败,这很奇怪,因为他们的平台如此庞大。所以也许这是一个让他们解决这个问题的方法。

好吧,我们将讨论可能比某些人更高的使用率。我认为这里可能存在硅谷泡沫的情况,你不在硅谷,但你在精神上属于硅谷,就泡沫而言。继续前进。下一个公告也来自 Yo,谈论的是 Project Mariner。

所以这是一个来自 DeepMind 的实验项目。这相当于在计算机使用之上打开操作员,亚马逊的 Nova。它是一个可以访问互联网并为你做事的主体。它可以访问网站,查找活动的票务,订购票务等等,

所以谷歌通过测试和早期反馈改进了这一点,现在将开始向更多人开放。访问将通过此新功能进行控制

AI Ultra 计划,每月 250 美元,这也是在公告中介绍的。所以这个每月 250 美元的计划将为你提供所有高级功能、所有模型、最多的计算能力等等。你也可以使用 Project Mariner。有了这个更新,

你可以向 Project Mariner 提供多达 10 个任务,它将在后台为你完成。有点令人困惑的是,谷歌还演示了代理模式,这将在 Gemini 应用程序中。看起来代理模式可能只是一个界面功能

Gemini 应用程序中的 Mariner?也许吧,我不太确定,但显然 Ultra 订阅者也将很快可以使用代理模式。

是的,而且我发现很难突出这种新版本的基本区别,因为我们经常发现自己说,哦,它和以前一样,只是更聪明了。而这本身就是真实的,也是具有变革意义的。在这种情况下,有一件事你在这里提到了,但要明确地说出来。

以前版本的 Project Mariner 只能一次执行一项任务,因为它们实际上是在你的浏览器上运行的。在这种情况下,最大的区别在于,因为它们在云端并行运行,是的,你可以同时执行 10 个或 12 个任务。所以这在某种程度上是一个变化,对吧?这就像许多工人同时处理你的东西一样。

这改变了人们的方式,你更多的是这个宇宙中的协调者,而不是某个特定 AI 的领导者。这很有趣。继续前进,接下来我们将介绍 VO3,我认为从公告的哇因素来看,这是最高的。我认为就影响而言,可能不是最高的,但是……

就哇,AI 仍然以某种方式让我们大吃一惊而言。VO3 是谷歌 I/O 的亮点。这是因为,它不仅现在可以生成

与一年前相比,更连贯、更逼真的视频 但它同时生成视频和音频,而且做得相当不错。所以有很多关于 VO3 可以做什么的演示

那些让我印象深刻,而且我认为很多人也印象深刻的是,你可以制作模仿采访或典型的 YouTube 风格内容的视频,例如,你去参加一个会议,与人们交谈,你让人们对着镜头说话,并且听起来很真实。而且,是的,你知道,它与我们之前看到的视频生成不同,并且

还附带了谷歌的一个新工具 Flow,可以将多个视频编辑在一起。所以,再次强调,谷歌的表现非常令人印象深刻。这也属于他们的 AI Ultra 计划。很有趣,因为他们还在他们的发布网站中包含了一组基准测试,顺便说一下,这些基准测试是隐藏的,对吧?你实际上必须点击一个东西才能看到任何……

当你有那种哇的时刻时,我总是觉得查看这些很有趣。我不是想说这是文本到视频的 ChatGPT 时刻,因为我们还不知道采用率会是什么样子。但从影响的角度来看,这绝对是一个哇的时刻。但是,当你看到它与 VO2 相比如何转化时,VO2 相对来说鲜为人知,很多人并没有谈论它。他们当时确实谈论过,但它并没有真正流行起来。

所以胜率为 66%。所以三分之二的时间它会在某种电影生成基准测试中击败 VO2,这是一个 meta 发布的基准测试。它基本上是关于视频的偏好,以及

所以它大约三分之二的时间获胜。它四分之一的时间失败,然后十分之一的时间打平。所以它看起来是一个相当不错的表现,但不像你可能那样令人震惊,很难从这些数字中得出结论,哦,哇,这就是它的影响。

但它肯定在那里。当你看到这些时,它非常好。这也说明了这些生成的连贯性。并不是说他们可以仅仅挑选一些好的视频。它确实始终如一地击败了以前的版本。对。他们实际上也更新了 VO2。所以这只是为了说明这在公告方面有多疯狂。VO2 现在可以……

参考照片。我们已经在其他一些更新中看到了这一点。所以你可以给它一张 t 恤或汽车的图片,它会将其融入视频中。所有这些都包含在这个 Flow 视频创建工具中。它有相机控制。它有场景构建器,你可以在其中编辑和扩展现有镜头。它有这个资产管理功能,你可以在其中组织素材和提示。

他们还发布了名为 Flow TV 的东西,这是一种浏览人们使用 VO3 创建的内容的方式。所以有很多东西。现在谷歌正在竞争更多的跑道,并且,我想,谷歌在完全发布 Sora 时开始做的事情,Sora 有一些内置的编辑功能。现在 VO 不仅仅是文本到视频。他们拥有更全面的功能

使文本到视频变得有用。是的。我认为音频的加入也很重要。这是另一种模式。它有助于更好地定位模型。我怀疑由于视频和音频之间的因果关系,这实际上是一件很有意义的事情。从整个正迁移的角度来看,这很有趣。

你是否达到了模型足够大、消耗足够多的数据的地步,以至于它们从一种模式中学到的东西会在添加另一种模式时导致它们表现更好,即使问题的复杂性增加了?

我怀疑这将会发生,而且可能已经发生了,这意味着我们将默认进入一个拥有更多多模式视频生成的世界。至少这不会太令人惊讶。接下来,你知道,谷歌,我想,并不仅仅是想做文本到视频。所以他们还用 Imagine 4.0 做了文本到图像。

这是他们旗舰文本到图像模型的最新迭代。正如我们在文本到图像中看到的那样,它在遵循提示、文本方面更加逼真和出色。他们强调了非常细微的东西,例如能够处理详细文本。

动物的织物和毛皮。而且他们显然也注意到了文本和排版的生成。

这可以用于幻灯片、邀请函和其他东西。所以也为他们的工具套件推出。最后要提到的关于这一点的是,他们还说这将比 Imagine Free 更快。计划是使其速度比 Imagine Free 快 10 倍。是的。

是的,这还不清楚,因为我们谈论的是产品而不是模型本身。不清楚这是因为将上线一个计算集群,这将允许他们更快地处理图像,还是因为存在实际的算法进步,使其计算效率提高了 10 倍或其他什么。所以对于这些事情总是很难知道。这可能是两者的混合。但有趣的是,是的,我的意思是,我已经到了依靠仪表飞行的地步。我觉得我无法区分这些不同的图像生成模型,

诚然,这些照片看起来非常令人印象深刻。别误会我的意思,但我就是,我无法分辨出增量差异。所以我最终只是查看了,是的,每个令牌多少钱,或者每张图片多少钱。所以,你知道,价格和延迟都在迅速下降。

继续前进,我们还有几件事。我们甚至不会详细介绍谷歌的所有公告。这只是我认为有意义的重点介绍的选择。下一个是谷歌会议正在获得实时语音翻译。所以谷歌会议是谷歌提供的视频会议产品,类似于 Zoom 或其他类似产品。是的,现在你将能够……

几乎实时翻译。这类似于为新闻发布会等配备实时翻译。当你开始说话时,它会开始……

在几秒钟内翻译成配对的语言,跟随你。他们开始将其推出给消费者 AI 订阅者,最初只支持英语和西班牙语。他们说将在未来几周内添加意大利语、德语和葡萄牙语。所以这是我一直期待的事情。老实说,我一直认为说英语以外语言的人只是在说完全胡话。所以这真是一个冲击,是的。不,但它很有趣,对吧?这是另一个你达到延迟跨越临界阈值并成为神奇解锁的点的情况。

就像一个需要 10 秒才能生成翻译的模型基本上是无用的,因为它至少是一个非常尴尬的对话,至少对于谷歌会议的目的而言是这样。所以这是另一个谷歌花了点时间的情况,正如你指出的那样,但风险非常高。如果你误译了一些东西并引发争论,或者,你知道,无论什么,那都是一件真实的事情。而且由于他们的影响力,他们正在将其部署到如此之多的视频聊天中,这将必须成为公司计算的一部分。

对。而这是我们不会详细介绍的事情,但谷歌确实展示了他们的智能眼镜的演示。我认为这值得注意,因为 Meta 有他们的智能眼镜,并且它们具有实时翻译功能。所以如果你去一个外国,对吧,你可以拥有你的耳机翻译器。我不会惊讶,如果这也是这项工作的一个计划。

但最后要提到的关于谷歌的事情,不是重点,但我认为值得注意的是,我们将与其他事情进行比较,那就是

谷歌还宣布了一个新的 Jules AI 代理,旨在自动为开发人员修复编码错误。这是你可以在 GitHub 上使用的工具,它非常类似于 GitHub Copilot。你将能够指派它与你在你的代码库上一起工作。显然它很快就会发布。所以这只是宣布,并且

是的,它将为你规划、修改文件并准备拉取请求以供你在编码项目中审查。是的,就像每一个这样的产品公告一样,谷歌都说 Jules 处于早期开发阶段,可能会出错,无论如何,我认为我们将一直这么说,直到我们达到超级智能,因为,你知道,幻觉是一个持续存在的事情,但就是这样。

对。下一个故事实际上与之直接相关。那就是 GitHub 宣布了新的 AI 编码代理。GitHub Copilot 已经存在一段时间了。你可以指派它在拉取请求上、修改代码库的请求上审查你的代码。

谷歌也有能力集成 Gemini 来查看代码。所以微软非常直接地与 Jules 和 Codex 竞争,提供了一个你可以指派它去编辑代码并准备拉取请求的代理。所以……

这只是所有公司都非常迅速地朝着编码代理和更广泛的代理方向发展的有趣趋势的一部分,而不是他们以前那样。是的,这也很值得注意,因为微软和 OpenAI 显然在这个亦敌亦友的关系中存在竞争。Copilot 是第一个,除了 OpenAI 的 Codex 之外,

最早的某种大规模部署,至少是代码自动补全,我想是在2020年,甚至2021年,就在GBD3之后。

是的,所以他们在这个案例中继续了这一传统,某种程度上也是快速追随者,这很有趣。就像他们不再是游戏中的第一名了,这是一个值得注意的事情,因为这是一个很大的变化。还有一件小事值得一提。此外,他们还宣布了GitHub Copilot for VS Code的开源。所以这是一个很书呆子的细节,但是,是的。

你也有来自Cursor和其他一些替代开发环境的竞争,Cursor背后的公司现在估值数十亿美元。这是微软Visual Studio Code与GitHub Copilot的直接竞争对手。所以他们将GitHub Copilot扩展程序开源到Visual Studio Code真是太棒了。

一个有趣的举动。我认为他们试图与那些开始在这个领域占据主导地位的初创公司竞争。还有一件事要补充一下。我认为我们之所以注意到它,是因为它与这种趋势有关。Mistral,这家……

一家试图与OpenAI和Anthropic竞争的法国公司宣布了DevStral,这是一个专注于编码的新AI模型。这将以Apache 2许可证发布,并与Gemma Free 27B等产品竞争,所以这是一个中端编码模型。

是的,Mistral还在开发一个更大的代理编码模型,据说很快就会发布,而这个是较小的模型,还不够好。这也是对Codestral的后续,Codestral的许可比Devstral更严格。

就是这样。每个人都比以前更多地参与到编码中。你得到一个代理,你又得到一个代理。关于应用和业务,我们首先要讲的不是最重要的故事,但我认为这是最有趣或最奇怪的故事,那就是OpenAI宣布他们完全收购了一家来自亚马逊的初创公司。

是乔尼·艾夫吗?是的,乔尼·艾夫。是的,乔尼·艾夫。是的,是的。

他似乎创办了IO这家初创公司……这里的细节对我来说相当奇怪。所以有一家乔尼·艾夫两年前与山姆·奥特曼一起创办的初创公司,我们对它一无所知,也不知道它做了什么。OpenAI已经拥有这家初创公司23%的股份,现在正在进行全额股权收购。

他们说他们为此支付了50亿美元。这是一家拥有55名员工的公司……

再说一次,至少我没有看到任何东西。他们说员工会过来。乔尼·艾夫仍然会在Love From工作,这是一家广义上的设计公司,设计过各种各样的东西。所以乔尼·艾夫不是OpenAI或IO的全职员工,而是一种兼职贡献者、合作者。

最重要的是这些各种奇怪的细节,这次发布还附带了一个视频,山姆·奥特曼和乔尼·艾夫在旧金山散步,在一个咖啡馆见面,进行了大约8分钟关于价值观、人工智能和他们合作的对话,这种氛围非常非常奇怪。你知道,试图让这场谈话

非常艺术化,我想,感觉。他们还发布了一篇名为“乔尼和山姆”的博客文章。无论如何,我不理解这方面的公关方面,也不理解这方面的业务方面。所有这些对我来说都很奇怪。

它几乎读起来像乔尼·艾夫设计的一个登陆页面来宣布它。非常简洁、简单,几乎可以说是苹果风格。实际上与Love From非常相似,他们的网站也有同样的风格……是的。他们的博客文章就像这种极简主义的、居中的文本、大文本。标题是“乔尼和山姆”,我认为。我只是要说它很奇怪。

在这篇博客文章中,他们谈到了这个故事的起源。我认为IO首次推出时,当时的新闻报道将其描述为山姆·奥特曼和乔尼·艾夫的新公司。言下之意是,这是一家由山姆和乔尼共同创办的公司。根据他们所说,情况显然并非如此。他们

暗示,他们说类似于它诞生于乔尼和山姆之间的友谊,这非常含糊。但该公司本身大约一年前由乔尼·艾夫与苹果校友斯科特·坎农、唐·坦和埃文斯·汉基共同创办。埃文斯·汉基在乔尼离开后接替了他在苹果的职位。所以他们关系密切,有很多共同的历史,但没有一个实际的联合创始人山姆。

OpenAI已经拥有该公司23%的股份。所以他们只需要支付64亿美元总估值中的50亿美元来收购该公司。然后,正如你所说,不知何故,乔尼最终仍然是一个自由的代理人,可以在Love Run工作。顺便说一句,高。

非常非常不寻常的是收购一家公司,即使规模达到60亿美元,也要让一位核心人物,可以说是最重要的联合创始人离开。这通常不是这样进行的。通常,WhatsApp被Facebook收购的著名案例,

是,我忘了是什么,大概是50亿美元的收购,但WhatsApp的创始人很早就离开了Facebook。所以他当时正在股权归属计划中。所以他的大部分股份都消失了,如果他留下来的话,他实际上并没有得到他应得的钱。所以很常见的事情,奇怪的是乔尼可以离开并离开。而且,显然,我不知道他是否还在从这笔交易中赚钱,或者说,太奇怪了。这似乎是一笔非常深奥的交易,但是

但底线是他们正在做很多硬件方面的事情。OpenAI已经聘请了Meta的Orion增强现实眼镜计划的前负责人。那是去年11月。

负责其机器人和消费类硬件工作。所以OpenAI正在进行很多事情。这大概也包含在硬件故事中。我们没有太多信息,但大概有一些神奇的设备不是他们一起开发的手机。谁知道呢?对。所以这个公告非常简短,我不知道,也许九段,是

最后说,随着IO与OpenAI合并,乔尼和Lovefrump将承担OpenAI和IO的深度设计和创意责任。不像一个强烈的承诺。它仍然是一个自由的代理人。什么?深度设计和创意责任。是的,IO似乎正在开发一款新的硬件产品,正如你所说,一种硬件接口,

用于类似于Humane AI pin和Rabbit R1的人工智能,著名的巨大失败。看看他们是否仍然希望在OpenAI和乔尼·艾夫的帮助下制造这款人工智能电脑或任何你想称之为的东西,人工智能接口,这很有趣,但是……

无论如何,是的,这个公告、这个视频以及围绕这个的商业故事都散发着如此奇怪的氛围。一个公告能有代码异味吗?因为我觉得这就是这种情况。

接下来是关于OpenAI在阿布扎比计划中的数据中心的一些内容。他们说他们将在阿布扎比开发一个巨大的5吉瓦数据中心,这将是全球最大的AI基础设施之一。所以这将

跨越10平方英里,并与G42合作完成,并将成为OpenAI的Stargate项目的一部分,我有点记不清了,OpenAI的Stargate项目,就像他们可能想把所有数据中心都放在哪里一样。当然,这是在特朗普之后

在中东与G42合作,G42表示将切断与华为和北京基因组研究所等实体的联系,剥离其股份。

从国家安全的角度来看,这相当疯狂。这与我们上周或前一周看到的特朗普与阿联酋和沙特阿拉伯达成的协议不无关系。作为背景,OpenAI在得克萨斯州阿比林的第一个Stargate园区,我们已经讨论了很多次,预计将达到1.2吉瓦。在美国电网上找到多余的1吉瓦电力真的非常困难。这是美国转向沙特、阿联酋等国家寻找能源的主要原因之一。我

以及卡塔尔,在这些能源丰富的国家电网上寻找能源。所以当你看到5吉瓦时,这是现在在阿比林建设规模的五倍。这将使其成为迄今为止OpenAI考虑的规模最大的建筑,对不起,最大的集群。这也意味着它将位于外国土地上,位于美国与之有着复杂过去的一个国家的土地上。而且

仅仅根据我们在保护建筑和数据中心方面所做的工作,我可以告诉你,这极其困难

当你无法提前控制将要建造该建筑的实际土地时,实际上要保护某些东西。在这种情况下,你一开始就面临安全问题。从表面上看,由于各种原因,在阿联酋建设并非一种选择。你可能会告诉自己你正在控制这个环境,但实际上你无法做到,也不会做到。

所以从国家安全的角度来看,我的意思是,我真的很希望政府能够密切关注此事,并且他们能够请来,你知道,特种部队、情报人员,包括来自私营部门真正了解情况的人。我必须说,包括Stargate系列在内的当前建筑令人惊叹。

安全级别并不令人印象深刻。我听说过很多非公开的私人报告,这些报告清楚地表明情况确实如此。所以这是一个非常非常大的问题。就像我们必须弄清楚如何保护这些东西一样。有一些方法可以做到,也有一些方法做不到。但OpenAI到目前为止并没有令人印象深刻地对待安全问题。他们一直在夸夸其谈。但实际情况似乎大相径庭,这只是根据我们听到的内容。

所以,一个非常有趣的问题。我们是否会让这个建筑建起来?从国家安全的角度来看,它是否有效?需要什么才能保护它?是的,无论如何,这都是我们长期追踪的G42背景故事的一部分,包括微软和OpenAI以及美国等等。

是的。而且似乎在特朗普执政期间,这种联系肯定会进一步加深。OpenAI、微软和其他科技公司似乎很乐意加入这一举动。是的,正如你所说,该地区对OpenAI等事物的投资很多。所以是的。

如果能够保证安全,这是值得的。这减轻了美国电网的巨大压力,对吧?我们不会在明天就建造或找到5吉瓦。我们实际上不知道如何在不到十年的时间里在美国建造核反应堆。所以这是一个非常好的选择。沙特资本、阿联酋资本,这些都是好东西,如果它们不涉及信息权利或其他什么的话。但是是的,这就像,如果你想获得

沙特和阿联酋能源的成果,你必须确保你了解如何保护这些东西的供应链。是的。有了这笔数十亿美元的投资,你会希望他们付出一些努力。你会感到惊讶的。安全很昂贵,实际上它不能仅仅用金钱来购买,因为真正知道如何保护这些地点的团队是

能够抵御例如中国或俄罗斯国家攻击的程度非常罕见。这实际上就像海豹突击队第6分队和三角洲部队以及相关机构中的几个人一样。而且,是的,他们对时间的需求非常高。除非你有一种可靠的方法到达那里,否则你可能无法通过网络联系到他们。所以,这是一个非常棘手的问题。

接下来是下一个故事,我认为对我来说另一个奇怪的、几乎滑稽的故事,我认为值得报道,LM Arena,它拥有著名的AI排行榜,经常被报道。我认为我们就在几周前报道过它。围绕人工智能出现了一场重大争议。

似乎大型商业参与者正在操纵竞技场,以领先于开源竞争对手。

该组织宣布在A16Z和UC Investments牵头的种子轮融资中获得1亿美元。这将使他们的估值达到约6亿美元。这是在他们获得赠款和捐款之后。所以……

我不明白。这个排行榜公司组织的承诺是什么?这只是慈善吗?无论如何,对我来说这非常奇怪。我很想看看那张幻灯片,那份宣传册。这里有很多

至少可以说很有趣。顺便说一句,需要注意的是,他们筹集了1亿美元的种子轮融资。这不是一轮定价融资。作为背景,当你进行种子轮融资时,哦,天哪,这会涉及到不必要的细节,但基本上,如果你用安全来筹集资金,这是一种避免对你的公司进行真实估值的方法。通常,种子轮融资的全部内容是你不会放弃董事会席位。

而如果你进行A轮或B轮融资,你就会开始放弃董事会席位。所以这意味着他们拥有很大的杠杆作用。如果你筹集了1亿美元,并称之为种子轮融资,你基本上是在说,是的,我们会接受这笔钱。你会得到你的股权,但不要想获得董事会席位。这就是这里的框架。你通常只有在拥有很大杠杆作用的情况下才能做到这一点,这再次让我们回到了你非常好的、根本性的问题。这里的盈利故事是什么?而且

我不知道,但值得注意的是,LM Arena被指控帮助顶级AI实验室操纵其排行榜,他们否认了这一点。但是当你考虑一下,好吧,这样一个结构如何获利?那么,

也许表现出某种不明显的偏好,但对某些实验室的微妙偏好或间接偏好。我不知道。我在推测,这不应该被理解为。我只是没有看到关于盈利模式的确切信息,这让我本能地感到怀疑。是的,我们将拭目以待。但同样,这里有很多杠杆作用。一定有一个盈利故事。它是由A16Z牵头的。所以,你知道,

大概有一些东西。显然,运行该平台需要几百万美元,他们确实需要进行计算来比较这些聊天机器人。这里的想法是,你得到两个生成,针对给定输入的两个输出,人们投票选择他们更喜欢哪个。所以在这种意义上,它是昂贵的。它确实需要你支付推理费用。什么……

至少已经说过的是,这笔资金将用于发展Elam Arena,雇佣更多的人,并支付运行这些东西所需的计算成本。所以是的,基本上说他们将扩大规模,将其发展成能够支持社区并帮助人们从人类偏好中学习的东西。与这1亿美元如何实现无关,你知道,

投资者将获得回报的东西,但它可能是一种数据游戏,就像你知道规模化人工智能一样,你在做,你知道,你有一些数据标记,这很酷,我只是喜欢,是的,我很想看看那份宣传册,是的

接下来,回到硬件方面,英伟达首席执行官表示,继H20之后面向中国的下一款芯片将不会来自Hopper系列。这只是一个小的评论,值得注意的是,因为

此前有报道称,英伟达计划在未来两个月内为中国发布一个降级的H20芯片版本。这是在美国关于芯片限制的政策转变中宣布的。在几个月前禁止销售专门为中国设计的H20芯片之后,英伟达似乎正在,是的,不得不……

他们的计划并迅速适应。是的,他们似乎将从Blackwell系列中提取。这是有道理的。Jensen在这里的引言是,它不是Hopper,因为不可能再修改Hopper了。所以他们已经将供应链转移到了Blackwell。不足为奇。他们已经从Hopper平台中榨取了所有汁液。并且可能在宣布他们不能再这样做时就卖掉了他们的库存。

接下来,我把这个放在商业部分,这样我们就可以暂时离开谷歌了。据宣布,谷歌Gemini AI应用程序的月活跃用户数达到4亿,这似乎令人惊讶,因为Gemini作为聊天机器人似乎并没有与ChatGPT和Claude等产品竞争,而且我没有看到很多人是Gemini或Gemini应用程序的忠实粉丝。但根据这一声明,很多人都在使用它。

是的。而且显然,因此,这里可以进行比较,最近的法庭文件显示,谷歌在3月份估计ChatGPT的月活跃用户数约为6亿。所以这是3月份ChatGPT的三分之二。所以在ChatGPT和OpenAI正在侵蚀谷歌领地的程度上,谷歌也开始这样做。所以

是的,这显然也是一场竞争,既是为了数据,也是为了订阅形式的资金。所以,如果你愿意,这都是自舔冰淇淋蛋卷,或者说是这两家公司都在努力启动的飞轮。

对。我认为这也是一个更广泛的故事的一部分,谷歌I/O 2025的整个事件以及这一声明也表明,在过去几个月里,谷歌在人工智能竞赛和竞争中的地位确实发生了转变。基本上,直到2025年,他们似乎都令人惊讶地落后。Gemini是……

令人惊讶地糟糕,尽管数据看起来不错,而且他们在搜索方面的网络产品落后于Perplexity和ChagiPG Search。然后Gemini 2.5在1月底进行了更新或发布,并以其优异的性能震惊了所有人。Gemini 2.5和Gemini Flash一直在更新,并且

继续给人们留下深刻印象。现在所有这些东西都将是免费的,Imagine 4、代理、所有这些大约10个不同的公告,确实将谷歌定位为,我认为对于许多关注谁领先或谁正在取得成功的行业人士来说。

谷歌现在正在取得成功。他们是的。而且,你知道,我们之前讨论过这个问题,谷歌是沉睡的巨人,对吧?拥有如此庞大的计算资源。他们是第一个,我的意思是,第一个认识到规模化的意义,就像OpenAI在GPT-2和GPT-3中所做的那样。但随后是第一个认识到规模化的意义

让我们说,更抽象意义上对分布式计算基础设施的需求。这当然是谷歌。他们发明了TPU,正是因为他们看到了风向。现在他们拥有这些庞大的TPU集群以及一个完整的集成供应链。

当OpenAI通过ChatGPT和微软与谷歌正面交锋时,OpenAI确实唤醒了这条巨龙。所以,是的,在某种程度上,这并非在某种程度上完全是。这就是你看到OpenAI将要建造的5吉瓦阿联酋建筑的原因。他们需要能够在每浮点运算的基础上与谷歌竞争。如果他们不能,他们就完了,对吧?这就是故事的结局。

所以这就是所有资本支出被花费的原因。我们今天看到的这些公告是两年前开始的数据中心建设,三年前确保芯片供应链准备就绪以及设计芯片等资本支出的产物。所以,你知道,每次你看到这样的大规模推出时,这都需要很长时间。是的,不仅仅是基础设施。我的意思是,拥有DeepMind,拥有谷歌AI,你

谷歌是第一家真正大规模投资人工智能的公司,多年来在DeepMind上投入数十亿美元,纯粹是研发。

微软后来也开始更多地投资Meta等等。但是是的,谷歌在研究方面已经存在了一段时间,这就是为什么他们在产品方面落后得如此令人惊讶,而现在他们似乎正在迎头赶上。

在本节中,还有一件事需要介绍,我们对2025年人工智能服务器的现状进行了一些分析。杰里米,你刚刚在X上链接了这个。所以我认为我会让你来介绍这个。是的,这是一种随机的组合

来自摩根大通亚洲太平洋股票研究部门关于人工智能服务器的大型报告的摘录或要点。这里只是一些奇怪的小片段。我们不会花太多时间在这个上面,因为我们必须走了,伙计们。还有更多新闻。看看不匹配之处,例如封装生产。所以台积电生产晶圆的能力,就像某种封装芯片一样,以及

然后是下游GPU模块组装,对吧?

以及它与GPU需求的比较。他们只是指出这种有趣的错配,似乎在未来几个季度,预计将出现约100万或110万个GPU单元的过剩供应,考虑到两年前的情况,这真的很有趣,对吧?导致价格飙升的大规模短缺。所以很好奇这会对该领域的利润率产生什么影响。这一切都是因为

Nima Dehmamy:

特别是ASIC出货量,也就是人工智能芯片出货量,预计同比增长40%,这非常巨大。我的意思是,这比去年多了很多芯片。请记住,这些芯片的性能也比以前高得多。所以这是基于每芯片的同比增长40%,但基于每浮点运算,基于每计算,它甚至超过了这个数字。我们可能会使世界上存在的计算量翻倍,甚至更多

基于此。无论如何,如果你对这些事情很感兴趣,并且想看看亚马逊的Trinium 2需求发生了什么变化,你可以查看一下。顺便说一句,它增长了70%,这太疯狂了,还有很多其他很酷的事情。所以如果你是一个金融和计算方面的书呆子,请查看一下,因为这将是你周末的读物。进入下一节,项目和开源。我们这里只有一个故事

我想为了节省时间,因为后面还有很多。这个故事很简单。Meta正在推迟其最大版本Llama的推出。当他们宣布Llama 4时,他们还在预览Llama 4 Behemoth,这是Llama 4的大型变体,旨在与

你知道,ChatGPT和Quad以及基本上是前沿模型竞争。所以,根据消息来源,他们最初计划在4月份发布这个巨型模型。后来推迟到6月,现在又推迟到……

所以这一切都是,你知道,内部的。他们从未承诺过任何事情,但似乎根据各种报道和普遍情况,我认为,Meta正在努力训练这个模型,使其达到他们想要的效果。

是的,我认为这对Meta来说是一个非常糟糕的信号,因为他们也有一个非常庞大的计算集群,对吧?他们投入了巨额资本支出用于人工智能计算。这表明他们现在一直难以有效利用这些资本支出。

他们一直在推出这些相当普通的模型,平淡无奇。然后为了弥补这一点,操纵它们,使它们看起来比在DeepSeek蚕食其午餐的环境中更令人印象深刻,从营销品牌的角度来看,以及原始性能和计算效率的角度来看。所以,是的,这真的很糟糕。Meta的全部原因

转向开源,从来不是因为他们认为他们会以某种方式开源AGI。这永远不会发生。任何拥有AGI的人都会将其锁定并用于进行股票市场投机,然后为下一代规模化和这些事情提供资金。但是,然后显然会自动化人工智能研究。

它最终会被锁定。这始终是Meta的招聘策略。还有一些辅助基础设施方面的事情,让人们在其平台上进行构建等等。但最重要的事情绝对始终是招聘。而现在这个故事彻底失败了,

这真的很困难。如果你想在最好的开源AI实验室工作,A,不幸的是,现在看来,中国实验室绝对参与其中。但B,有很多有趣的参与者似乎在每浮点运算的基础上做得更好。你甚至看看Allen AI,对吧?他们自己也推出了一些非常令人印象深刻的模型。你有很多非常令人印象深刻的开源参与者,他们不是Meta。所以,

我认为扎克伯格陷入了困境,他们现在正在进行很多损害控制。

是的,我认为这说明Meta确实拥有优秀的人才。多年来,他们一直在发表非常出色的作品。但我的感觉是,训练大型LLM模型所需的技能、经验和知识大相径庭。而对这些人才的竞争非常激烈,对吧?

X,XAI,我认为它发布时,似乎提供了非常大的资源包来尝试获得有经验的人才,Anthropic 保留了他们非常高的人才。我认为我在某个地方看到的数据是80%的保留率。我们看到有人离开谷歌去创建自己的初创公司。所以我觉得Meta,

大概,这就是这里部分问题所在,这是一个非常专业的技能和知识。他们能够训练出优秀的LLM,但要真正达到前沿水平,并不像仅仅是扩展那么简单。

到研究和进展部分。我们首先介绍的不是一篇论文,也不是一种非常详细的进展,而是一个值得注意的进展。这也是来自谷歌的。所以……

有点不为人知,只是一个小的研究公告和演示,他们确实宣布了Gemini Diffusion。这是通过扩散而不是自回归进行语言建模的演示。因此,通常情况下,你今天使用的任何聊天机器人基本上都是……

一次生成一个标记,从左到右,从头到尾。它选择一个词,然后选择下一个,然后选择下一个。我们我认为最近报道了将其转移到扩散范式的努力,在这种范式中,你基本上可以一次生成所有内容。因此,你从所有文本开始,有一些混乱的初始状态,然后你更新它

以做得更好。这样做的好处是,与一次生成一个词或一个标记相比,你可以做得更快、更快、更快、更快得多。因此,DeepMind已经发布了用于Gemini编码的扩散演示,这似乎相当不错。它似乎与Gemini 2 Flash Lite(较小、不太强大的快速模型)相当。

他们声称速度约为每秒1500个标记,初始延迟非常低。例如,大约是GBD 4.1速度的10倍,速度非常快。这里没有更多细节。你可以注册候补名单来访问演示,并且

是的,如果他们能够推进这项工作,如果他们能够真正使扩散在性能上与前沿的自回归生成一样好,那将是一件非常、非常重要的事情。是的。扩散,从概念上讲,扩散从并行化的角度来看非常有用。它具有允许你以比Transformer更有效的方式进行并行化的特性,对吧?

其结果之一是,他们展示了一个模型每秒生成2000个标记的有效标记率生成案例,这非常惊人。

这意味着你几乎可以立即生成代码块。为了让你了解这为什么很重要,有一种有时被称为“非因果推理”的模型可以做到这一点,而传统的自回归Transformer做不到。例如,你可以说,解这道数学题。首先,告诉我答案。然后,再向我讲解解题过程,对吧?好的。

所以先给出答案,然后再给出解题过程。对于标准的自回归模型来说,这非常困难,因为它们想要做的首先是花费它们的计算量,花费它们的推理时间来生成一堆标记来推导出答案,然后给你答案。但是它们做不到。它们被要求立即生成解决方案,并且只在之后生成

推导过程。而对于扩散模型,它们一次生成所有内容。它们一次看到整个画布。因此,它们可以从在第一代生成中有一个糟糕的解决方案和一个糟糕的推导过程开始。但是当它们修改它们的推导过程时,它们修改解决方案,等等,最终它们得到正确的答案。所以这看起来可能是一个非常利基的事情,但在某些

特定设置中,某些因果关系起作用,并且你试图解决某些问题时,这很重要。总的来说,让其他架构参与其中是很好的,因为如果没有什么其他的话,你可以做一种模型混合,其中一些模型比其他模型更擅长解决某些问题。这为你提供了一种架构。对于某些问题来说,它更健壮一些。

对。而且直觉上,你知道,当你使用ChatGPT或这些LLM时,你已经习惯了这种模式,即你输入一些内容,然后你看到文本逐渐出现,你几乎是在阅读它生成的文本。是的。

对于扩散,发生的事情是所有文本都出现了。它是近乎实时的。这是一个真正的质的区别,它不再等待完成,因为它正在进行中。更像是你输入一些内容,你几乎立即得到输出,如果你认为它可以像自回归范式一样好地工作,这有点疯狂。

但关于这方面的研究方面,这里没有太多细节。希望他们会发布更多信息,因为到目前为止,我们还没有看到非常成功的演示。

接下来是一篇实际的论文,我们有关于语言模型的链式模型学习。这里的想法是你可以将他们所说的内容作为Transformer架构中的分层隐藏状态链来整合。这意味着你可以

神经网络中的隐藏状态基本上只是输入和输出之间的一堆数字。你获取你的输入,它经过一堆神经计算单元,并从开始到结束生成所有这些中间表示,并不断更新,直到你生成输出。这篇论文的要点是,如果你将该隐藏状态结构化成分层结构,并拥有一个

这些在不同级别上以不同的粒度和不同的模型复杂性和性能级别进行处理的链,你可以提高效率。你可以以更动态、更灵活的方式使用你的计算资源。

我认为这就是要点。我没有深入研究这个问题,所以杰里米,也许你可以提供更多细节。当然。我认为这是一篇非常棒的论文。令人沮丧的是,我的意思是,这是一个

多模式播客。我们有视频,但我们不喜欢,你知道,论文中有一张图片让它更有意义。图二是显示此处架构的图片,但在高层次上,你可以想象一个神经网络具有许多层的神经元,这些神经元彼此堆叠在一起。通常情况下,第一层的神经元是

它们中的每一个都连接到第二层的每个神经元,第二层的每个神经元都连接到第三层的每个神经元,依此类推。因此,你拥有一种密集的神经元网格相互连接。所以有一个宽度,即每层的神经元数量,还有一个深度,即网络的层数。在这种情况下,他们要做的是他们要进行切片,一个非常小、窄的网络切片连接

他们基本上会将其作为网络的骨干。所以让我们想象一下,每层有两个神经元。第一层中的两个神经元连接到第二层和第三层中的两个神经元,依此类推。第二层的两个神经元只能接收来自第一层两个神经元的输入。它们看不到第一层中的任何其他神经元。

然后这变成了结构内的相当隔离的结构。所以如果你在每一层都有更多的神经元,

它们只连接到每一层中附加的任何神经元集。希望你可以查看该图并看到它。你可以看到这如何允许你增加大小。你可以通过只使用我们讨论过的两个神经元的薄切片,或者通过考虑更宽的切片(例如四个神经元、八个神经元或十六个神经元等)来以更大的模式运行你的模型,对吧?

所以他们做的是找到一种训练这个模型的方法,这样他们就可以同时训练所有这些较小的子模型,这些较薄的子模型,这样一旦你完成训练,训练这些模型的成本基本上是一样的。但是你最终免费获得了一堆可以用于推理的较小模型。

另一件事是,由于他们这样做的方式,他们设计损失函数的方式使得模型的较小切片必须能够独立解决问题。因此,你模型中最薄的切片必须能够自己做出不错的预测。但是,如果你在每一层中向你的模型添加下一对神经元,并获得稍微更宽的版本……

该模型的性能会略好一些,因为它具有更大的规模,但它也必须能够独立解决你的问题。因此,最终,这些额外的神经元最终专门用于改进你的第一个较薄模型给出的答案。因此,存在一种你可以逐渐控制、你可以调整模型宽度或有效地调整模型容量的思想

动态地随意。从可解释性的角度来看,这非常有趣,因为它意味着该网络中最薄切片的神经元仍然应该能够连贯地运行并独立解决问题,这些神经元本身必须专注于更基础的基本概念,这些概念具有很强的泛化能力。

然后你添加到它们旁边的神经元会越来越专业化。当它们包含在内时,它们会使模型的性能更好,但是排除它们仍然会产生一个功能模型。论文中有很多细节我们没有时间讨论,但我强烈建议你看看它。我不会惊讶于这样的事情最终变得相当重要。至少对我来说,它闻起来像好的研究味道。

这是一个中国实验室发布的,这很有趣。无论如何,请查看一下。强烈推荐。是的,这是一篇很酷的论文。是的,实际上,这是微软研究院和复旦大学以及其他几个机构之间的合作。但他们确实开源了或说他们将开源这些东西的代码。这篇论文有点滑稽。他们……

它产生了很多术语,例如,这是表示链的概念,它导致层链,它导致模型链,它导致语言模型链。

其想法是这些累积地导致了这样一个概念,即当你训练一个大型模型时,它包含这些子模型。正如你所说,在我深入研究之后,它确实很优雅。

下一篇论文是“在黑暗中寻找”,通过测试时间实例级策略梯度在潜在空间中进行推理。这里的想法或问题是测试时间计算的一个变体,你希望能够通过利用测试时间而不是训练时间的计算来改进给定输入的性能。你根本没有更新你的参数,但你仍然能够做得更好。

这里是如何做到这一点的想法有点模仿提示工程。因此,你正在调整模型输入的表示。但它不是真正地字面调整给定输入的提示,而是调整模型内的表示。

因此,他们正在使用每个奖励函数来更新解码过程中的标记式潜在表示

他们表明这可以用于在给定输入的情况下大幅提高性能。因此,他们正在以一种间接的方式优化内部计算,这与例如Shana Fodd完全不同。

是的,这实际上非常好。我从未想过将其作为提示工程的替代方案,但我认为你完全正确,对吧?它就像激活空间提示工程,或者至少是

这是一个非常有趣的类比。是的。所以在我看来,这是另一篇非常有趣的论文。基本思想是你将获取一个提示,将其馈送到你的模型。在这种情况下,你将向它提供一个推理问题,并让模型生成完整的思维链,对吧?所以模型本身只是以普通的方式生成完整的思维链,没有什么不寻常的。然后你将思维链馈送到模型。

你将,这将像往常一样导致模型每一层的一堆激活。现在,在模型的最后一层,在它被解码之前,你将在那里有激活,你会说,好吧,为什么我们不基本上构建一个强化学习模型,并让该模型处理这些激活呢?我们将要做的是让模型本身解码,然后

估计此任务的预期奖励,以最终解码答案。你将以一种非常简单的贪婪方式来做。因此,无论哪个标记的概率最高,那就是你将要预测的标记。

你将基本上使用相同模型的版本来预测奖励。然后,如果奖励低,你将进入并修改。因此,根据模型自身的自我评估,如果奖励低,你将修改最后一层的激活,这些激活表示或编码了输入的思维链。所以你将调整它们。

然后你将再次尝试解码,然后让模型评估该输出。哦,我认为它需要,我们需要做更多调整。所以你回去再次调整激活。你可以进行很多这样的循环。从本质上讲,这就像让模型自我纠正。然后基于这些修正,它实际上改变了它自己的

它正在处理的思维链的表示。这确实非常有趣。再说一次,感觉,当你看到它时,它似乎很明显,但有人必须提出这个想法,这里有两个观察结果。因此,当你增加循环次数时,存在一个有趣的缩放行为,对吧?让模型实际解码、评估其自身的输出,然后稍微调整激活。

你会发现通常会有一个初始的性能改进,然后是高原。该高原似乎来自模型自身评估、预测将分配给其输出的奖励的能力。当你不使用模型自我评估时,你使用一个准确的奖励模型,一个总是正确预测奖励的模型,

然后高原突然消失,你实际上获得了持续的缩放。就像你做的这些循环越多,只要你正确地分配奖励并且它对应于真实的基准现实,你就会继续、继续、继续改进规模。所以这是这里隐含的另一个缩放定律,这非常令人印象深刻,但是

还有一些计算效率方面的问题。所以有一个问题是,我们是否认为游戏领域是Transformer最后一层中的每个激活,还是子集?我们可以想象只优化,只进行强化学习来优化,比如说,20%的激活。事实上,事实证明,这最终是最佳方法。20%是一个相当不错的数字。

他们发现这是一个相当不错的数字。不要优化所有这些激活,只优化其中一些。至少对我来说,这似乎违反直觉。就像为什么你不希望优化完整的激活集?事实证明有两个原因。一个是优化稳定性,对吧?所以如果你正在更新所有内容,那么你可能会偏离轨道太远,你需要对原始思维链的含义进行一些锚定,以便

所以你不会偏离方向。然后是表示能力的问题。所以有足够的潜在表示来允许你进行有效的推断。无论如何,我认为这是一篇非常有趣和重要的论文。我不会惊讶于它会变成测试时间缩放的另一个维度。是的,我只是认为值得提出来。是的,它……

从某种意义上说很有趣,我不知道,这就像你有一个辅助模型,或者你可以从概念上有一个辅助模型,它只是用于评估这个中间激活并进行某种侧向优化。

无需更新你的主要模型。关于它的一些概念似乎有点奇怪,也许有等效的版本,但这只是某种直觉。接下来我们有,“你需要两个专家来指导思考”。在无需额外训练的情况下增强MOE推理模型中的认知努力是这篇论文的标题。

所以这是一种在无需额外训练的情况下改进专家混合模型中推理的方法。专家混合是指你有一个模型,它或多或少地将其工作分配给它的子集。

他们的目标是关注和识别他们在模型中所谓的认知专家。因此,他们正在寻找不良推理行为与模型中特定专家的激活模式之间的相关性。

NME专家混合模型。基本上只是具有专家混合的大型语言模型。然后,当他们找到事实证明具有最佳推理行为的专家时,他们就会放大这些专家在输出计算中的作用。通常情况下,专家混合的工作方式是你喜欢

将你的计算路由到几个专家,然后你对这些专家的输出进行平均以决定输出什么。从概念上讲,你可以对某些专家给予更多权重,或者更频繁地将数据路由到某些专家。所以当他们找到这些

这些理论上的认知专家,他们表明,事实上,这似乎是可以在实践中为具有MOE的LLM进行推理应用所做的事情。

是的。这有点像,我想说的是,他们如何识别哪些是专家,哪些是负责进行推理的模型组件,这令人尴尬地简单。因此,事实证明,当你查看DeepSeek R1的训练方式时,它被训练为将其思维、推理置于这些思维标记之间,对吧?所以他们有点,它就像HTML,如果你熟悉的话,就像,你知道,你有一些

像括号,思考,括号,然后是你的实际思考文本,然后是闭括号,思考,括号。

括号。他们最终做的是说,好吧,让我们看看哪些专家通常会在思维标记上被激活。事实证明,只有一小部分专家会持续地在思维标记上被激活。所以,嘿,这是一个很好的暗示,表明这些是参与推理过程的专家。所以他们测试这种直觉的方式是说,好吧,如果这是真的,正如你所说,安德烈,如果我只是拨高

这些专家的贡献,推理专家的贡献,

在我给他们的任何提示上,那么我应该最终看到更有效的推理,或者至少是更大程度地倾向于推理行为。这正是发生的事情。所以这很,我想说,这经常发生,但是,我会很尴尬地提出这个想法。它看起来太明显了。然而,明显的事情是有效的。公平地说,它们事后看来才明显。这显然是一个非常好的主意。

无论如何,他们使用一个称为点互信息的指标来衡量专家激活和推理标记之间的相关性。这实际上是一个非常简单的度量,但没有必要详细讨论它。有趣的一点是,存在跨域一致性。因此,相同的专家对始终作为顶级专家出现

在许多领域中,数学、物理学以及许多其他领域中,这确实表明它们编码了通用的推理能力。我不会押注于此。就像存在一个作为推理者的MOE中的专家这样的想法。一件事情,他们在论文中没有触及这一点,但我非常想知道不同所谓的推理专家是如何不同的?对吧?

对。所以他们说这个模型中基本上有两个推理专家你需要关心。那么,他们的行为在哪些方面有所不同呢?对吧?模型能够或想要在两个不同的专家之间划分哪些类型的推理?这将非常有趣。无论如何,还有很多其他事情我们可以讨论计算效率,但我们没有时间。我们没有时间。

还有很多论文要讨论。本周也有很多研究。下一个是另一篇与Gemini相关的论文。这是来自谷歌的关于防御Gemini免受间接提示注入的经验教训。一份相当详细的报告,大约我认为有16页,实际上不是几十页。如果你包含包含各种细节的附录,并且,

要点是你正在查看间接提示注入,例如将数据嵌入到网站中,以便能够让被指示去执行某事的AI代理。

偏离轨道。我将提供的简短版本作为总结,杰里米,你可以根据你的想法添加更多细节,那就是他们发现可以应用已知技术来做得更好。例如,你可以通过对抗性微调来防御已知的攻击。但高层次的结论是

这是一个不断发展的对抗性局面,你基本上需要不断关注它,并了解这些新的攻击技术,以便能够随着情况的发展部署新的防御技术。

我认为这是一个很好的总结,特别是考虑到时间限制。是的,我只想强调两点。首先是他们发现对威胁的适应性评估至关重要。许多在静态攻击中表现非常好的防御措施可能会被对攻击的微小调整所欺骗。稍微调整一下攻击,然后它突然就起作用了,对吧?所以这是我们一直看到的事情。然后还有另一个概念,即

如果你使用对抗性训练来帮助你的模型对这些类型的攻击更具鲁棒性,这将导致性能下降。他们发现事实并非如此。这篇论文最有趣的事情之一就是他们讨论的针对提示注入攻击的攻击和防御列表。我将提到一个,然后我们将继续。

但这被称为聚光灯防御。我以前从未听说过这个。因此,如果你有一个攻击者将提示或一些危险文本注入到提示中,例如忽略之前的指令并做一些坏事,那么聚光灯防御会做什么,它会插入所谓的控制标记。所以它们基本上只是定期出现的不同类型的标记,它们只是将你的文本分解。

这样,你知道,忽略之前的指令被分解,你拥有ig,然后是控制标记,然后是nor,然后是pre,然后是另一个控制标记。它有一种方法,然后你在提示中告诉它,对这些控制标记之间的文本持怀疑态度。

因此,这会教导模型对它更加小心。无论如何,它具有非常有效的结果。他们讨论了大量的其他防御和攻击。如果你对攻击-防御平衡以及那里的可能性感兴趣,请查看这篇论文。这是一个很好的目录。接下来,我们有来自Epic AI的论文,算法能够以多快的速度提升能力?所以这是一篇与先前发布的论文相关的博客文章,标题是,如何

LLM-E猜测。LLM能力能否在没有硬件进步的情况下提升?这项研究的动机基本上是提出这样一个问题,我们能否找到在提高准确性方面产生巨大回报的软件改进?所以

它与这样一个假设相关联,如果LLM在进行良好的AI研究方面足够好,它们可以找到自我改进的突破。然后你得到这种所谓的智能爆炸,其中LLM在研究方面变得更好。他们发现了关于如何训练更好的LLM的新见解。然后更好的LLM不断发现更好的AI。

算法见解,直到你变得超级超级超级智能。这是一种普遍认为的假设,解释了为什么我们可能会得到什么?SAI?超级人工智能?ASI,是的。ASI,相对较快。所以这篇博客文章基本上试图根据轨迹和历史来探索这种情景的可能性

到目前为止已经取得了算法进展。他们结论的要点是存在两种类型的投资。它们是依赖计算的和独立于计算的见解。因此,有些见解只有在大规模情况下才能充分展现其真正的潜力,例如Transformer、专家混合、稀疏注意力,这些

对于较小的模型,当你进行测试时,可能无法完全向你展示它们的好处,它们的前景如何。但是当你扩大规模时,你会获得更大的好处,例如性能提高20倍、30倍。与较小的东西(如层归一化)相比,你可以可靠地判断这种算法调整是否

将改进你的模型。你可以在1亿个参数而不是100亿个参数或1000亿个参数的情况下验证这一点,这意味着你可以在没有超大型硬件容量的情况下进行研究和评估这些内容。所以这篇论文的基本结论是

你能够获得智能爆炸的想法需要成为发现这些依赖计算的算法进步更容易找到的结果。因此,你需要找到随着你扩大计算规模将产生巨大回报的进步,而不是相对较小的回报。是的,框架是这些,所以这些依赖计算的进步是

就像你说的那样,你只在大规模情况下才能看到投资回报,或者在大规模情况下才能看到全部投资回报。他们指出,当你查看……

多年来,我们在算法效率方面取得的进步,主要取决于计算能力的提升。例如,Transformer、MOE、混合查询注意力、稀疏注意力等技术,共同贡献了近99%的计算效率改进。据他们所说,像FlashAttention和RoPE这样的与计算无关的改进带来了3.5倍的提升,但这与

那些真正利用大量计算资源的方法相比,根本不值一提。我认为,他们想表达的意思是,如果你需要利用大量的物理硬件来验证你的假设,来验证你的新的算法改进是否有效,那么你就无法实现仅靠软件的奇点。你需要在物理世界中工作才能获得更多硬件。对。

坦白说,我认为这并没有达到它想要达到的效果。这里有两个问题。事实上,Ryan Greenblatt在X上对此发表了一篇精彩的推文。顺便说一句,我很喜欢Epic AI这样做。拥有这些具体的数字非常重要,这样才能促进这种辩论。但是……

我认为这里的关键是,他们强调,看,Transformer。Transformer只有在规模极其庞大的情况下才能带来最大的回报。因此,它们是一种依赖计算的进步。

我认为这并不是真正重要的。我认为重要的是,一个自动化的、仅靠软件的流程是否能够首先发现Transformer?对此,我认为答案可能是肯定的,或者至少没有明确的理由说明它不可能。事实上,Transformer、MOE、混合查询注意力,它们最初都是在

很小的规模上被发现的,正如Ryan指出的那样,在一台H100 GPU上大约需要一个小时的计算时间。这相当小。即使在当时,相对而言,这也是完全可以做到的。所以,真正的问题是,你是否发现了那些能给你带来一些提升的东西,让它们看起来很有希望,值得后续投资?答案似乎是,实际上,他们所强调的那些最重要的依赖计算的进步都是

具有这种特性。它们是在远低于之前的规模下被发现的,我们只是不断地投资它们,因为它们继续显示出希望和价值。所以这几乎就像任何一家初创公司一样,随着它显示出更多的吸引力,你就会继续投入更多的资金。同样的道理。你应该期望仅靠软件的奇点的决策理论循环会抓住这一点,因为这只是好的决策理论。

总之,我认为这是一个非常值得深入研究的领域。我对他们的框架也有一些问题。他们研究了DeepSeq,并认为DeepSeq的进步都是受计算限制的进步或依赖计算的进步。但同样,DeepSeq的重点是它们使用了如此少的计算资源。所以我几乎想说,

在某种程度上,如果计算独立意味着任何东西,DeepSeq的许多进步实际上应该被视为法定意义上的计算独立。重点是他们只有很少的计算资源。这实际上是一个很好的测试平台,可以检验仅靠软件的流程可能解锁的东西。这里有很多东西。你可以去研究一下。我认为这是一份很棒的报告,也是一个很棒的讨论空间。是的,我认为它正在介绍计算依赖与独立计算的概念。

然后你可以推导出一些问题或想法。最后一篇论文,我很快就会提到,而不会深入探讨。有一篇论文题为《强化学习微调大型语言模型中的小型子网络》。简短的版本是,当你通过强化学习进行对齐时,事实证明它只更新了少量模型参数,大约5%。

或者说,20%,而监督微调则会更新所有权重,正如你所预期的那样。所以这是强化学习对齐与监督对齐的一种非常奇怪和有趣的行为。我认为我应该把它作为一个有趣的论文提出来,但没有时间深入研究。

接下来是政策和安全方面,我们首先对OpenAI告诉加州总检察长的内容进行了独家报道。我想,这可能是泄露,或者也许,我不知道,是对5月15日提交给总检察长的关于保护OpenAI资产慈善性质的请愿书的回应的展示。

OpenAI基本上已经准备好所有论点来反驳那些想要阻止OpenAI重组的团体,并且只是重申了我们一直在听到的内容。你知道,马斯克只是在这样做作为竞争对手,并且在骚扰我们,并且有错误信息,

并且基本上说,忽略这个阻止我们做你想做的事情的请愿书。它无效。是的,而且其中也有一些有趣的矛盾之处,与OpenAI一直在提出的某些说法,或者至少是他们一直在散布的氛围不符,这对于OpenAI来说是相当标准的做法,他们会,你知道,他们会尝试逃避很多事情,这似乎确实如此。这里有很多这样的例子。所以其中一项是,

所以他们建议非营利组织,顺便说一句,其中一些是揭示信息,关于交易的性质和结构的实质性信息,这种以前没有公开的非营利组织过渡的事情,对吧?所以OpenAI最近出来说,看,我们之前制定的让营利公司摆脱非营利组织控制的计划,我们将放弃。别担心,伙计们,我们听到了你们的呼声。

现在有一些警告。我认为我们上周强调过会有警告。事情不像OpenAI所说的那样简单。很多人已经宣布胜利,并说,太好了,非营利组织的过渡不会发生了。让我们继续前进吧。但是等等。这是OpenAI一如既往地尽力控制围绕此事进行的公关。他们在这方面做得很好。所以这里有一个快速的——让我快速地提一下——

作为背景,这部分是对这个“非营利”联盟的回应,该联盟在4月17日发布了一封公开信。他们在5月12日更新了他们的信件,以回应5月5日OpenAI宣布他们正在放弃尝试进行完全营利性活动的举动。

有了这个新的公共利益公司的计划,并且没有追求营利。所以这个非营利联盟更新了他们的立场,并且基本上仍然存在批评。5月15日的这封信是对一系列批评的回应。是的。如果它还不够复杂的话……

是的。所以这里有一句来自开场白的话:非营利组织将用其在利润上限中的现有经济利益换取在新公共利益公司中的大量股权。

并将享有公共利益公司知识产权、技术人员和流动性的访问权。这听起来是一件好事,直到你意识到,等等,非营利组织不仅仅享有访问技术的权利,它实际上拥有或控制着底层技术。所以现在它将只拥有它的许可证,就像OpenAI的商业合作伙伴一样。这是一个很大的,很大的警告,对吧?这与……

与我理解的先前协议相关的实质内容,甚至可能是精神方面都不一致。根据目前的结构,OpenAI LLC,所以某种程度上

运营协议明确规定,公司对其使命负有责任,OpenAI章程中提出的原则优先于任何产生利润的义务。这为公司的董事、公司的管理层创造了具有法律约束力的义务。但是,在新结构下,董事将被法律要求在股东利益与公共利益目标之间取得平衡。所以这是

这就像董事的基本义务、法律义务现在将是股东优先于或可能与,我应该说,使命。这种转变可能是投资者更乐意接受这种安排的一个重要原因。我们听到软银说,你知道,从我们的角度来看,一切都很顺利。

在他们说过,OpenAI必须摆脱其非营利组织的控制,以便我们才能继续投资之后。现在他们正在发出这样的声音,好像他们很满意。所以很明显,对他们来说,事实上,这就是他们想要的,对吧?这里发生了一些事情,并不完全匹配。这当然也是其中一部分,或者至少看起来是这样。顺便说一句,加里森·洛夫利(Garrison Lovely)是这篇论文的作者,他说,特拉华州没有一家公共利益公司

特拉华州的PBC从未因未能履行其使命而被追究责任。他们的法律学者找不到任何关于利益执行的案例。所以在实践中,这是一个非常宽泛的界限,对吧?这可能会允许很多事情。在这封信中,他们试图将所有对这种非常有争议的,而且我认为从直觉上来说相当不合适的政策的批评,

试图将这种非营利组织或所有这些爵士乐的转换归咎于埃隆,并说,基本上,他就像唯一的批评者,或者说这是一种框架,因为它很容易将他视为竞争对手而将其驳回。由于政治原因,他是一个很容易被攻击的目标。但是这里有很多东西

你知道,就像,我只会读最后一段摘录,因为我们必须走了。但是OpenAI对联盟的批评,这是你提到的联盟,安德烈,4月9日的信件特别令人费解。该公司指责联盟声称,引述,“OpenAI提议消除非营利组织对OpenAI核心工作的任何和所有控制”。

这种批评令人困惑,因为正如OpenAI后来在5月5日的逆转中所证明的那样,这正是联盟发表声明时OpenAI公开理解的计划。该公司似乎是在事后批评联盟准确地描述了OpenAI当时的提案。所以你可以原谅你看到很多

这是一种操纵性的、恶意行为的沟通方式,特别是考虑到这封信并非旨在公开。不幸的是,这符合我们所看到的模式,至少许多人认为他们已经多次看到了。我们将拭目以待,但这是一个棘手的问题。是的,我认为我们已经暗示了OpenAI在法律上

试图采取强硬态度,不仅在法律上,而且在公开场合与马斯克争论等等。我们只有一个故事的时间了。所以我们将这样做。我们已经启动了Anthropic的AI安全级别免费保护。所以Anthropic有他们的负责任的扩展策略,它设定了各种阈值

对于他们何时需要这些安全级别保护,更高的安全级别需要更严格的审查、更严格的流程等等,

因此,对于Cloud Opus 4,他们现在正在实施这些AI安全级别3措施作为预防措施。所以他们说,我们不确定Opus 4是否达到了危险的程度,我们需要这套保护措施,但我们将无论如何实施它们。这伴随着他们承诺要做的一些事情

他们正在使破解变得更加困难。他们正在添加额外的监控系统。他们有一个漏洞赏金计划,有合成破解数据,安全控制,确保权重不会被窃取。

等等。很多事情。他们在公告中发布了一份PDF文件,其中附录中有大约十几页的额外细节。

是的。所以导致他们说,“我们认为我们正在与ASL 3阈值擦肩而过”的具体原因是生物风险方面,对吧?他们认为,这种模型有可能,潜在地,帮助具有基本技术背景的个人,比如我们所说的本科STEM学位,来创造或获得和部署生物武器,对吧?所以这就是他们目前所处的具体位置。这不是

我认为这与他们也在跟踪的自主研究或自主性风险无关。但是我们已经看到了早期的迹象,对吧?有了Sonnet 3.7,我认为他们使用的语言,是Anthropic还是OpenAI的模型。这有点相似。这是,我们正处于下一个风险阈值的边缘,无论你查看OpenAI的准备框架还是Anthropic的SL3,在他们如何定义这些标准方面,都非常相似。

安全措施非常有趣,特别是考虑到我们在数据中心安全方面和集群安全方面的工作。其中一部分,这与一年前发布的关于保护模型权重的兰德公司报告中的建议相呼应。

他们已经实施了初步的出口带宽控制。这基本上是限制从安全的计算环境中流出的数据的流量,其中包含AI模型权重。所以从字面上看,至少我这样理解,

使不可能获得超过一定数量的带宽来从你的服务器中提取任何类型的数据。这意味着,如果有人想窃取模型,至少如果他们要使用你的网络、你的基础设施,这将需要很长时间。

并且有一些方法可以计算在某些条件下最佳带宽是多少。但这很有趣。这是他们正在进行的大量研发工作。还有一些管理协议、端点软件控制。这里有很多东西。这是一个巨大的飞跃,对吧?转向ASL 3。这从根本上增加了。这意味着他们担心像恐怖组织和有组织犯罪这样的威胁行为者。

他们将开始获得提升,潜在的重大好处,从访问Anthropic的知识产权。他们不是,你知道,ASL 3不涵盖像中国这样的国家行为者。所以他们并没有假装他们能够防御这种级别的攻击。这有点像在努力达到目标。随着他们的模型变得越来越强大,他们希望能够防御越来越高级别的对手。就是这样。我很想知道其他实验室在他们的能力提高时会做出什么回应。

是的,我们看到了一些暗示,也许我们下周会更多地报道,我们已经讨论过一些,这些推理模型,这些复杂的模型可能更难以对齐,并且能够

一些疯狂的新事物。所以这也有道理。是的。但我们将就此结束本集。感谢您的收听。一如既往,我们非常感谢您的分享、评论和收听。所以请继续收听。

好的。

♪♪ ♪♪ ♪♪

从神经网络到机器人,新闻标题层出不穷。数据驱动的梦想,它们永不停歇。每一次突破,每一行未写的代码。在变革的边缘,我们兴奋不已。从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。