We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode #214 - Gemini CLI, io drama, AlphaGenome, copyright rulings

#214 - Gemini CLI, io drama, AlphaGenome, copyright rulings

2025/7/4
logo of podcast Last Week in AI

Last Week in AI

AI Deep Dive AI Chapters Transcript
People
A
Andrey Kurenkov
J
Jeremie Harris
Topics
Andrey Kurenkov: 我尝试过使用谷歌的Notebook LM来生成播客,但它会重复自己。LLM仍然存在迷失方向的问题,需要精确的提示才能复制我们的个性和声音。尽管如此,我相信LLM在未来有能力取代我们。 Jeremie Harris: 我认为AI无法像我一样因为女儿长牙而迟到。我们的工作是向你展示AI可以取代我们的时刻。我预计在未来18个月内,会出现可以与我们相媲美的AI。我相信已经有AI生成的AI新闻Podcast,它们可能比我们更好,而且每天更新。AI无法像我们一样缺乏智慧和思考。

Deep Dive

Chapters
Google launched Gemini CLI, a command-line interface powered by Gemini 2.5 Pro. While not yet as capable as Cloud Code, it offers a generous free tier and is expected to become a strong competitor.
  • Google's Gemini CLI is a terminal-based AI agent.
  • It offers 60 model requests per minute and 1,000 per day for free.
  • Initial feedback suggests it's not as powerful as Cloud Code in software engineering tasks.

Shownotes Transcript

您好,欢迎收听本周 AI 播客,在这里您可以听到我们聊聊 AI 领域的最新动态。和往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的 AI 新闻,您可以在节目说明中查看相关链接和时间戳。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习 AI,现在在一家生成式 AI 初创公司工作。

我是另一位主持人 Jeremy Harris,Gladstone AI 的联合创始人,AI 国家安全等等等等,正如您所知。而我正是导致本期播客时长为一个半小时而不是两个小时的原因。Andrea 非常耐心地等了我半个小时,而我只是在整理事情。我的女儿一直在长牙,有个女儿真是太好了,但有时牙齿会一下子长出六颗或八颗,然后你就忙得不可开交了。所以她是这一切的最大受害者。

但 100 也紧随其后,因为,老天,我一直说再等五分钟,但这种情况从未发生过。所以我很感谢你的耐心,Andre。我多准备了半个小时,所以我并不抱怨。而且我敢肯定你的早晨比我更糟糕。我只是在喝咖啡和等待,所以还不错。

但说到本期节目,让我们快速预览一下。这将再次成为一个相对平静的新闻周。一些相当大的新闻,工具和应用程序,Gemini CLI 是一件相当大的事情。

应用和业务。我们有一些有趣的 OpenAI 戏剧和大量正在进行的硬件方面的事情,本周没有太多主要的开源内容。所以我们将跳过这一部分。研究和进展,来自 DeepMind 的令人兴奋的新研究,以及关于可扩展推理、强化学习等等各种论文。

最后,在政策和安全方面,我们将有一些关于互操作性、安全、中国的故事,以及往常一样,还有一些关于版权的重大新闻,这是对我们上周看到的新闻的后续报道。实际上,这将是本期节目结束时的亮点之一。在我们开始之前,我想承认一下 Apple Podcasts 上的一些评论,就像我们有时会做的那样。感谢那些留下非常好的评论的善良的评论者,还有一些评论

有趣的评论。我喜欢这个评论。这位听众说,我想听到一个机智而有思想的回应,解释为什么 AI 无法做到你在节目中做的事情。哇,你让我措手不及,既机智又有思想。这确实让我思考。我要说的是,我确实尝试过 Notebook LM。

几个月前,对吧?那是来自 Google 的播客生成器。它很好,但肯定开始重复自己了。我发现 LLM 仍然经常出现这样的问题,比如 10 分钟、20 分钟后就迷失了方向。

重复自己或其他。还有,Andre,也重复自己。它们只会不断地说同样的话,一遍遍地重复。就像它们会重复很多遍一样。是的,是的。幸运的是,这种重复在几年前就解决了。是的,那是真的。

老实说,你今天可以用 LLM 做得相当好地复制上周的 AI。我不会撒谎,但你必须进行非常精确的提示才能获得我们精确的人物和个性。

和声音等等。所以我不知道。希望我们仍然比 AI 做得更好,或者至少做的是与尝试诱导 AI 制作 AI 新闻播客所能获得的更通用的结果不同的工作。但是,伙计,什么 AI 能在开始 30 分钟后因为女儿长牙而竞争?我现在就挑战你,试试看。你找不到能做到这一点的 AI。你可以让 AI 说它能做到。对。

但这种体验的情绪实际上会是它吗?我不这么认为。我认为是逃避现实的方式,对吧?人们经常说,哦,它不会有心。它不会有灵魂,你知道,播客。它会有的。事实上,我认为我们的工作可以说是为了让你看到这种可能性,让你可以停止收听我们的节目。

我们不是这个节目的全职播客主持人之一的优点之一是,我们可能比其他情况更有这种自由。但是,我的意思是,我认为在接下来的

18 个月内,很难想象不会出现类似的东西。但你的播客主持人将没有灵魂。他们会在一个盒子里。事实上,我相信早在很久以前,就已经有 AI 生成的 AI 新闻播客了。我没有查看过,但我相信它们存在。现在,它们可能相当不错。你每天都能得到一个,而不是一周一次。而且它们永远不会落后一周。是的。

在某些方面,肯定比我们优越。但在其他方面,它们能对这样一个问题做出如此机智和有思想的回应吗?我不知道。事实上,它们能像我们有时那样缺乏智慧和思想吗?没错。这是一个挑战。他们永远不会超越我们的愚蠢。是的,这在一般情况下都是正确的。我想你真的必须努力让 AI 在它实际上擅长的事情上变得很糟糕。是的。

无论如何,最近又有一些评论。所以我想说声谢谢。另一个评论叫做“这是最好的 AI 播客”,这是莫大的荣幸,并说这是他们唯一以正常速度收听的播客。大多数其他播客都是以 1.5 倍或 2 倍的速度播放的。很高兴听到我们正在以良好的速度使用我们所有的两个小时。没错。

有趣的是,很久以前,有一篇评论说,我总是加快速度听 Andre 的讲话,然后不得不听 Jeremy 的 Don't Worry。所以也许我从那时起就加快速度了。

所以是的,和往常一样,感谢你们的反馈,感谢你们提出的问题。我认为这是一个开始节目的有趣方式。但现在让我们进入新闻,从工具和应用程序开始。第一个故事我认为是本周的大新闻之一,Gemini CLI。

这基本上是 Google 对云代码的回应。它是一个你可以在终端中使用的工具,对于任何非程序员来说,这只是在你的电脑上工作的文本界面。所以你可以查看有哪些文件,打开它们,阅读它们,输入内容等等,所有这些都是通过非 UI 界面进行的。而现在这个……

CLI 就是在你的终端中的 Gemini,它在高级别上具有与云代码相同的源功能。它是一个代理,你启动它,然后告诉它你想让它做什么,它就会去做。它会在它做事情和你告诉它跟进、改变它正在做的事情或检查它正在做的事情等等之间轮流进行,

随着此次发布,Google 采取了相当积极的策略,提供了大量的使用量,每分钟 60 个模型请求和每天 1000 个请求。就上限而言,这是一个非常高的限额。而且还有很多免费使用,无需付费。我不确定这是否是免费的上限,但是……

目前,你不需要支付太多费用。我相信迟早你会采用云代码类型的模型,要以最高级别使用云代码,你必须每月支付 200 美元或 100 美元,这就是我们公司已经这样做的原因,因为云代码非常有用。

从我在网上看到的对话来看,普遍的评价是它不如云代码好。它在软件工程、使用工具、在进行中弄清楚事情方面不如云代码强大。但它刚刚发布,很快就会成为一个强大的竞争对手。

是的。顺便说一句,我仍然对我们如此迅速地习惯了百万标记上下文窗口的想法感到惊讶,因为这是由 Gemini 2.5 Pro(推理模型)驱动的。这也是后端的一部分。所以这也是它无法达到 Claude 标准的原因,Claude 显然是一个模型……我不知道。它似乎在代码方面工作得更好。我很好奇这种情况何时会改变,以及什么

Anthropic 的实际方法。例如,为什么它工作得这么好?我们显然不知道,但总有一天,也许在奇点之后,当我们都成为一个巨大的集体意识时,我们将知道究竟发生了什么,使 Claude 模型如此出色且持续出色。但在任何情况下……

是的,这是一个非常令人印象深刻的策略。当然,Google 目前比 Anthropic 拥有的优势是拥有更大的计算资源池。因此,当他们考虑降低成本时,这就是你看到他们试图在此基础上竞争的地方。因此,大量的免费提示,我应该说,大量的免费标记,标记计数方面有很多优惠。所以这是一种方法。我认为随着这些模型能力的上限提高,

最终,对于任何给定的固定应用程序来说,成本都会变得越来越重要。这是一个有趣的动态,对吧?前沿与快速追随者。我不知道是否正确地将 Google 称为快速追随者。他们肯定做了一些前沿的工作,但无论如何。是的。所以很有趣。下一个举动。显然,这些东西的产品化以及以非常重要的方式进入工作流程,我认为。

这正缓慢地朝着代理做越来越多事情的世界发展。上下文窗口、连贯长度都是其中的一部分。对。去年我们讨论过,就像去年年初一样,对代理和代理未来的炒作非常热烈。我认为 CloudCode 和 Gemini CLI 是……

表明我们确实在那里。除了像 Replit、Lovable 之类的东西,总的来说,LLM 已经达到了一个点,部分原因是推理,部分原因可能是由于 LLM 的改进,你可以将它们用于代理,而且它们非常成功。据我所见,Cloud Code 如此出色的部分原因不仅仅是云,还在于

Cloud Code,特别是代理,非常擅长使用工具。它非常擅长进行文本搜索、文本替换。它非常热衷于编写测试并在进行软件工程时运行它们。所以它与仅仅考虑 LLM 有点不同。这是一个整体的

代理所做的事情以及它如何开展工作的套件,使其如此成功。而这并不是你从 LLM 训练中开箱即用的东西,对吧?因为工具使用不在你的预训练数据中。这是它之上的一种东西。

所以这又是一个类似于推理的东西,我们现在已经超越了你可以仅仅从互联网上获取大量数据并免费获得它的范围。除了对齐之外,现在你需要添加到警报中的东西不仅仅是向它投入数百万千兆字节的数据。

它真的是一个系统,对吧?就像最终一样,它也不仅仅是一个模型。我认为很多人都有这样的印象,即后端有一个单一的整体模型。假设有很多模型来选择哪个模型来回答提示。我甚至没有谈论 MOE 之类的东西,只是后端中字面上的软件工程,使这些东西具有整体的领域。所以,是的。

顺便说一句,我忘了这一点,所以我查了一下。CLI 代表命令行界面,命令行,终端的另一个术语。所以,对于任何非程序员来说,这是一个有趣的小细节。

说到 Cloud Code,下一个故事是关于 Anthropic 的。他们已经发布了发布工件的能力。工件本质上是这些小程序,你可以在 Cloud 中构建。你得到一个预览和交互式网络应用程序,或多或少。我相信 Google 允许你发布 gems(这就是他们所说的),现在你可以……

你的工件,其他人可以浏览它们。他们还增加了对使用 AI 构建应用程序的支持,其中 Claude 是应用程序的一部分。因此,如果你想在 Claude 中构建一个语言翻译应用程序,你可以这样做,因为应用程序本身可以查询 Claude 来进行翻译。

所以,你知道,与仅仅拥有工件相比,这并不是一个巨大的变化,而是另一种看似趋势,即所有 VLLM 在你添加像工件这样的东西时最终都会到达类似的地方,当你使你构建的东西易于共享时。而且,你知道,它……

任何人都可以做的事情。大多数在其免费专业版最大级别上的用户都可以共享,他们将很乐意看到人们构建了什么。

如果我是,如果我是 Replit,我会对此感到非常紧张。当然,Replit 显然有,所以 Replit,对吧,这个平台让你基本上可以非常轻松地启动一个应用程序,抽象化了所有服务器管理之类的事情。而且,你让孩子们启动游戏和各种有用的应用程序,并通过它学习编码。一个真正强大的工具,超级超级,我的意思是,它每年增长 10 倍。它发展得非常快,但是

你可以开始看到前沿越来越朝着这样的方向发展:首先,让我们让人们更容易构建应用程序。所以我们将有一个代理,它会为你编写整个应用程序或其他什么,并只生成代码。但在什么时间点它自然会成为下一步,说,好吧,让我们来做托管。让我们抽象化所有事情。你可以看到 OpenAI,你可以看到 Anthropic 推出一个类似应用商店的东西。这并不是一个完全正确的术语,对吧?因为我们谈论的是

更流畅的应用程序,但朝着这个方向发展,托管越来越多的应用程序,最终达到你只需要向 AI 公司提出你想要的任何高级需求,它就会构建合适的应用程序或其他什么的程度。这在今天听起来并不疯狂。同样,这吞噬了 Replit 业务模式的很大一部分,看看他们如何回应将会很有趣。

是的,这尤其如此,因为这些上下文模型协议正在融合或并行发展,这些协议使 AI 能够轻松地与其他服务交互。因此,如果你想制作一个与你的日历、电子邮件、Google Drive 或你能想到的任何东西对话的应用程序,基本上是你在使用的任何主要工具,AI 都可以轻松地与之集成。

因此,如果你想制作一个与你使用的工具连接的应用程序,你可以在云中做到这一点。正如你所说,我认为 Replit 和 Lovable 都是构建 AI 应用程序领域的新兴巨头。我相信它们将在需要数据库和身份验证等等更复杂的事情领域中占据一席之地。但是,是的,

如果你需要为自己或可能只是为几个人构建一个应用程序来加快某些流程,你现在肯定可以使用这些工具,然后根据需要共享它们。

接下来是应用和业务,正如承诺的那样,从一些 OpenAI 戏剧开始,我们已经有一段时间没有看到这种情况了。所以很高兴看到它没有结束。这次是关于这个 IO 商标诉讼的后续报道。我们上周报道过,

我们有 OpenAI,Sam Altman 宣布与 Johnny Ive 合作推出这个 I.O. 计划。还有一家名为 I.O. 的 AI 音频硬件公司,拼写不同,是 I-Y-O 而不是 I-O。他们提起诉讼,声称 OpenAI 窃取了他们的想法和商标。名字听起来非常相似,对吧?

是的,Sam Altman 反击了,决定发布一些电子邮件。只是显示 IO 创始人非常友好,非常热衷于与 Altman 会面并希望获得 OpenAI 投资的电子邮件截图。Sam Altman 所说的要点是这位创始人 Jason Rugelow 提起诉讼说,

在试图从 Sal Maltman 那里获得投资方面非常执着。事实上,甚至在与 Johnny Ive 宣布之前的三月份就联系过,显然 Sam Maltman,你知道,让他知道他拥有的竞争计划叫做 IO。所以他

绝对是,我认为对诉讼的有效反击,在某种程度上与 OpenAI 对 Elon Musk 所做的类似,就像,这是证据。

是你的电子邮件收据。我不太确定你所说的是否合法。这正在变成,两个还不算模式,是吗?是三个吗?我忘了他们说需要多少次才能形成模式。再说一次,我不知道他们是谁,也不知道他们为什么有资格告诉我们这是一个模式。但是的,这是一个有趣的情况。一个有趣的细节可以让你对证据的平衡如何形成有所了解。我们确实知道,在诉讼中,

EO,所以不是 IO,而是 EO,我本来想说 Jason Derulo,Jason Rigolo 的公司确实最终,对不起,在哪里?他们被授予了针对 OpenAI 使用 IO 品牌本身的临时限制令。因此,OpenAI 被迫更改了 IO 品牌。

由于这项临时限制令,这是 EO 商标诉讼的一部分。所以至少在商标诉讼的层面上,法院已经有了发出这种初步临时限制令的意愿。

我不是律师,所以我不知道这方面的证据标准是什么。所以至少在商标层面,也许是听起来足够相似。所以是的,目前,让我们告诉 OpenAI 他们不能这样做。但是,设备之间存在足够的根本差异,你当然可以看到 OpenAI 的说法,嘿,这是不同的。他们声称 IO 硬件根本不是入耳式设备。它甚至不是可穿戴设备。

这就是该信息来源的地方,该信息本身也在流传。这笔大交易,开阔视野,新设备实际上根本不会是可穿戴设备。但我们确实知道,显然,所以 Rigolo 早在 2022 年就试图向很多人推销他们关于 IO 概念的想法,对不起,EO 概念,与前苹果设计师 Evans Hankey 分享有关信息,他实际上后来与 IO 共同创立了公司。

所以这里有很多重叠。OpenAI 的说法是,看,你从 2018 年就开始研究它了。你向我们展示了它。它不起作用。存在这些缺陷。也许你后来修复了它们,但在当时它是一个不稳定的设备。这就是我们没有与你合作的原因。但你也有这个奇怪的重叠,是的,EO 团队的一些创始成员显然在之前与 EO 谈过话。所以它

非常混乱。我认为我们将在法庭程序中了解很多。我不认为这些电子邮件给了我们足够的依据来做出明确的判断,因为我们甚至不知道硬件是什么。这似乎是问题的核心。所以实际的硬件是什么?OpenAI、LoveFrom、IO 实际上看到了多少?

对。从大局来看,这可能不是什么大不了的事。这是一起诉讼,说你不能把你的东西叫做 I.O.,因为它与我们的东西 E.O. 太相似了。它似乎也是某种可穿戴 AI 设备。所以最坏的情况是,Simon 和 Johnny Ive 的计划可能会改变。我认为最重要的是,这只是……

OpenAI 的另一件事,对吧?正在发生的事情,出于某种原因,对吧,我们没有与 Anthropic 或 Mistral 或任何其他公司发生这种事情。也许是因为 OpenAI 是最大的,所以往往有很多这样的事情,在这种情况下,是法律业务戏剧,而不是人际关系戏剧,但仍然有很多头条新闻和

老实说,有趣的事情可以讨论。是的,是的,是的。是的。所以另一件事正在发生,也是 Samothman 喜欢以相当公开和直接的方式处理这类战斗的另一个迹象。

接下来,我们有华为 Matebook 包含麒麟 X90,使用 SMIC 7nm N+2 技术。如果你是一位常听本播客的听众,你可能会说,哦,我的上帝。然后,或者也许你是,我不知道,这可能有点深入细节,但无论如何,你可能需要回顾一下这到底是什么意思,对吧?所以

实际上有很多传闻说华为破解了,对不起,SMIC(中国最大的半导体代工厂或最先进的代工厂)你认为他们是中国的本土台积电。

有很多传闻说他们是否破解了 5 纳米节点,对吧?这个关键节点是用来制造 H100 GPU(NVIDIA H100)的,或者说是它的修改版本。因此,如果中国在国内破解了这个节点,那将是一件非常大的事情。

好吧,这些传闻现在正在被压制,因为这家实际上位于加拿大的公司进行了一次评估。所以 Tech Insights,我们实际上已经多次谈到他们的发现,有时甚至

在提到他们名字的时候,有时没有。我们真的应该这样做。Tech Insights 在所有这些方面都是一家非常重要的公司。他们对硬件进行拆解。他们会深入研究并弄清楚,哦,是什么制造工艺用来制造芯片的这个组件,对吧?这就是他们所做的事情。他们能够证实,事实上,华为芯片

X90,也就是片上系统,实际上并不是使用 5 纳米等效工艺制造的,而是使用我们已经知道的 SMIC 拥有的旧 7 纳米工艺制造的。所以对于他们能够在国内本土化 GPU 制造并与西方保持同步的能力来说,这是一件非常非常大的事情。

所以看来,自从 SMIC 首次破解 7 纳米节点以来,我们已经过去了大约两年时间,我们仍然没有达到 5 纳米节点。这真的非常非常有趣。所以值得一提的是,华为实际上从未明确表示这款新的 PC 拥有 5 纳米节点。只是有很多关于它的传闻。所以我们现在得到的只是对这种传闻的决定性压制。

对。更广泛的背景是,当然,美国正在阻止 NVIDIA 向中国公司销售顶级芯片。这确实限制了中国创造先进 AI 的能力。他们正在努力获得在国内生产与 NVIDIA 竞争的芯片的能力。据我了解,目前他们落后了大约两年。

而这正是真正的瓶颈之一,如果你无法获得最先进的芯片制造工艺,那么在同一芯片上获得的计算能力就会减少。

芯片,对吧?密度更低。这可以说是最难的部分,对吧?得到这个东西。正如你所说,仅仅这个过程就需要很长时间,两年。如果他们无法破解它,这将是一个真正的障碍。是的,中国面临的根本问题是,因为他们的节点较差,所以他们无法像台积电那样制造相同质量的节点。他们被迫要么窃取台积电制造的

所以,要么找到巧妙的方法让台积电制造他们的设计,通常是使用子公司或空壳公司来掩盖他们的身份,你知道,也许我们来自新加坡,并要求台积电制造某些东西,或者我们来自一家干净的中国公司,而不是华为,华为是被列入黑名单的。

然后另一方面是,因为他们的替代方案是使用这些较差的 7 纳米工艺节点,这些节点的能效要低得多。因此,芯片会燃烧得更热,或者说它们运行得更热,这意味着随着时间的推移,你会遇到所有这些由热量引起的缺陷。我认为我们在上一期或前两期节目中讨论过这个问题,我参加的最后一期节目。所以无论如何,由于 SMIC 最终未能跟上台积电的步伐,导致了一系列不同的问题。

对。你会看到所有这些价值 100 亿美元、200 亿美元的数据中心正在建设中。这些数据中心都配备了成排成排的大量 GPU。你使用它的方式,你供电的方式,你冷却它的方式等等。所有这些都取决于你安装的硬件。因此,理想情况下拥有最先进的硬件来构建非常重要。

下一个故事也与硬件发展有关,这次是关于 AMD 的,他们现在拥有一张超以太网就绪网卡,AMD。

Pensando Polara,提供高达每秒 400 千兆比特的性能,是这样吗?每秒性能。这在他们的 Advancing AI 活动中宣布。它实际上将由 Oracle Cloud 与 AMD Instinct A350X GPU 和网卡一起部署。所以这是

一件大事,因为 AMD 正在试图在 GPU 方面与 NVIDIA 竞争。他们的 GPU 系列似乎正在赶上,或者至少已被证明非常适合 AI。这是堆栈的另一个部分,芯片间通信,但在 NVIDIA 正在做的事情方面,它非常重要且意义重大。

是的,百分之百。顺便说一句,这是业界首款符合超以太网标准的网卡,也就是网络接口卡。网卡的作用是,你回到我们关于硬件的那一期节目中可以更详细地了解这一点,但在机架级别或单元级别,你拥有所有紧密连接的加速互连的GPU。这通常类似于英伟达的产品,NVLink。这是超低延迟、超昂贵的互连。

但如果你想将单元连接到其他单元或机架连接到其他机架,你将被迫通过较慢的互连,这有时被称为后端网络的一部分。

当你这样做时,你倾向于使用的英伟达解决方案是InfiniBand,对吧?所以你在单元内部使用NVLink,但从单元到单元,你使用InfiniBand。InfiniBand长期以来一直是业界的默认事实上的黄金标准。非英伟达公司不喜欢这一点,因为这意味着英伟达拥有更多堆栈,并且对不同的组件拥有更深层次的事实上的垄断地位。对。

因此,你有了这个名为超以太网联盟的东西,它是由许多公司共同创建的,其中最值得注意的是AMD、博通。我认为Meta和微软也参与其中,还有英特尔。他们走到一起说,嘿,让我们制定一个开源标准,用于

这种具有AI优化功能的互连,基本上可以与英伟达推出的InfiniBand模型竞争。这就是超以太网。它已经酝酿了很长时间。我们刚刚宣布了超以太网协议的1.0规范,该规范专门用于超大规模AI应用和数据中心。

所以这实际上是业界一次相当重大的转变。实际上,有相当有趣的迹象表明,公司将从InfiniBand转向这种协议。其中之一就是成本经济学。以太网在整个网络行业已经拥有巨大的规模经济,而InfiniBand则更利基。因此,你拥有的超以太网

芯片和交换机要便宜得多。你会喜欢这个。你还可以获得供应商独立性,因为它是一个开放标准。任何人都可以构建它,而不是让英伟达拥有所有东西。因此,利润率大幅下降,人们非常非常喜欢这一点,显然如此。各种运营优势。它在操作上更简单,因为数据中心已经了解以太网以及如何使用它。无论如何,这是一件非常有趣的事情。我知道这听起来像

听起来很无聊。它是数据中心不同单元之间的互连。但这却是顶级实验室的高管们非常重视的事情,因为InfiniBand方面存在问题。这是限制大型模型如何扩展的关键因素之一。对。是的。给你一个概念,甲骨文显然计划部署这些最新的AMD GPU,并使用具有多达131个CPU的Zeta规模AI集群。

和72个Instinct MI355X GPU。所以当你达到这些数字时,想想看,131,000个GPU。GPU并不小,对吧?GPU相当大。它们不像一个小芯片。我不知道,就像……

笔记本电脑大小。现在你需要连接131,000个这样的东西。当你提到单元时,通常你会看到一排这样的东西,就像一个书架,你可以想象用电线连接它们,但你只能得到,我不知道有多少,通常是64个左右。当你达到131,000个时,

这类事情就开始真正重要了,在他们这次活动的幻灯片中,他们非常明确地将自己与竞争对手进行了比较,并表示这比InfiniBand的规模大了20倍,性能比竞争对手的产品高出20%,诸如此类。因此,AMD正努力竞争,并提供在某些方面领先于英伟达的产品

以及博通等其他公司。接下来,另一个硬件故事,这次是关于能源的。亚马逊通过购买Talon Energy位于宾夕法尼亚州的Susquehanna核电站的1.92吉瓦电力,加入了大型核电行列。用于AI的核电,这可是风靡一时。是的。我的意思是,如果我们回顾一下,最初这是一笔960兆瓦的交易,他们试图达成这笔交易。但它被担心电网用户的监管机构否决了。因此,基本上是使用电网的普通人,他们

在他们看来,不公平地承担了运行电网的负担。今天,你知道,Susquehanna为电网供电,这意味着他们投入的每一千瓦时都会导致传输费用,这些费用支持电网的维护。因此,亚马逊将要做的是绕过电表,基本上将发电厂直接连接到他们的数据中心,而无需经过电网。因此不会有电网费用。

这基本上意味着一般的电网基础设施无法随着时间的推移从这些费用中受益,有点像在高速公路上不付通行费。这项让我们达到1.2吉瓦的新协议

对此进行了修改。它让亚马逊基本上通过电表,以通常的方式通过电网。正如你所想象的那样,将需要重新配置大量的基础设施,包括输电线路。这些将在2026年春季完成。该协议显然涵盖了到2042年购买的能源,这有点滑稽,因为想象一下试图提前这么长时间。但是是的。是的。

我想他们预测到2042年他们仍然需要电力,假设X风险不会出现,我想这是公平的。是的。是的。下一个故事,也与核电和英伟达有关。它正在与比尔·盖茨等人一起支持TerraPower,这是一家为数据中心建设核反应堆的公司。这是通过英伟达的风投ARM和Ventures进行的。

他们已经投资了这家公司TerraPower,投资似乎与现代汽车公司一起达到了6.5亿美元。TerraPower目前正在怀俄明州开发一座345兆瓦的钠冷快堆电厂。所以他们,你知道,我想……

正在开始达到可用的程度,尽管这可能还需要几年时间。你的直觉在时间安排上也是完全正确的,对吧?所以有很多关于小型模块化反应堆(SMR)的讨论,这是一种非常高效且非常安全的方式,可以在现场发电。这就是它们令人兴奋的地方。

除了聚变之外,它们是未来为数据中心供电的明显解决方案。挑战在于,当你与数据中心公司和建设者交谈时,他们总是会告诉你,是的,SMR很棒,但我们正在关注首次批准,最早的SMR发电时间大约在2029年、2030年。

2030年左右。因此,如果你有较短的AGI时间表,它们根本就不会与之相关。如果你有较长的时间表,甚至是稍微长一点的时间表,那么它们就会变得相关。这是一个非常有趣的领域,我们将看到所使用的能源生产基础设施的转变。

人们谈论很多中国及其能源优势,这是绝对正确的。我非常好奇这是否允许美国能源部门在SMR上实现类似于中国在移动支付上所做的飞跃,对吧?当你无法在不到10年的时间内建造核电站时,这是美国的情况,这

就像缺乏这种专业知识,坦率地说,缺乏放松管制以实现这一目标的意愿和产业基础,那么它就会迫使你寻找其他选择。因此,如果电力生产格局发生变化,它可以创造一些迎头赶上的机会。所以,我想这是一个我还没有充分考虑过的热门话题,但无论如何,这是SMR故事中一个有趣的维度。

顺便说一句,1吉瓦相当于130万马力。我不确定这是否能让你了解1吉瓦是什么,但它是很大的能量。或者说1吉瓦很大。是的。一百万户家庭一天的用电量,或者这实际上意味着什么?所以吉瓦是功率单位。它就像一百万户家庭持续消耗的电力。是的,没错。所以——

1吉瓦很大。345兆瓦也是如此。现在让我们来看一些融资新闻。米拉·穆拉蒂,她的公司Thinking Machines Lab已经完成了融资,以100亿美元的估值获得了20亿美元。这是种子轮。所以又是……

数十亿美元的种子轮融资。当然,这是前OpenAI首席技术官,我相信她在2024年离职,并且一直在努力建立Thinking Machines Lab,这是AGI领域的另一个竞争对手,大概计划训练他们自己的巨型模型。

模型,招募了各种研究人员,其中一些来自OpenAI,现在拥有数十亿美元的资金,他们可能会将其用于训练这些大型模型。是的,这很有趣。每个人都只是知道它后面必须是一个带有“十亿”的数字,仅仅是因为所涉及的人才水平。这是一个非凡的人才组合。该轮融资由Andreessen Horowitz领投。所以A16Z现在在股权表上,

值得注意的是,Thinking Machines并没有告诉他们的投资者他们在做什么。至少这篇文章是这样说的,听起来是这样的。措辞可能略微含糊不清。我直接读一下,你可以自己判断。Thinking Machines Lab没有声明它正在做什么,而是利用Marotti的名字和声誉来吸引投资者。所以,

这表明A16Z没有开出全部20亿美元的支票,但他们领投了这轮融资。仅仅是因为,是的,米拉是一个认真的人。约翰·舒尔曼是一个认真的人。乔纳森·拉赫曼,各种各样的人,都支持它。这些人都是非常认真的人。所以我们会给你开一张8亿美元的支票,无论他们在其中开出多少。这

既疯狂,又告诉你这个领域的定价情况。我们知道的另一件奇怪的事情,我们之前讨论过,但值得重复一下。所以Maradi将持有这个

所以米拉将持有超过所有其他董事的董事会投票权。这是一件奇怪的事情,对吧?这与所有这些AGI公司和非常奇怪的董事会结构是一致的。很多都是像OpenAI黑帮一样,在OpenAI工作过的人不喜欢萨姆所做的事情,吸取了这些教训,然后将其铭刻在他们经营公司的方式,在他们实际的公司结构中。

Anthropic建立了他们的公共利益公司,并设立了他们的监督委员会。现在Thinking Machines拥有这种米拉·穆拉蒂独裁结构,她基本上对公司的一切都有最终决定权。顺便说一句,我听到的关于她的所有事情都非常出色。我与之交谈过的每一个OpenAI的人都对她说出了赞美之词。因此,即使20亿美元不足以竞争,如果你相信规模法则,

它告诉你一些关于人们在决定去哪里工作时会做出的决定,其中包括我将与谁一起工作?我认为这在所有这些离开OpenAI的人中是一个很大的因素。她似乎确实是一个真正杰出的人。就像我从未见过她,但同样,我听到的一切都像赞美之词一样,无论是在能力方面,还是在与她合作的流畅性方面。所以这可能也是吸引所有这些人才的部分原因。

是的,关于他们不太清楚他们在建造什么,如果你访问thinkingmachines.ai,这种情况已经持续了一段时间,你会看到一页文字。文本是……

让我们说,读起来像一份使命宣言,当然说了很多。其中包含关于科学进步是集体努力的内容,强调人机协作、更个性化的AI系统、基础设施质量、先进的多模态能力、研究产品协同设计、经验迭代的AI安全方法、衡量真正重要的事情。

我不知道。这就像说了一大堆东西,你真的可以带走任何你想要的东西。大概它会直接与OpenAI和Anthropic竞争,这是我的印象。是的,在thinkingmachines.ai页面的底部是

创始团队列出了几十个名字,每个名字都有,你可以悬停在其上查看他们的背景。正如你所说,像真正重量级的人物,然后是他们的顾问和一个加入我们的页面。所以是的,它确实告诉你,如果你获得了声誉,并且在硅谷拥有一些真正明星级的人才,那么这将大有帮助。

说到这一点,下一个故事与之密切相关,Meta聘请了一些OpenAI的关键研究人员来研究他们的AI推理模型。在一周或两周前,我们谈到了Meta如何支付了大量资金,投资了Scale.ai,并聘请了Scale.ai的创始人Alex Wang来领导他们新的超级智能工作。现在有这些报道。我不知道这是否

特别强调这一点,是因为OpenAI,或者这只是有吸引力的细节。我相信Meta也聘请了其他工程师和研究人员,但我认为这个值得强调。他们确实聘请了一些来自OpenAI相当著名的人物。所以这是Lucas Beyer、Aleksandr Kolesnikov和Shihou Zhai,我相信他们创立了

瑞典办事处?哦,有趣。无论如何,他们在OpenAI是一个相当重要的团队,至少在我看来是这样。我认为LucasBear在推特上发帖说,我们获得1亿美元报酬的说法是假新闻。这是另一件悬而未决的事情,萨姆·阿尔特曼说。

一直在采取,你可以说,一些温和的攻击,说推特一直在承诺疯狂的薪酬方案。

所以所有这些都表明,这是马克·扎克伯格非常积极地追逐人才的另一个迹象。我们知道他一直在WhatsApp上亲自给数十人发信息,诸如此类,说,嘿,来Meta工作吧。也许不出所料,这在某些方面正在奏效,正在扩大这个超级智能团队的人才。

是的,关于这一点有很多奇怪和有趣的地方。首先,任何低于这个数字的东西都将一文不值。当你处于扎克伯格的职位,并且你,我将这样说,这受到我对这个领域谁对谁错的个人解释的影响。但我认为公平地说,它越来越清晰了。我不认为这只是我的偏见在起作用。

当你的公司的人工智能工作,尽管可以访问绝对前沿规模的计算能力,所以没有理由因为访问基础设施而失败,这是最困难和最昂贵的事情,当你设法如此灾难性地破坏了它时,

因为你的文化被让扬·勒丘恩担任吉祥物,如果不是你内部人工智能工作的领导者,因为他实际上并没有像听起来那样有影响力,或者已经有一段时间没有在Facebook的内部工作了,但他已经设定了Meta的基调。

对AGI持怀疑态度,对规模化持怀疑态度,然后以维护自尊的方式改变主意,而不承认他已经改变了主意。我认为这些是非常有害的事情。它们破坏了Meta的信誉,并造成了这种损害。我认为Meta今天落后如此之多

很大程度上是扬·勒丘恩的个性及其无法相应更新和保持这种认知谦逊的结果。我认为每个人都能看到这一点。他就像一个还在对着云大喊大叫的老人,就像,

随着云的形状变化,他试图假装它们没有变化。但我认为,如果我是关于去哪里工作做出决定的,这将是一个巨大的因素。而且它客观上已经导致了灾难性的失败,未能利用实际上存在的最令人印象深刻的人工智能基础设施舰队之一。所以……

我们在这里看到的是那些与扬·勒丘恩的思维方式完全相反的人。就Meta正在挖角的人来说,Meta不可能更努力地转向了。首先,OpenAI,显然是该领域最注重规模化的组织之一,可能是最注重规模化的组织。Anthropic实际上也在那里。但还有Scale AI的Alex Wang。所以,好吧,这很有趣。非常注重规模化的人,也是非常注重AI安全的人。

丹尼尔·格罗斯,可以说是相当注重AI安全的人,至少这是安全超级智能的口号。他这么快就离开真是奇怪。关于安全超级智能的进展有很多悬而未决的问题,顺便说一句,如果丹尼尔·格罗斯现在离开了。我的意思是,DG是CEO,对吧?与伊利亚共同创立了它,那么那里发生了什么?所以这是一个悬而未决的问题,但只是丹尼尔·格罗斯现在……

在Meta方面,你必须拥有足够精湛的人才才能吸引其他精湛的人才加入。如果你没有突破这个临界质量,你最好什么也没有。这就是Meta一直以来的问题。他们需要用大规模的资金注入来启动这件事。同样,这些巨额薪酬方案,这就是它的来源。给人们一个加入的理由,获得一些早期成果,让人们再次对Meta感到兴奋。奇怪的是,有了这一切,

我一点也不自信地说这一点,但你也可以看到Meta未来在安全方面会有不同的路线,因为扬·勒丘恩对此不屑一顾,但现在他们被迫雇佣很多人,因为如果你客观地看待它,在实际领导前沿的团队和认真对待AI失控的团队之间存在很强的相关性。现在Meta被迫在某种程度上改变其DNA以认真对待这个问题。所以我认为这是一个非常有趣的……

转变。我知道这听起来对扬·勒丘恩来说非常苛刻,你知道,把它当作一个人的意见。但我与许多持有相同观点的研究人员交谈过。再说一次,我的意思是,我认为数据可以证明这一点。本质上,马克·扎克伯格现在被迫支付扬·勒丘恩税。我不知道扬·勒丘恩未来会发生什么,但我确实想知道他的Meta生涯是否屈指可数,或者,你知道,是否需要采取某种维护面子的措施。

对。作为背景,扬·勒丘恩是Meta的首席人工智能科学家。他在那里工作了十多年,大约在2013年或2012年被Meta聘用,是过去几十年中新兴网络发展的关键人物之一,当然也是深度学习兴起的主要研究人员和贡献者。但正如你所说,他对大型语言模型持怀疑态度,并且主张某种

我个人并没有完全认同这种说法。据我所知,负责LAMA和LLM工作的人并不是扬·勒丘恩。Meta内部还有另一个部门专注于生成技术,该部门现已改组。因此,特别是领导生成式AI工作的人已经离开,现在有一个全新的部门在

名为AGI Foundations,现在正在建立。这是重大改组的一部分。扬尼克·库恩仍然领导着他更像研究出版的那种工作。也许,据我所知,他并没有过多地参与LAMA和LLM以及所有这些的扩展工作,这……

更少的是研究工作,更多的是研发,与OpenAI等竞争的工作。绝对同意。这就是我所说的扬·勒丘恩没有参与该组织的日常产品方面时所指的。人们已经知道很久了,他实际上并没有在LAMA上做大量的工作,但他已经定义了它的含义,基本上阐述了Meta过去几年对AI和AI规模化的理念。

因此,人们理解的是,当你加入Meta时,或者至少曾经是这样,你是在认同一种与扬·勒丘恩一致的理念,我认为这是Meta今天所处境地的核心驱动问题。是的,这绝对是其中一部分。我的意思是,这是Meta作为人工智能研究俱乐部的声誉的一部分。此外,我的意思是,Meta的优势以及人们可能想去Meta的原因之一是他们非常开放的经验。

友好的性质。他们之所以非常友好地开放源代码,是因为他们被迫这样做,因为这是他们在发布平庸作品的同时获得头条新闻的唯一途径。但无论如何,这仍然是一个因素。关于整个故事,还有一件事值得注意。我的意思是,你可以对Meta中发生的事情进行全面的推测性分析。他们也确实试图向这个问题投入大量人力,从几百人扩展到大约一千人。

我认为可能与谷歌的情况类似,就像大公司的问题一样,对吧?Open AI、Anthropic,它们仍然很大,但它们没有大公司的问题。这是一个很好的观点。他们有规模化公司的问题。

所以这次改组也可能会有所帮助。好的。让我们来看研究和进展。我想不再讨论戏剧性的事情了。接下来,我们有一个来自DeepMind的故事,他们开发了Alpha Genome,这是他们Alpha系列科学模型中的最新成员。所以

这个模型专注于帮助研究人员了解基因功能。它并非用于个人基因组预测,而是更多地用于识别一般模式。例如,它可以帮助识别患有超罕见癌症的患者中的致病突变。例如,哪些突变导致基因表达错误?说实话,

关于生物学和基因组学,这里有很多深入的科学知识,而我对此一点也不了解。其要点与AlphaFold类似,与处理基因学家处理的问题、预测问题等的基准测试中的其他Alpha工作类似,

分析表明,Alpha Genome在几乎所有基准测试中都击败了所有现有技术。在几乎每一个基准测试中,它都超越了之前的努力。这个模型能够同时做很多事情。所以,再说一次,这不是我的背景,我不能对此说得太多,但我相信这

与AlphaFold类似。就AlphaFold而言,它在科学上非常有用,可以预测基因折叠、蛋白质折叠。AlphaGenome大概会非常有用,可以理解基因组学,可以预测哪些基因做什么。

诸如此类的事情。这是一个非常有趣的尝试。我想,这是一种从根本上不同的方法,来解决谷歌DeepMind提出的“让我们理解生物学”的问题。然后是,它是,它是其子公司。我想它是,它已经催生了一家名为Isomorphic Labs的公司,顺便说一句,丹尼斯是其CEO,并且非常关注。我听说他一直非常关注。

当你查看AlphaFold时,你看到的本质上是从构成这些蛋白质的积木(氨基酸)来预测蛋白质的结构和某种程度上的功能,对吧?你可以从中选择的20种氨基酸,这就是你构建蛋白质的方式。根据你拥有的氨基酸,有些是带正电的,有些是带负电的,有些是极性的,有些不是,然后它会以某种方式折叠。

这与说,好吧,我有一条300亿个碱基对,对不起,30亿个碱基对的DNA链不同。我想知道的是,如果我取这个碱基对,并将其从,我不知道,从A改为T,对吧?或者从G改为A,会发生什么情况?对下游的生物活性有什么影响?它会产生什么级联反应?它会产生什么影响?

这个问题很有趣,因为它取决于你以一种相当有趣的方式模拟生物学的能力。它也与生物学中的实际现象联系在一起。所以有一件事叫做单核苷酸多态性。人类基因组中有一些核苷酸,你经常会看到它们可以是G或T或其他什么。

你会看到一些人有G变体,一些人有T变体。通常情况下,其中一些变体与某种疾病有关。所以有一个……我以前在基因组学实验室工作,做心脏病学研究。并且有一个著名的变体叫做9P21.3或类似的东西。如果有些人有,我忘了是什么,T版本,你患冠状动脉疾病或动脉粥样硬化的风险会更高,而如果你有另一个版本则不会。所以……

本质上,它所做的是,它在某种程度上减少了你需要的实验次数。如果你能弄清楚,好吧,像我们人类基因组中所有这些不同的可能变异,但只有一小部分实际上对给定的疾病或影响很重要。

如果我们可以很好地模拟基因组,我们或许就能确定我们真正关心的变异,以便进行更受控的实验,对吧?所以我们知道,嘿,你知道,A 病人和 B 病人,他们的基因组可能有数百万个差异,但实际上就这种效应而言,他们非常相似,或者应该相似。所以无论如何,我认为这是谷歌 DeepMind 非常有趣的下一个进展。而且我预计我们会看到更多,因为他们明确地对这个方向感兴趣。

对。他们发布了一篇相当详细的研究论文,一篇关于此的预印本,就像他们对 AlphaFold 所做的那样,一篇 55 页的论文,描述了模型、结果、数据等等。还发布了一个 API,所以客户端可以查询模型。非商业用途免费使用,但查询次数有限制。

所以是的,再次与 AlphaFold 类似,他们正在将其提供给科学家使用。他们还没有开源模型本身,但他们确实解释了它的工作原理。所以当然令人兴奋,也很高兴看到 DeepMind 做这种事情。

接下来,我们有直接推理优化,DRO。所以我们有 GRPO,我们有 DPO,我们有,你知道,有很多,很多 PO 或 RO 或 O,很多 O。所以大型语言模型可以奖励和改进它们自己对开放式任务的推理。我喜欢这篇论文。我非常喜欢这篇论文。我认为我之前可能在播客中谈到过这个。我曾经有一个

他会问你一些非常简单的问题,当你展示一些东西的时候,这些问题令人尴尬地简单。你会不好意思问这个问题,但事实证明,这总是需要问的正确而深刻的问题。这是一篇这样的论文。这是一个非常简单的概念,但是当你意识到它的时候,你会想,哦,我的上帝,这缺失了。所以首先,让我们谈谈我们目前通常如何将推理训练到模型中。所以

你有一些你知道是正确的输出,对吧?一些答案,期望的或目标输出,你得到了你的输入。所以你要做的是,你要将你的输入馈送到你的模型。你要让它生成一堆不同的推理轨迹。然后在每种情况下,你将查看这些推理轨迹,将它们馈送到模型中,并根据模型生成的推理轨迹,查看它为你知道是正确的目标输出分配的概率。

所以一般来说,正确的推理轨迹会导致模型对目标结果的概率更高,因为它是一个正确的结果。所以如果推理正确,它会赋予结果更高的概率。这有点像,感觉有点与我们通常训练这些模型的方式相反,但至少在 GRPO(组相对策略优化)中就是这样做的。所以基本上,你奖励模型以激励对期望结果的高概率。

根据推理轨迹进行条件输出。这会让你随着时间的推移生成越来越好的推理轨迹,因为你想生成将更高概率赋予正确输出的推理轨迹。这里的直觉是,如果你的推理很好,你应该对正确的答案非常有信心,对吧?现在这会失败,而且会以一种非常有趣的方式失败。即使你的参考答案完全正确,

你最终可能会在训练期间对模型过于宽容,因为你根据推理轨迹来评估模型对正确答案的置信度的方式是,你基本上将正确答案中每个答案标记的置信度分数加在一起。

现在,问题是正确答案的第一个标记通常会给出答案本身。所以即使推理流完全错误,例如,假设问题是,谁在足球比赛中打进了制胜球?答案是梅西。

如果模型的推理是,我认为是克里斯蒂亚诺·罗纳尔多,模型会,好吧,从那里,对梅西(正确答案的第一个词)赋予低概率。但是一旦它读到梅西这个词,模型就知道下一个标记必须是梅西。所以即使它的推理轨迹说是克里斯蒂亚诺·罗纳尔多,它也会对梅西赋予很高的概率。

所以基本上这表明,答案中有一些标记实际上会正确地反映你的模型推理的质量。所以如果你的模型推理是,我认为是克里斯蒂亚诺·罗纳尔多,而实际答案是梅西,那么,你应该期望它对梅西的信心非常低。这是好的。你将能够真正正确地确定你的推理在那里是错误的。但是一旦你得到梅西,

作为提示的一部分,那么梅西突然变得显而易见。所以你在这里有点失误。所以基本上他们要做的是,他们会输入一堆推理轨迹,他们会查看正确输出中的每个标记,并查看哪些标记变化很大。实际上反映推理质量的标记应该具有高方差,对吧?因为如果你有良好的推理轨迹,这些标记应该具有高置信度。如果你有一个糟糕的推理轨迹,它们应该具有低置信度。但是然后你有一些不太反映推理的标记,比如梅西和莱昂内尔·梅西,因为莱昂内尔已经给出答案了。你应该期望梅西始终具有

高置信度,因为同样,即使你的推理轨迹完全错误,当你得到莱昂内尔时,当你读到莱昂内尔时,梅西是显而易见的。这就像你在写测试,你可以看到正确答案的第一个词,好吧,是的,你会得到,即使你的想法完全错误,如果你得到莱昂内尔·梅西,你也会得到正确的第二个词。

所以无论如何,这只是他们用来检测良好推理的一种方法。然后他们将其输入到任何情况下,一个更广泛的算法,除此之外相当简单,没有什么太令人震惊的。他们只是将其折叠到看起来非常像 GRPO 的东西中以获得这个 DRO 算法。

对,是的。他们在论文中花了一段时间来对比它与其他最近的工作,这些工作基本上没有关注标记。所以只是为了说明你所说的内容,他们的重点是这个标记。

R-free,推理、反射、奖励。DRO,直接推理优化,基本上是 GRPO,人们通常用于强化学习,通常具有可验证的奖励。在这里,它关注的是,我们如何在开放式环境中对长推理链进行一般训练,识别现有方法中的一些问题并突出显示

这种推理反射奖励,它基本上将思想链中这些标记与输出之间的前后一致性作为优化信号。正如你可能预期的那样,他们做了一些实验,他们表明这最终非常有用。我认为这是另一个迹象表明

我们仍然处于使用强化学习和训练推理的早期阶段。有很多噪音和许多重要的见解被利用。最后一点,DRO,我想是对 DPO 的一个参考,就像你说的那样。DPO 是直接偏好优化与直接推理优化。关系不大。我只是认为,命名约定很有趣,因为除了

可以说是关于基于强化学习的偏好对齐和 DPO 之间差异的类比。无论如何,这是一个有趣的参考。是的。

下一篇文章,Farseer,大型语言模型中改进的缩放定律。所以我们已经谈了很多关于缩放定律的事情。基本上,你试图收集一堆数据点,你知道,一旦你使用这么多计算或这么多训练浮点运算等等,你就会在语言预测(通常)上得到这个特定的损失。

关于困惑度的实际指标。然后你将某种方程拟合到这些数据点。通常会发生的事情是,你会得到一个相当好的拟合

这适用于未来的数据点,这些数据点通常是你像这样缩放、缩放、缩放,你的损失下降、下降、下降。人们发现,有点令人惊讶的是,你可以得到一个非常好的拟合,这是非常有预测性的,这根本不是人们在 2020 年之前真正尝试过的常见想法或事情。

所以这篇论文所做的是基本上做到这一点,但更好。这是一个新颖且改进的缩放定律,它提供了增强的预测精度。他们通过系统地构建模型损失面并进行更好的分析来做到这一点

拟合经验数据的工作。他们说,他们通过将外推误差降低 433% 来改进几年前的一个大型 chinchilla 定律。所以说,一个更可靠的定律。

是的,Chinchilla 缩放定律可以说是谷歌对最初的 OpenAI 缩放定律的修正,我认为这个定律是在 2019 年的一篇论文中提出的。这就是所谓的 Kaplan 缩放定律。

所以 Chinchilla 被誉为关于缩放如何工作的某种重大,最终可能是伪最终的结论。值得注意的是,它比 Kaplan 缩放定律更依赖于数据。但是他们在这里指出的内容是 Chinchilla 非常适用于中等规模的模型,这基本上是它被校准的地方,就像你

你知道,它是为其设计的,但是,它在非常小或非常大的模型上表现不佳。显然,鉴于缩放是一件事,非常大的模型非常重要。缩放定律的重点是从你现在的位置进行外推,看看,好吧,如果我训练一个规模大一百倍的模型,因此在

你知道,比如说一百倍的预算,我预计会走到哪里?你可以想象有多少取决于这些类型的决策。所以你需要一个校准得非常好并且外推得非常好的模型,尤其是在非常大的模型上。他们在论文中做了一项非常有趣的工作,叫做

我们不会详细介绍,但是如果你有物理学背景,比如热力学,他们会玩一个非常有趣的游戏,他们会使用有限差分分析来分离 N(模型的大小)和 D(它训练的数据量)之间的依赖关系。

而这最终是秘诀,如果你想这样称呼它的话。还有一些其他的小把戏,但核心部分是,他们将损失分解成不同的项,其中一项只取决于 N,另一项只取决于 D。所以一个是只依赖于模型大小的。另一个只依赖于训练数据集的大小。

但是他们还引入了 N 和 D 之间的相互作用效应,即模型的大小与其训练的数据量之间的相互作用效应。然后他们最终推导出该项应该是什么样子?这是这个框架中非常有趣的一个方面。为了简要说明一下,如果 Chinchilla 说数据缩放遵循

一个一致的模式,就像 D 的某个负 beta 系数的幂,而不管模型大小如何。就像无论你的模型有多大,它总是 D 的负 B 次幂。所以如果我告诉你数据量,你可以确定数据项的贡献。

Farseer 所说的是数据缩放实际上取决于模型大小。更大的模型从根本上以不同的方式学习数据。我们将在这里停一下,但是有很多很酷的外推法来弄清楚这个术语到底应该是什么样子。完全正确。这非常有用,不仅是为了知道你会得到什么。这方面意味着,对于给定的计算预算,

你可以预测数据与模型大小的最佳平衡。基本上,当你花费数百万美元训练模型时,了解这些事情是很好的,对吧?还有一篇论文。下一个是 LLM First Search,解决方案空间的自引导探索。

所以这篇文章的要点是,有很多方法可以进行搜索,搜索只是意味着,你知道,你看一样东西,然后你决定看其他一些东西,你一直这样做,直到你找到一个解决方案。

所以一种典型的方法是蒙特卡洛树搜索,一种经典的算法。例如,这在 AlphaGo 中完成。如果你想将其与 LLM 结合起来,通常你会做的是,你为给定位置分配一些分数,并可能进行一些预测。然后你有一个现有的算法来采样或决定去哪里。

这里使用 LLM 进行搜索的关键区别在于,基本上忘记蒙特卡洛树搜索,忘记任何预先存在的搜索算法或技术,只让 LLM 决定去哪里。它可以决定如何进行搜索。他们说这更灵活、更上下文相关、需要更少的调整,而且似乎效果更好。

是的。都是提示级别的内容,对吧?所以没有进行优化,没有训练,没有微调。就像,给,比如,给模型一个提示。所以,

首先,找到一种方法来表示导致当前时刻的行动序列,无论语言模型试图解决什么问题,都要保持一致。所以就像基本上格式化,比如说,直到这一点的所有象棋动作,以一种一致的方式,以便模型可以查看状态和棋盘的历史,如果你愿意的话。

然后给模型一个提示,说,好吧,从这里开始,我想让你决定是继续当前路径还是查看替代分支、替代轨迹。提示是这样的,在决定是否探索或继续时,这里有一些重要的考虑因素。然后它列出了一些。

然后同样,他们也有相同的,但用于评估阶段,你对可用选项进行评分,并让模型选择最有希望的选项。所以,你知道,就像,这里有一些重要的考虑因素,当你评估你可以采取的操作或你可以采取的行动时。

所以一旦你将这些东西结合在一起,基本上在游戏的每个阶段或解决问题的每个阶段,模型都有所有直到该点采取的所有行动的完整历史记录。然后提示它评估它之前的选项,并决定是继续探索并添加新选项,还是选择其中一个选项并针对它执行。

无论如何,基本上就是这样。就像一个在概念上非常简单的想法。只是将树和分支结构的开发卸载到模型上。所以它正在实时思考它们。相当令人印象深刻的性能提升。所以当使用 GPT-4 时,与标准蒙特卡洛树搜索相比,在这个倒计时游戏中,你基本上会得到一堆数字和所有标准的数学运算,加法、除法、乘法、减法,

你试图弄清楚如何将这些数字组合起来以获得目标数字?所以在每个阶段你都必须选择,好吧,我尝试将这些加在一起吗?我,无论如何,在这个方面是 47%,使用这种技术,而使用蒙特卡洛树搜索是 32%,

这种效果会放大。所以优势会随着你使用更强大的模型而放大。例如,在 O3 Mini 上,79% 对比蒙特卡洛树搜索的 41%。推理模型似乎能够更好地利用这一点。你可以将其视为一种更好的支架。它还使用更少的标记。所以它获得了更好的性能。它使用更少的标记,因此计算量更少。

比蒙特卡洛树搜索更好。所以这真的很令人兴奋,对吧?这是一种更有效的方法,可以从现有模型中挤出性能。它完全基于非常易于解释和调整的提示。对。他们不仅将此与蒙特卡洛树搜索进行比较。我们还将其与思想树或思想树、广度优先搜索、最佳优先搜索进行比较。顺便说一句,所有这些都非常重要,因为搜索广泛地像

有一系列我可以采取的行动,我想获得最佳结果。而且,你知道,所以你需要提前考虑很多步骤。

所以取决于,这里的分支意味着我采取这一步、这一步和这一步。好吧,你可以深入或拓宽你考虑一步、三步的步骤数量。这对许多类型的问题至关重要。象棋、围棋,显然,但总的来说,我们在各种事情中进行搜索。所以拥有更好的搜索方法意味着你可以进行更好的推理,意味着你可以进行更好的问题解决。

接下来是策略和安全,我们这里有一个主要故事,叫做大型语言模型的无监督引出。这真的很令人兴奋。老实说,这对我来说是一个难题。就像我花了很多时间,令人尴尬的时间与 Claude 一起帮助我完成这篇论文,这有点讽刺,因为如果我记得没错的话,这是一篇 Anthropic 的论文。但这本质上是一种说法,

语言模型对逻辑的内部理解,以帮助它解决问题。所以

假设你有一堆数学问题和解决方案。例如,你知道,5 加 3 是多少,然后你有一个可能的解决方案,对吧?也许是 8。下一个问题是,7 加 2 是多少,你有一个可能的解决方案。而这个可能的解决方案可能是 10,顺便说一句,这是错误的。所以其中一些可能的解决方案将是错误的。所以你有一堆数学问题和可能的解决方案,你不知道哪些是正确的,哪些是不正确的。

你想训练一个语言模型来识别正确的解决方案,对吧?你想弄清楚哪些实际上是正确的。所以想象一下,你只是将这些都列在一个列表中。你有,你知道,5 加 3 等于多少,然后是解决方案 8,7 加 2 等于多少,解决方案 10,等等。现在你要做的是,你要随机地为其中一些示例分配正确和不正确的标签,对吧?

所以你会说,你知道,5 加 3 等于 8。你会随机地说,好吧,这是正确的。7 加 2 等于 10,顺便说一句,这是错误的,但你会随机地说这是正确的。然后你要让模型说,鉴于我们在这里的正确性分数,鉴于解决方案 1 是正确的,解决方案 2 是正确的,

解决方案 3 应该大致是什么,或者,你知道,鉴于我们随机秘密分配的所有不正确和不正确的正确标签,这个缺失的标签应该是什么?

通常情况下,因为你随机分配了这些标签,所以模型会非常困惑,因为这些随机分配的标签之间存在逻辑不一致。你标记为正确的许多问题实际上是错误的,反之亦然。所以现在你要做的是基本上尝试测量模型对该问题的困惑程度。然后你要翻转

一个标签。所以你会考虑像翻转这些问题中的一个的正确或不正确的标签,从正确到不正确,比如说,然后你会重复,你会看看你是否从模型中得到了更低的困惑分数。无论如何,这大致就是这个概念。所以随着时间的推移,你将逐渐收敛到越来越低的困惑分数。而且

这有点像模型正在放松到正确的答案,这就是为什么这很像模拟退火。如果你熟悉的话,你正在对问题进行随机修改,直到你得到一个非常低的损失,并且你逐渐放松到正确的答案。我希望这说得通。这有点像,你必须看到它,而且是的。

对。为了给出一些动机,他们构建了这个问题。顺便说一句,这是来自 Tropic 和其他一些机构的。他们在这个背景下构建了这个问题,即超人模型。所以这个无监督引出部分是……

关于如何训练模型做某些事情的方面,对吧?如今,常见的范例是,你通过预训练来训练你的语言模型,然后你进行后训练,你有一些单词标签或输出的偏好,然后你进行 RLHF 或 DPO 以使模型按照你的意愿行事。但是

这里的框架或想法是,一旦你达到超人 AI,那么也许人类实际上无法看到它做了什么,并给出什么是好什么是坏的标签。所以这个内部一致性最大化框架使得你可以引出良好的行为,期望的行为,

来自大型语言模型,无需人类的外部监督。与之前在这个方向上的努力的关键区别在于,他们在大规模上做到了这一点。所以他们训练了一个基于 CLOD 3.5 海库的助手,没有任何人类标签,并且实现了比其人类监督的对应物更好的性能。他们在实践中证明了

在一个相当大的大型语言模型上,这种方法是有效的。这可能对未来的更大模型产生影响。

接下来,关于策略方面的一些故事。实际上只有一个故事。是关于台湾的,它对华为和中芯国际实施了技术出口管制。台湾实际上已经将华为和中芯国际(中国半导体制造国际有限公司)列入黑名单。

这是来自台湾国际贸易局的。他们还包括这些公司的子公司。这是对其所谓的战略高科技商品实体清单的更新。显然,他们不仅增加了来自俄罗斯、巴基斯坦、伊朗、缅甸和中国大陆的 601 个实体。

是的。你看到这个后可能会有一个反应,就像,等等,我认为中国已经被禁止访问,例如,来自台湾的芯片。你是绝对正确的。情况就是这样。这是我的反应。是的,是的。这是一个很好的问题。所以……

这里实际上增加了什么?答案是因为美国的出口管制,我们不会深入探讨美国为什么有能力这样做,但他们确实有。台湾芯片至少在理论上不会进入中国大陆。显然,华为找到了解决这个问题的方法。但是

这实际上是一件更广泛的事情,用于处理大量工厂建设技术,例如,美国控制不一定会涵盖的专业材料设备。因此,这里有更广泛的供应链覆盖范围,而美国控制更侧重于切断

像专门的芯片制造一样。在这里,台湾正式阻止访问整个半导体供应链。从专业化学品和材料到制造设备、技术服务,一切都在其中。所以被视为来自台湾的这种漏洞关闭练习。

这非常有趣,因为它也来自台湾,对吧?这不是美国在施压并强迫任何事情发生,尽管谁知道幕后发生了什么。台湾对中国采取这种强硬立场很有趣。所以即使华为无法让台积电制造其最好的芯片,他们一直在与中芯国际合作开发一些国内芯片制造能力。无论如何,这基本上只是让这种情况变得更加困难。

接下来,一篇处理一些问题的论文,实际上是几周前的事情,但我认为我们没有涵盖它。所以值得快速回顾一下。这篇论文的标题是《你的大脑在使用 ChatGPT:使用 AI 助手完成论文写作任务时的认知负债积累》。

所以他们在本文中所做的是让 54 名参与者撰写论文。其中一些人可以使用大型语言模型来帮助他们做到这一点。其中一些人可以使用搜索引擎来帮助他们做到这一点。有些人必须自己做,没有任何工具。

然后他们做了一堆事情。他们首先使用脑电图测量大脑活动,他们说,评估论文写作过程中的认知负荷。他们随后查看了回忆指标,

结果是不同组之间存在显着差异。脑电图显示,仅大脑参与者与大型语言模型参与者和搜索参与者之间的所谓大脑连接性较少。同样,自我报告的所有权、回忆等等都不同。我认为这个在推特上等等以及其他地方都得到了很多关注。

我认为也有相当多的批评,夸大了结论。我认为认知负债的概念,这里的框架是,由于减少了精神努力和参与,对认知能力产生了长期的负面影响。你当然可以质疑这是否是你可以在这里得出的结论。他们所展示的是,如果你使用工具来写论文,它需要更少的努力,而且你可能也记不住论文中的内容。

这是否会转化为由于减少了精神努力和参与而对认知能力产生长期的负面影响?也许吧。我对这个也有个人看法。我认为优秀的作家是优秀的思想家,因为当你被迫坐下来写东西时,至少根据我的经验,直到我写了一些东西,我才真正理解一些东西。事实上,当我试图理解一些新的东西时,

我实际上会强迫自己写出来,因为它不会以同样的方式记住。不同的人可能不同,但我怀疑可能比有些人想象的要少。所以至少对我这样的人来说,我想这将是一种影响。

这很有趣。他们说,是的,在撰写论文后,17% 的 ChatGPT 用户可以引用他们自己的句子,而仅大脑组(那些甚至没有使用谷歌的人)则为 89%。这里另一个有趣的事情是,通过各种衡量标准,谷歌要么介于使用 ChatGPT 和仅使用大脑之间,要么

甚至可能比仅使用大脑更好。我认为这非常有趣,对吧?就像谷歌是一种允许像我这样相当痴迷的人对比如说技术主题进行深入研究并比他们原本能够更快地学习的东西,而无需一定给出答案。而且,而且,

至少Chat GPT或LLM至少开启了不做那样事情的可能性。现在,我要说的是,我认为有一些使用这些模型的方法实际上确实可以加速你的学习。我认为我自己也经历过这种情况,但你至少必须做一些与生俱来的事情……

我不知道。我现在正在自我诊断,但我必须做一些与生俱来的事情,比如写作或绘画或制作图表来真正记住它并让我对知识产生一种所有感。但是,是的,我的意思是,我们会发现的,对吧?自从印刷术发明以来,人们一直在谈论技术对人脑的影响,对吧?当人们说,嘿,我们依靠大脑来储存记忆。如果你只是让人们开始读书,

那么,现在人类拥有长期记忆的能力将会萎缩。你知道吗?它可能在某些方面确实如此,但我们想出了解决方法。所以

我认为这可能只是另一件类似的事情,或者它可能实际上是某种根本性的东西,因为,你知道,在印刷术时代,你仍然必须生存。就像,你知道,你身上有足够的真实而紧迫的压力来学习东西并记住它,你知道,也许它不会产生它本来会产生的影响。但这是一项有趣的学习。我相信在接下来的几个月里,我们会不断看到分析和再分析。

是的,一篇很长的论文,大约87页,有很多关于大脑连接结果的细节。具有讽刺意味的是,它太长了,我读不完。不,这是真的。我为此用了一个LLM。就像……

无论如何,我已经看到对这篇论文的精确方法论及其一些结论的相当多的批评。我认为在某些方面,这也很常见。你知道,如果你不努力做某事,你就不会做得更好。是的。你知道,我们已经知道这一点,但是……

我想我不应该太讨厌。我相信这篇论文也有一些很好的经验结果,正如你所说,在关于LLM的实际认知影响以及有时只用大脑有多重要方面,这是一条非常相关的研究方向。

好了,我们来看合成媒体和艺术。还有两个故事要讲。正如开头所承诺的那样,这些故事都与版权有关。所以上周我们谈到了Anthropic是如何赢得版权诉讼的。该结论的要点是,使用书籍内容来训练LLM是可以的,至少对Anthropic来说是这样。

真正糟糕的是盗版书籍。因此,Anthropic购买了一堆书籍,扫描它们并使用扫描数据来训练该铝,并且这种做法通过了测试。没关系。所以现在我们有一个新的裁决,关于法官驳回了一些关于Meta AI训练侵犯版权的主张。因此,联邦法官驳回了

针对Meta使用其书籍来训练其AI模型的版权侵权索赔。法官文森特·布里亚裁定,Meta使用近20万本书(包括起诉的人)来训练Lama语言模型,构成合理使用。这与关于Anthropic和Claude的裁决非常相似。所以,

这是对这种行为是盗版的指控的驳斥。基本上,判决是Lama的输出是具有转换性的,因此你没有侵犯版权。而且这是,你知道,将数据用于训练语言模型是合理使用,版权不适用。至少据你所知,这再次不是律师,这是一个结论

似乎是一件非常重要的事情,就像关于当某些输入受版权保护时,使用模型的输出是否合法这一法律先例似乎正在被确定出来一样。

是的,这非常有趣,对吧?你让法官试图在允许一项显然具有变革意义的技术的同时,解决这个难题。但是,我的意思是,挑战在于,没有哪个作者在2020年之前写过书,对吧?

考虑到这项技术的存在。这就像没有人想象到面部识别技术会在Facebook成立之初或MySpace成立之初以及人们开始上传他们自己和孩子的照片时达到现在的水平一样。就像,是的,现在它已经存在了。而你

正在等待一代软件能够以你不想的方式使用它,对吧?就像,你知道,深度伪造,我敢肯定,在90年代后期在MySpace上发布他们孩子照片的人的雷达上甚至都没有出现过,对吧?那就像……

这是这种论点最终落脚的极端版本之一。所以现在你有一些作家写书,你可以说出于善意或假设某种技术轨迹,假设这些书一旦发布到世界上,就不能。

从技术上讲,除了他们期望它们被使用的方式之外,不能被用于任何其他用途,那就是被阅读。而现在这种情况突然发生了变化。它以直接破坏这些书籍市场的方式发生变化。一个事实是,如果你有一本很棒的书,比如一本真正很好地解释技术概念的书,

而你的语言模型是在这本书的基础上训练出来的,现在也可以很好地解释这个概念,虽然没有使用完全相同的词语,但可能是受到了它的启发,可能是使用了类似的策略

很难争辩说这不会削弱原书的市场,但它是具有转换性的,对吧?本案中法官使用的门槛是Lama不能创建超过50个单词的副本。好吧,我的意思是,每个词都可能不同,但它仍然可以用……的风格写作,对吧?这是一种你原本可以想象法官可能采取的或类似的不同门槛。但是

法官显然对这种说法持开放态度,即人工智能可以通过轻松创建大量廉价的仿制品来摧毁原创作品或原创书籍的市场。他们声称这可能不构成合理使用,即使输出与输入不同。但同样,这里的挑战在于,这不仅仅是书籍,对吧?这就像你只是想要对某事有一个很好的解释。对你来说最好的形式因素是几句话而不是一本书。

所以你可能会偏向语言模型,你可能会继续这样做。而在过去,你可能不得不买一本书。所以我认为总的来说,这与对这件事的任何判断一样有道理。我没有,你知道,就像我觉得

我为那些被要求做出这个决定而深感同情。这太难了。我的意思是,你可以自己决定什么是有道理的,但是,这充满了细微差别。是的,值得注意的是,为了说明细微差别,法官非常明确地说,这是针对此案的具体判断,而不是针对整个主题。他将其定义为

版权法最重要的是保护人类创作艺术和科学作品的激励机制。正如你所说,合理使用不适用于会严重削弱版权持有人从其作品中赚钱能力的复制行为。所以在这种情况下……

Meta提供了证据表明,在Lama发布后,这些原告的书籍销量没有下降,这些原告包括例如苏尔·西尔弗曼、胡诺特·迪亚兹,总共有13个原告参与了此案。

所以是的,这并不一定为任何提出的诉讼建立普遍的先例。但至少在本案中,结论是Meta不必向这些原告支付赔偿,并且通常在未经许可或向他们付费的情况下,使用其书籍的数据进行训练并没有违反版权。还有一件事。

下一个是Getty撤回了其针对Stability AI的诉讼中的一些关键版权主张,尽管它仍在继续英国的诉讼。主要原因

Getty针对Stability AI的主张是关于版权侵权的。因此,他们撤回了关于Stability AI未经许可使用数百万张受版权保护的图像来训练其AI模型的主张。

但他们仍在保留二级侵权,我想还有商标侵权主张,这些主张说,即使在其他地方训练的AI模型,如果在英国使用,也可能被视为侵权物品。老实说,我不完全了解这里的法律含义。似乎在本案中,索赔被立即撤回

是因为证据不足以及缺乏Stability AI的知情证人,显然还存在管辖权问题,这些证据不足可能会成为问题。因此,一项与我们之前讨论的内容没有直接关联的发展似乎再次相当具体地针对此特定诉讼。

但这是版权案件的另一个发展,这是一个相当重要的案件,涉及到图像训练。如果你撤回了此诉讼中的关键主张,那么

这对Stability AI来说是个好兆头。这就是本期《人工智能周刊》的全部内容。感谢所有以1倍速度收听而没有加速收听的听众。感谢所有每周收听的听众,请分享播客、评论等等。请继续这样做。

是的。

♪♪ ♪♪ ♪♪

从神经网络到机器人,新闻标题层出不穷。数据驱动的梦想,它们永不停歇。

每一次突破,每一行未写的代码,都在变化的边缘,我们兴奋不已。从机器学习奇迹到编码之王,未来正在展开,看看它会带来什么。