您好,欢迎收听本周人工智能播客,在这里您可以听到我们聊聊人工智能领域正在发生的事情。像往常一样,在本期节目中,我们将总结和讨论上周一些最有趣的人工智能新闻,您可以访问本期节目的说明,查看所有时间戳、所有链接以及其他信息。我是你们的常驻主持人之一,Andrey Karenkov。我在研究生院学习人工智能,现在在一家生成式人工智能初创公司工作。
我是另一位主持人 Jeremy Harris。我在 CloudStone AI 从事人工智能国家安全方面的工作。今天非常忙碌,本周也非常忙碌。所以我要开门见山地说,有一个关于 Anthropic 的重大新闻,我还没有时间去看。
Andre,我知道你已经深入研究过它了,所以我可能会把我的想法推迟到下周。但是,是的,这仅仅是一个疯狂的一周。这是一个疯狂的一周。在过去的几周里,关于任何重大事件的消息都相对较少。然后本周,出现了多个重大新闻,令人惊讶,而且确实非常重要。我认为自……以来
Grok 3 和那些模型系列,Cloud 3.7 以来,我们还没有经历过这样重要的一周。所以这是一个令人兴奋的一周。我们可能会直接深入探讨。让我快速预览一下我们将要讨论的内容。在工具和应用程序方面,我们有 Gemini 2.5 发布,我认为它超越了所有人的预期。
我们还有来自 OpenAI 的 GPT-4.0 提供的图像生成功能,类似于我们在 Gemini 中看到的情况,它将图像生成带入 Transformer,似乎摆脱了扩散模型,并且令人惊叹。
然后我们进入应用程序和业务方面,OpenAI 获得了一些资金,以及一些与硬件相关的新闻,开源方面有一些非常令人兴奋的新基准,我们将继续尝试挑战这些新模型。研究和投资方面,正如你所说,Anthropic 发表了一篇非常酷的可解释性论文,我们将开始讨论它,但有很多内容需要展开。所以我们可能在下周会再讨论它。
然后是政策和安全方面,一些关于美国联邦政府正在做的事情的小新闻。实际上,最后一部分还有一些关于版权法的更新。所以有很多内容需要讨论。我们可能会比我们通常的节目说得快一点。也许这很好。我们将看看我们能否提高效率。
所以让我们直接进入正题。工具和应用程序。我们有 Gemini 2.5,谷歌称之为他们最智能的人工智能模型。我认为这是他们一系列思考模型中的一个。之前,他们有 Gemini 2.0 Flash 思考。这是一个比较小、比较快的模型。在这里,Gemini 2.5 代表……
他们的更大模型。我们之前有 Gemini 2.0 Pro,它是他们最大的模型。但当时,根据基准测试和人们的使用情况来看,它并没有那么令人印象深刻。所以 Gemini 2.0 发布后,在排行榜上遥遥领先,这在一段时间内我们都没有在基准测试中看到过,例如,它在基准测试上的性能明显高于几乎任何基准测试中的第二名。
即使是一些我认为已经饱和的基准测试。不仅如此,根据我看到的许多轶事报告,就其编码能力(与 Claude 相比)、写作能力和解决问题的能力而言,它只是另一种能够一次性完成任务的模型,而无需……
获得反馈或进行多次尝试等。所以,非常令人印象深刻。对我来说,这是一种超越你之前所拥有的令人惊讶的飞跃。绝对的。我认为令人惊讶的功能之一是它还不是最先进的,对吧?所以 SweeBench 验证版,对吧?它实际上是 OpenAI 最初开发的基准测试。你拥有 SweeBench
基本上是现实世界中的软件工程任务。SweetBench 验证版是 OpenAI 的清理版本。在这个基准测试中,Cloud 3.7 Sonnet 仍然排名第一,而且领先幅度相当大。这在查看 2.5 时非常罕见,它在几乎所有其他类别中都击败了其他所有模型,但仍然存在相当明显的优势,即在该基准测试上的性能比后者高出 6%。但
除此之外,Gemini 2.5 Pro,我的意思是,它就像你说的那样,在很多方面都非常出色。许多人谈论的一个重要基准测试是所谓的著名的人文学科最后考试,对吧?这是 Dan Hendricks(埃隆的 AI 顾问,在
人工智能安全中心工作)编写的基准测试。我的意思是,它旨在提出非常难以解答的推理问题,这些问题需要非常高水平的常识和推理能力。此前,OpenAI 03 Mini 的得分是 14%。那是最先进的水平。现在我们将其提高到 18.8%。顺便说一句,我们需要为那些听起来不像“人类的最后考试”那样最终的基准测试起一个新名字。
但我们现在正在朝着……的方向前进,我的意思是,我们最终会饱和这个基准测试,对吧?这迟早会发生。这是朝着这个方向迈出的有意义的一步。推理时间,尤其是在该基准测试上,发展速度非常快。但是,我想强调几点。
谷歌出来说,看,这是……顺便说一句,这是他们的第一个 2.5 版本,Gemini 2.5 测试版。这是一个 2.5 Pro 的实验版本。他们告诉我们,未来他们将全面采用推理模型。所以就像 OpenAI 一样,不要指望 DeepMind 还会发布更多基础模型了。所以每个人都转向这种观点,即
是的。默认模型现在应该是推理模型。它不仅仅是 GPT 4.5 等等。它真的将由推理驱动。这方面的数据非常惊人。有很多东西。我试图只选择一个。首先,我的意思是,它在 LM Arena 排行榜上名列前茅,这是一个很酷的滚动基准测试,因为它考虑了
人们对 LLM 输出的偏好。然后它会给你一个本质上类似于 ELO 分数的东西,而 Gemini 2.5 的分数非常高。正如你所说,Andre,这是从测量的客观性方面来看。在 SweetBench 验证版中,63.8 非常出色,尤其是在考虑到它虽然排名第二,但在能力平衡方面,这是一个非常广泛的能力范围。
他们确实表示他们特别关注编码。所以,再次有趣的是,他们落后于 3.7 Sonnet。
也许最后要提到的规格是它今天发布时具有 100 万个令牌的上下文窗口。所以在宣布此事的博客文章中,谷歌大肆宣传他们认为其一大区别在于大型上下文。他们显然很快就会推出 200 万个令牌的上下文。对。这是一个重要的细节,因为 100 万,我没有一直关注。我认为我们在那个领域有 Claude Opus。
非常大的上下文空间,你知道,但 100 万仍然非常令人印象深刻。而达到 200 万则非常疯狂。同样,你必须不断地转换 100 万个令牌有多大。好吧,那是,我不知道,几百万个单词,或者可能略少于一百万个单词,因为可能是 70 万个左右,也许是 70 万个,200 万将超过一百万。而且
内容很多。你可以把整本手册、整套文件等等都放在里面。当然,与我们的 Gemini 产品一样,它是多模态的,可以接收文本、音频、图像和视频。我还看到有报告称它也能够很好地处理音频和图像。而且……
说到它作为实验模型开始推出,你已经可以在 Google AI Studio 中使用它了。如果你正在为 Gemini Advanced 付费,你也可以在模型下拉菜单中选择它并尝试一下。这就是我们看到人们尝试它并报告非常好的结果的部分原因。所以非常令人兴奋。
现在是下一个故事,同样非常令人兴奋,而且也出乎意料地令人惊叹。所以 OpenAI 已将由 GPT-4.0 提供支持的图像生成功能推出了 ChatGPT。据我了解,而且我不完全确定细节是否准确,但与 Gemini 2.0 类似,
上周(或者两周前,我不确定)谷歌的想法是,与其使用一个单独的模型(通常是一个扩散模型),其中 LM 会说,好吧,让我
将此提示传递给另一个模型,该模型只是文本到图像,它将处理此提示并返回图像。这是采用端到端方法,其中你拥有一个多模态模型,能够接收文本和图像,能够通过一组令牌输出文本和图像。由于采用了这种方法,而不是使用扩散模型,而是使用全面的令牌语言建模,
这些新型文本到图像模型或图像加文本到图像模型具有许多我们以前在传统文本到图像模型中没有看到的功能。它们开箱即用就具有非常令人印象深刻的编辑功能。它们具有……
还具有非常非常好的生成文本的能力,可以在高分辨率图像中生成大量文本。而且它们似乎确实能够非常严格地遵守提示,并使复杂的文本描述在图像中起作用并保持准确。我们还讨论过如何
对于图像模型来说,越来越难以分辨差异或看到进展。但我也要说,你知道,特别是对于 DALI,在某种程度上也适用于其他模型,
有一种很容易识别的 AI 生成图像的迹象,那就是它具有一种 AI 风格,有点平滑,有点,我不知道,有点卡通化,特别是对于 DALI 来说。好吧,这个模型能够生成各种类型的图像。我认为它可以非常逼真,这与你在 OpenAI 的 DALI 中看到的情况不同,而且
它可以做到,是的,各种疯狂的事情,类似于我们在 Gemini 中看到的非常好的图像编辑,以及将指令非常准确地转换为图像。但在这种情况下,我认为更是如此,人们展示的东西非常令人印象深刻。是的,我认为这里有几点需要说明。首先,敏锐的观察者或听众会注意到,上周我们报道了 Grok 现在在其内部产品中整合了
图像生成服务,对吧?所以这个主题是多模态的,至少是平台,对吧?Grok 不一定会制作一个可以做所有事情的模型。最终,我相信它会做到,但我们正在逐步朝着这个方向前进。这是 OpenAI 正在做的事情,他们正在使用一个模型来统治所有模型,从而实现全面的多模态。
你知道,这是很大的战略风险。如果你从事文本到图像或音频到任何其他内容的业务,那么假设所有这些都会被吸收。因为存在正迁移,这似乎确实正在发生,对吧?一个可以处理多种模态的模型往往更扎实,现在在任何给定的模态下都更有能力,仅仅是因为它受益于更强大的表示空间。因为它必须能够以可以解码成图像、音频和文本的方式来表示事物。所以有一种更强大的方法来做事情。
这里的关键词是绑定,对吧?这个模型的一个关键能力。绑定是指你基本上在查看模型输出中如何很好地表示属性和对象之间的多种
关系。所以如果你说,画一颗蓝色的星星,旁边是一个红色的三角形,旁边是一个绿色的正方形,你想要确保蓝色和星星绑定在一起。你想要确保红色和三角形忠实地绑定在一起,等等。这正是该模型似乎做得非常好的事情之一。
所以它显然可以一次正确地绑定多达 15 到 20 个对象的属性,而不会混淆。从某种意义上说,这是文本到图像版本的“大海捞针”评估,对吧?我们看到干草堆里有很多针。好吧,这有点类似,对吧?如果你用大量这些关系填充上下文窗口,它们是否可以保真地表示在输出中?答案,至少对于这种情况下的 15 到 20 个对象,以及相对简单的绑定来说,
绑定属性是肯定的,对吧?所以这是一种关键的衡量标准,实际上表明有些不同。如果这是拥有更强大的表示空间的结果,我不会感到惊讶,而这种表示空间来自于多模态模型。这里要强调的另一件事是,我们知道这是一个自回归系统,对吧?所以它以从左到右、从上到下的顺序生成图像,就像
文本在这些模型中进行训练和生成一样,这并非巧合,对吧?如果你想实现多模态,你需要有一种通用的方法来生成你的数据,无论是视频、音频、文本还是其他任何东西,对吧?所以这是他们在说,好吧,我们采用自回归方法,大概是自回归 Transformer 来做到这一点。所以很酷。总之,他们在发布会上展示了很多很酷的小演示。
值得一看的是,他们没有包含任何视觉水印或指示器来表明这些图像是 AI 生成的,但他们将包含他们所谓的标准 C2PA 元数据,以将图像标记为由 OpenAI 创建,我们过去曾讨论过这个问题。如果你对此感兴趣,请查看那些剧集。但是,是的,所以 OpenAI 在水印方面采取了一种折中的方法。
是的,他们还表示会有一些保障措施,当然与 Grok 等产品相比,你将无法生成色情图像。例如,你将无法……
让政客拿着枪等等,当然,你会在某种程度上绕过这些保障措施,但肯定是一个更受控制的模型,正如你所预期的那样。最后我要说的是,你已经看到很多关于这个的用例出现在社交媒体上。你可能会在媒体上看到的一个用例是吉卜力化图像,结果发现你可以
拍摄一张照片,并告诉系统将其转换为吉卜力风格。吉卜力是日本一家非常著名的动画工作室,它做得非常好,非常忠实地再现了。看起来绝对像吉卜力,这引发了关于,再次,AI 对……的讨论。
对艺术的意义,它的伦理问题。还有一些关于这对 Photoshop 的意义的讨论,因为它可以进行图像编辑。它可以进行设计。你知道,再次,我认为这是一个令人惊讶的事情,我们有一段时间没有谈论文本到图像有多么令人惊叹,而且它似乎停滞了一段时间。现在,对我来说,看到你可以做的事情,它再次令人惊叹。
进入闪电轮,我们实际上还有几个图像生成器需要介绍。我不知道这是否决定同时发布,或者是什么,但有一些,首先是 Ideagram。他们正在展示其系统的 3.0 版本。Ideagram 是领先的文本到图像公司之一。早期,他们的成名之处在于能够更好地处理文本,但如今,当然情况不再如此了。
他们说,他们的 3.0 系统能够创建更好、更逼真和更具风格化的图像。特别是,他们能够上传多达三张参考图像来指导美学输出。并且有 43 亿个风格预设。所以我认为这反映了 Ideagram 更像是一家商业公司。
而这更像是他们的产品,作为主要焦点。所以是的。
再次,现在有了 GPT-4.0,这根本无法与之相比。但对于专门的用例来说,像 Ideagram 这样的东西仍然可能存在一段时间。我们将拭目以待。是的,你几乎可以听到自己在争论这些产品的 TAM(可寻址市场总量)越来越小,因为 ChatGPT,以及所有大型参与者,都在不断扩大自己的 TAM。这是我们在播客中长期讨论过的问题之一。我认为我
我认为 Ideagram 在这里仍然有待证明是错误的,并期望由于各种原因而显得愚蠢,一如既往。但我认为 Ideagram 在中期将会消亡,就像该领域的许多公司一样。看,他们确实表示有 43 亿个风格预设。我们当然非常有能力。人工智能记者已经测试了每一个预设,并且可以报告说它们实际上相当不错。
你是在说,Andre,文本到图像功能现在是一种较低价值的东西,因为竞争,100% 的情况都是如此。这就是为什么 Ideagram 现在选择,也许是被迫,强调逼真度和专业工具,对吧?这正是他们正在创造的利基市场,但他们将变得越来越利基化。随着他们的领地受到……的侵蚀,这种情况将持续发生。
真正的超大规模公司可以从中受益的规模优势。非常酷,但被 GPT-4 掩盖了。我要说最后一点。仍然可能是这种情况,因为这种专门的模型或业务,在这种情况下,他们专注于,比如说,海报的商业用例,也许他们拥有允许他们仍然在特定利基市场中表现更好的训练数据。
我不知道。是的,我认为 OpenAI 为该训练数据购买的资金将远远超过他们。而且我认为……我会说用户的专有数据。哦,100%。是的,是的。我的意思是,我认为他们也在对抗正迁移。这里有很多长期趋势,但你是对的,在某个时候。如果你能保护那个数据利基市场,是的,你是绝对正确的。至少我肯定能看到的一种出路。下一个故事……
还有一个新的图像生成器,在 GPT-4.0 之前也令人惊叹。所以标题是“新的 Reeve 图像生成器以每张图像几分钱的价格击败了 Midjourney 和 Flux 等 AI 艺术巨头”。这个模型代号为 Half Moon,已经让每个人都印象深刻。它现在发布了 Reeve Image 1.0。
他们正在为此提供服务。你可以获得 100 个免费积分,然后以 5 美元的价格获得 500 次生成的积分。而且,你知道,这是……
之前的 GPT-4.0,再次,在遵守提示、能够构建复杂的场景以及通常在各种更细微或更棘手的任务上比其他图像生成器做得更好方面,都非常令人印象深刻。似乎是最好的,就像图像生成中令人兴奋的新一步一样。我会一直这么说,GPT-4.0,在某种程度上也像之前的 Gemini 一样,公平地说,
仍然比这些东西更令人惊叹。是的,我的意思是,大约把我对 Ideagram 的最后评论复制粘贴到这里。我认为所有内容都大致相同,但现在这是一个艰难的领域,对吧?它真的正在商品化。对。还有一点值得快速注意的是,一个区别可能是成本,因为使用 LLM 的自回归模型,使用
你知道,成本和速度,因为 LLM 通常比较慢。你正在使用解码这些东西。如果他们仍在使用融合模型,则可能更便宜也可能更快,这可能很重要。我不知道。我认为在实践中,这真的很困难。我的意思是,OpenAI 可以将其推理摊销到更大的批量大小上。而这正是你在跟踪这类事情时真正关心的关键数字。
还有,你知道,他们不会使用,如果经济上合理的话,OpenAI 将只提取较小的模型,或者拥有专门从事此工作的模型。所以我认为,再次,长期来看,这实际上是批量大小与批量大小、计算集群与计算集群的比较。在我的脑海中,富者越富,但再次,非常愿意在未来的某个时刻显得像个傻瓜。
是的,我确信这些公司肯定也在考虑他们的几率。接下来,让我们离开图像生成,但仍然坚持多模态,阿里巴巴正在发布 Qwen 2.5 Omni,它正在向 Quenched 添加语音和视频模型。所以他们正在
开源 Qwen 2.5 Omni 7B,这是一个多模态模型,具有文本、图像、音频和视频,它在 Apache 2.0 许可下。这在某种程度上意义重大。
因为据我记忆,在多模态模型领域,我们没有像纯 LLM 那样多的强大模型。我们已经开始看到更多像 Gemma 这样的东西,但它具有文本、图像、音频和视频。所以,如果我没有忘记任何东西的话,这可能是相当重要的模型,在 Apache 2.0 下发布,具有这种多模态性。
是的。并且可以看到,你知道,也许一些规模优势的正迁移效应也开始在这里显现了。有趣的是,你必须把它看作一个开源模型。然而,你知道,中国模型是合法的,我的意思是,这可不是闹着玩的。这里的基准测试与 Gemini Pro 在 OmniBench 上的比较结果相当不错。那是一个
对不起,让我小心点。Gemini 1.5 Pro,对吧?截至今天,我们已经领先了两代,但仍然,这是大约六个月前的东西,并且在开源方面轻松击败了它。这是一个相当大的发展。对。你能想象一下,如果我们有一个 OpenAI 没有创建这个模型版本系统,并且我们实际上为模型起了新名字的历史吗?那不是很酷吗?是的。
你知道吗?它也让你想要像这样,这个实验室的 1.5 版本应该与那个实验室的 1.5 版本相同。你甚至看到一些实验室试图不按顺序编号他们的东西,只是为了向你表明他们希望如何进行比较。这很混乱。是的。说到中国令人印象深刻的模型,接下来我们有……
腾讯的 T1。所以这是他们的思考模型。这有点类似于 Gemini 2 到 O1。它可以在腾讯云上使用,价格相当有竞争力。他们说它在排行榜上名列前茅,击败了 R1 和 O1。所以他们
另一个令人印象深刻的版本。我找不到关于此的许多技术细节。事实上,它似乎并没有在西方媒体上得到太多报道。但这可能是一件大事,腾讯是中国市场的主要参与者。
是的,大型发布公告首先指出,它有趣的是一个混合 Mamba 架构,他们大概是指我们之前讨论过的 Transformer 和 Mamba 的组合,许多人认为这是弥补两者缺点的一种方式。顺便说一下,查看我们的 Mamba 剧集,了解更多信息,因为它是一个非常深入的探讨。但是,是的,他们声称,他们将其称为混合 Mamba 架构的第一个无损应用。
我不知道在这种情况下无损是什么意思。所以我问了 Claude,它说,在这种情况下,它可能意味着在为这个大型推理模型调整 Mamba 架构时,模型质量没有妥协或下降。好吧,很好。如果是这样的话。但再次,这需要更深入的探讨,这将很有趣。Mamba,我们已经很久没有看到 Mamba 了。
这并不意味着它没有被我们不知道的实验室在专有环境中使用,但看到另一个朝着这个方向的公告还是很有趣的。接下来是应用程序和业务,我们从 OpenAI 开始,他们即将完成 400 亿美元的融资。这是由软银牵头的,他们在这里有各种投资者,例如 Founders Fund,
Cochu Management,你实际上不太了解的东西。他们有一个几乎是噪音驱动的对冲基金,出资高达 10 亿美元,但领导者当然是软银。他们表示将首先投资 75 亿美元,以及来自其他来源的 25 亿美元。
这将是有史以来规模最大的融资轮,对吧?400 亿美元超过了大多数公司的市值。所以这太疯狂了。有趣的是,软银的股票大幅下跌。
在日本股市上,我认为,因为人们认为,软银,你给了 OpenAI 很多钱。这是一个好主意吗?什么?软银以前犯过数十亿美元的巨额资本配置错误吗,Andre?我当然不记得了。是的,我的意思是,没有一家公司以 V 开头,软银曾臭名昭著地参与其中。
是啊,是啊,是啊。不,他们过得相当艰难。所以软银显然以这些电话而闻名。实际上,我不记得了。我知道关于他们在过去几年的表现,有一个值得一提的故事。而我的大脑已经烧坏了。我试图回忆一下,是软银实际上做得很好,还是软银彻底完蛋了。
我认为是这两种情况之一。投资者显然包括这个。所以 Magnetar Capital,我从未听说过,正如你所说。我在这里列出的唯一一个听说过的公司是 Founders Fund,顺便说一句,我的意思是,这些人只是碾压一切。SpaceX、Palantir、Stripe、Endural、Facebook、Airbnb、Rippling。Founders Fund 绝对是顶级中的顶级。
但显然,Magnetar Capital 在亚洲拥有 190 亿美元的资产管理规模。所以他们仅在本轮融资中就会投入高达 10 亿美元。所以这很酷,规模很大。所以是的,达到 3000 亿美元将是融资后的估值,这基本上是上次 1570 亿美元估值的的两倍。那是 10 月份的事了。所以对不起,自 10 月份以来你的净资产没有翻倍吗?你在做什么,兄弟?出去工作吧,因为 OpenAI……
这太疯狂了。所以是的,无论如何,关于资本的实际分配方式,有很多阴谋诡计。软银将向 OpenAI 初始投入 75 亿美元,但他们还必须从投资者辛迪加那里筹集 75 亿美元。他们目前并不一定拥有他们需要在其资产负债表上投入的全部金额。我认为这是埃隆在谈到星门建设时谈到的一部分内容,他说,嘿,我在关注软银。
这些人根本没有资产负债表来支持 5000 亿美元的投资,或者当时声称的 1000 亿美元投资。而这确实如此。这就是为什么今年晚些时候还会有第二笔 300 亿美元的资金到位的原因,其中包括软银的 220 亿美元,以及辛迪加的更多资金。所以这一切都是这种分阶段的事情。还有很多人需要被说服,或者当你转移如此巨额的资金时,显然有很多事情你需要做才能释放这些资本。
如果这笔交易成功,这将是历史上最大规模的融资。这太疯狂了。接下来,另一个关于 OpenAI 及其领导层结构变化的故事,这有点意思。萨姆·阿尔特曼似乎并没有下台,而是退居一旁,专注于公司的技术方向,指导他们的研究和产品工作。他……
是首席执行官,或者至少是首席执行官,这意味着,当然,作为首席执行官,你基本上必须监督一切,很多业务方面。所以这将是重点的转变。他们正在提升,我想,或者他们似乎并没有宣布职位变化,至少我没有看到。但首席执行官布拉德·莱特卡普将承担更多责任,例如营销。
监督日常运营和管理合作伙伴关系、国际扩张等。还有一些其他的变化。马克·陈,我认为他是研究高级副总裁,现在是首席研究官。现在还有一位新的首席人事官。所以他们的 C 层管理团队进行了相当大的改组。当然,这是继我们几个月来一直在报道的许多人离职的趋势之后。所以……
我不知道该如何解读这一点。我认为这可能是 OpenAI 出现问题需要重组的迹象。它可能是任何数量的事情,
但这当然值得注意。是的,你知道,那个冰山梗,他们说,你知道,你在顶部得到常规理论,然后在底部得到那种黑暗的阴谋论。这个故事有两个版本,或者很多版本。我至少听说过一个前 OpenAI 的人推测过一个更黑暗的原因。但是,布拉德·莱特卡普,你说得对。之前是首席执行官,现在仍然是首席执行官。这里发生的事情大概是他职权范围的扩大。
这值得注意,因为萨姆·阿尔特曼是一位传奇般优秀的融资者和企业合作伙伴关系开发者。你可以在他与微软和苹果合作的工作中看到这一点。很少有公司与微软和苹果都有深入的合作关系,而这两家公司在任何典型情况下都是针锋相对的。我还想说——
关于阿尔特曼的快速说明,他在埃隆·马斯克的眼皮底下与特朗普政府搞好关系,在我看来,这也很传奇。是的,他设法扭转了基本上是终身作为民主党人和为民主党人奔走的局面,系紧领带,与竞选活动中的某些成员搞好关系。总是很难知道。
但是是的,一种说法是,米拉马拉蒂还没有被取代。萨姆说过没有计划取代她。他基本上是介入填补这个角色。这是创始人模式的东西。他想更接近 Gears 水平。我相信这是其中很大一部分,无论如何。我听到的另一种说法
是,当你越来越接近超级智能时,在命令行上的人,在控制台的人,首先向模型发出提示的人,是权力倾向于积累或权力倾向于与之积累的人。所以想要变得更技术化,想要变成更像格雷格·布罗克曼那样的人是
如果你认为那是,你知道,如果你有权力欲,那就是你想要去的地方,这是有道理的。无论如何,这是一个有趣的冰山梗。最后我要提的是马克·陈,他在这里的名单中被提到是晋升的人之一,你提到的,你可能从所有的演示视频中认识他,对吧?所以,你知道,深度研究演示,我想 O1 演示发布时,他经常作为萨姆的得力助手出现。所以无论如何,他的脸和声音你可能很熟悉。
很多人。接下来,我们有一个关于我们上周大量报道的内容的后续故事。所以我们一直在报道英伟达的 Rubin GPU 发布公告。
这是一个关于 600,000 瓦 Kyber 机架和基础设施的故事,该基础设施也将于 2027 年与他们的公告一起发布。杰里米,如果你知道细节的话,我会让你接手这个。是的,只是关于功率密度,机架功率密度。所以,作为背景,你有
GPU 本身,对吧?所以目前像 B200 这样的黑井,那是 GPU。但是当你把它实际放在数据中心时,它会安装在一个带有 CPU 和一堆其他支持基础设施的板上,这被称为系统。所以这些带有 GPU 和 CPU 以及一堆其他东西的托盘中的多个会被插入到这些服务器机架中,我们将整个东西称为系统。
一个拥有 576 个这种 GPU 的系统,如果你计算该系统中所有 GPU 的数量,如果你有 576 个,那就是 NVL576 Kyber 机架。这是一个庞然大物。它的功率密度将达到每机架 600 千瓦。对于数据中心的一个机架来说,这相当于 600 户家庭的电力消耗。
一个机架 600 户家庭。这太疯狂了。冷却要求也很高。作为背景,目前使用你的 B200 系列,你每机架大约需要 120 千瓦。所以这相当于功率密度的 5 倍。这很疯狂。詹森虽然没有提供明确的数字,但他表示,我们将走向一个每机架功率将达到 1 兆瓦的世界。所以每个机架 1000 户家庭的电力。对于这个 Kyber 系统来说,这简直太疯狂了。
这让你了解事情将变得多么疯狂。
在硬件方面,另一个来自中国的故事,我们有中国的 C-carrier?我不知道怎么说。侧载体?侧载体,是的。那是……是的,一家总部位于深圳的公司,它正在成为 ASML 的潜在挑战者,ASML 是另一家 FabTool 开发商。正如我们多次报道的那样,可能在这一点上,ASML 是……
制造先进芯片能力的关键部分之一,他们提供,他们是唯一一家提供真正先进技术、工具来制造,你知道,处于微小节点尺寸领先地位的公司。是的。
没有人能够匹敌。所以如果确实有一家中国国内公司能够提供这些工具,这将非常重要。
是的,中国发生的事情很有趣。我们一次又一次地看到他们试图将美国的一堆不同公司合并成一家公司,对吧?所以华为中芯国际似乎正在形成一个复杂的体系。这就像你把英伟达粘在台积电上一样,芯片设计与芯片制造,对吧?好吧,这里还有另一家公司,SCI Carrier,C Carrier,我不知道,但硅载体,对吧?
这基本上就像整合了制造过程前端的许多不同部分。所以当你制造半导体时,前端是制造的第一阶段也是最复杂的一阶段,你的电路实际上将在硅晶片上创建。为此,你需要做很多事情。你必须准备晶片。你实际上必须拥有一台光刻机,它可以发射……
基本上是紫外线照射到你的晶片上,然后最终在那里进行蚀刻。然后是蚀刻,用离子注入掺杂。各种各样的东西。他们现在拥有全面的产品。他们刚刚推出了一整套产品,
涵盖端到端。这使他们不仅与 ASML 竞争,还与应用材料公司、泛林集团等许多拥有供应链其他部分的大公司竞争,这些部分可能比光刻更容易进入。但在光刻方面,Sci-Carrier 还声称他们制造的光刻机可以生产 28 纳米芯片。比台积电落后得多,
但这使中国更近了一步,如果这是真的。如果这是真的,如果它具有经济效益,那么它将使他们更近一步地拥有他们对 ASML 的答案,而……
他们仍然还有很长的路要走。这不应该是一种从 28 纳米光刻机到 7 纳米 DUV,更不用说 EUV 的飞跃了。你可以查看我们的硬件剧集以了解更多信息。但这是我听说中国对 ASML 在光刻方面的答案最接近的一次。他们还带来了很多其他的东西。再次,中国供应链中越来越多的整合。
本节的最后一个故事,也是关于中国的,Pony.ai 赢得了在中国硅谷进行全自动驾驶出租车运营的第一个许可证。所以他们将能够在深圳南山区的一部分运营他们的汽车。
这非常重要,因为总部位于美国的公司特斯拉和 Waymo 据推测将无法再提供
在中国提供无人驾驶出租车服务。这是一个巨大的市场,非常值得争取。Pony.ai 是该领域的领导者之一。是的,中国在人工智能方面正在取得真正的进展,我们不应该忽视这一点。评估这类事情的挑战之一是
你有一个非常友好的监管环境来处理这类事情。中国希望能够发布这样的新闻,并且也有掩盖与各种事故相关的死亡人数的历史,从 COVID 到其他方面。因此,在西方发生的事情上进行苹果与苹果的比较总是很困难,但他们确实拥有巨大的数据优势。他们拥有巨大的数据整合优势、巨大的硬件制造优势。如果这是真的,那也就不足为奇了。所以就是这样。也许——
关于谁将首先实现全自动驾驶的有趣竞争。对。Pony AI 已经存在相当长一段时间了,实际上是在 2016 年成立于硅谷。所以是的,他们一段时间以来一直领先于其他公司。他们可能接近成功是有道理的。
关于项目和开源,我们从一个新的具有挑战性的 AGI 基准开始,正如你所说,我们必须继续制定新的基准。这来自 ARC 奖金基金会。我们之前在高层次上报道过 ARC AGI。这些 ARC 基准的想法是,它们
测试一种广泛的、抽象的能力来进行推理和模式匹配。特别是,以人类无需过多努力就能做到好的方式。所以 400 人参加了这个 Arc AGI 测试,并能够获得结果。
平均正确答案为 60%,这超过了人工智能模型。他们说,像 GPT-4.5、Cloud 3.7、Gemini 2 这样的非推理模型的得分都在 1% 左右,而推理模型的得分在 1% 到 1.3% 之间。所以这也是一项挑战的一部分,因为存在这种
能够在某些条件下通过这些测试,在没有互联网连接的情况下本地运行。我认为在一个单一的 GPU 上,我忘了。而且我认为只有一个手臂。是的,完全正确。一半的……
晶体管必须关闭。是的。所以是的,这是 ArcAGI 的迭代。当时,我们确实报道过一个大新闻,即 O3 以高计算成本在 ArcAGI 1 上匹配了人类的表现。所以并不完全处于同一水平,但他们仍然在某种程度上击败了基准。
在这个基准上,他们每项任务只使用 200 美元的计算成本就获得了 4% 的分数。所以这显然具有挑战性,显然吸取了这些模型击败 Arc AGI 1 的教训。我认为这是一个非常重要或有趣的事情,值得关注。
是的,他们在这里专门引入了一个新的指标,即效率指标。其想法是,他们不希望这些模型仅仅能够通过蛮力来解决问题,我觉得这非常有趣。有一个关于规模本身是否足够的基本问题。
而规模最大化者会说,好吧,效率有什么意义呢?计算成本随着时间的推移而下降。然后是算法效率本身,存在一种算法效率,从概念上讲,你仍然运行相同的算法,但只是找到更有效的方法来实现它。就模型应用的认知效率机制而言,这不是一场概念上的革命。
机制。例如,想想从注意力机制到闪存注意力机制的转变,对吧?这就像一种优化,或者像 KV 缓存级别的优化,它只会使你的转换器运行得更快、训练得更快,推理成本更低。这似乎不是他们在这里谈论的内容。他们似乎在谈论
只是,你知道,模型需要尝试多少次才能解决问题?这是一个有趣的基本问题,即鉴于我们正在获得这种更多的算法效率改进,而无需重新发明轮子,并且硬件越来越便宜,所有这些都在复合,这是否是一件有意义的事情。所以如果你今年可以用一定的硬件集群来解决这个基准,
那么你大概可以在六个月后用十分之一的硬件,十分之一的成本来做到这一点。所以这是一个很有趣的论点。设计这个基准的弗朗索瓦·舒伊纳德显然站在一边说,嘿,在某种意义上,解决方案的优雅也很重要。是的,我认为这很有趣,显然,为了让你了解这个性能是如何变化的。所以睁开眼睛,O3 模型,O3 低。所以它的版本花费更少的钱
测试时间计算显然是第一个……好吧,我应该说,众所周知,不是显然的。它是第一个达到基本上接近饱和点在 Arc AGI 1 上。它在测试中达到了大约 76%。这就是让每个人都开始谈论的原因,好吧,我们需要一个新的 AGI 基准。该模型在 Arc AGI 2 上获得了 4% 的分数。
使用每项任务 200 美元的计算能力,对吧?所以这让你明白我们再次抑制了曲线,但如果过去的表现有任何迹象,我认为这些曲线很快就会饱和,我们将再次进行同样的对话。
下一个故事也与一个具有挑战性的基准有关。这是一篇论文,它挑战了大型语言模型推理的界限和奥林匹克级别的数学基准。所以新的数学基准,他们称之为肢体数学。这有 200 个问题,有两个难度级别,简单和困难,简单类似于 Amy 和现有的数学。
基准,而困难则类似于即使人类也能解决的超级高级类型的数学问题。他们显然是从教科书、印刷材料中整理这些问题的,
他们特意排除了在线存储库和论坛,以避免数据污染。在他们的实验中,他们发现先进的推理模型 DeepSeq R1 和 O3-mini,
在数据集的困难子集上分别仅达到 21.2% 或 30% 的准确率。所以仍然有一些挑战需要解决。我想几个月后,我们将讨论我们如何达到 90% 的准确率。是的,我们将拥有 Olym Math 的下一个版本。是的,他们提出了一些非常有趣的观察结果,也许并不太令人惊讶。
显然,与中文版本相比,模型在这些问题的英文版本上始终表现更好,因为他们收集了这两种版本。这很酷。他们仍然看到相当多的猜测策略。模型到达线程的末尾,他们只是抛出一些东西,这大概会增加误报。
分数有点。我要说的是,首先,是的,赞扬和有趣的策略是走向现实世界并以这种方式收集这些东西。这确实让我想知道,例如,你如何才能有效地清除你在杂志上看到的题目的数据集,并确信它们不存在于其他地方。显然,存在各种数据清理策略,包括使用语言模型和其他东西来仔细检查你的数据,以确保它没有在互联网上被引用。但是
这些东西并不总是万无一失的。有很多案例表明,人们认为他们做得很好,没有留下任何这些材料在线,基本上就像已经训练过的模型一样。所以是的,我很好奇,你知道,我们最终是否会发现这个基准的饱和度至少最初是由于过度拟合造成的。
是的,了解的挑战之一是我们不知道这些公司中任何一个的训练数据集,对于 OpenAI、Anthropic 来说。这些不是公开发布的数据集。我会说,他们有 100% 的可能性购买并扫描了大量教科书,并将它们包含在他们的训练数据中。哦,是的。所以谁知道呢,对吧?
还有几个故事,实际上另一个来自中国。我们有一个开放的先进大型视频生成模型,这来自阿里巴巴。正如我们所说,正如标题所说,这是一个大型模型,最大的尺寸为 140 亿个参数。他们还提供了一个 13 亿个参数的模型,该模型更有效,
在大量数据上进行训练,开源,
在文本到视频领域似乎大大超过了任何开源的东西,无论是在效率、速度还是外观方面。唯一具有竞争力的实际上是 Hun Yuan Video,我认为我们最近报道过。像 Open Sora 这样的东西在外观测量方面要低得多。所以开源……
你知道,稳步达到我们拥有良好文本到图像的文本到视频的程度。是的,而且,我的意思是,轶事地,一些图像非常逼真,或者一些,对不起,一些,是的,静止图像。我会注意到,这有点滑稽,我不知道这是不是故意的,我看不到提示,但在本文的第四页有一张照片非常像斯嘉丽·约翰逊。
所以这是一个,如果是有意的,我想这是一个,对 OpenAI 的轻微讽刺,但无论如何,就是这样。我的意思是,中国,尤其是在开源方面,是认真的。我的意思是,这是阿里巴巴,对吧?所以他们可以获得规模化的训练预算,但他们甚至不是中国领先的实验室,对吧?你想要关注华为,你想要关注深度搜索,但是,非常令人印象深刻。是的。
完全正确。我认为看到这么多开源的东西很有趣,Meta 可能是美国仍在进行大量开源的公司之一。
谷歌用较小的模型做了一些事情。基本上,唯一发布的模型是较小的模型,如 Gemma 和 Fi。但我们从中国获得了更令人印象深刻的模型。当然,现在很多人都在使用 R1,因为它是一个开源模型。
说到这个,下一个故事是关于 DeepSeek v3 的。截至 3 月 24 日,我们有了新版本。这是一个有点蹩脚的命名约定,该模型是 DeepSeek v3-0324。只是一个增量更新,但这是一个重要的更新,因为这现在是在某些基准测试中得分最高的非推理模型。
超过 Gemini 2 Pro 和 Meta Lama 3.3 70B。是的,基本上超过了大多数模型,而它不是一个推理模型。所以这大概表明 R1 是基于 DeepSeek V3 的。V3 是一个基础模型。V3 在当时也是一个非常令人印象深刻的模型,训练成本非常低。这是一个大新闻。
大概,那里的团队是
能够相当大地改进 v3,部分原因是 r1、合成数据生成等。当然,他们可能正在学习很多关于如何榨取他们所能获得的所有性能的知识。是的,我认为这是一个有很多警告的情况。但是对这类事情的任何分析都必须从坦率地承认 DeepSeq 是真实的开始和结束,这确实令人印象深刻。现在我只需要添加几个但是,对吧?所以这并不是要否定顶线。
我们在本集中多次谈到过实验室,所以 Gemini 2.5 不再只是一个简单的基础模型了。所有实验室默认情况下都远离这一点,不再发布新的基础模型。所以是的,DeepSeek V3,3 月 25 日的版本比所有现有的基础模型都好,包括专有的模型。
但实验室正在失去对专有基础模型的兴趣。这是一个重要的警告。这不像 DeepSeq 只专注于基础模型,而实验室只专注于基础模型,这是一种苹果与苹果的比较。但是最新发布的基础模型
仍然相对较新,仍然是 GPD 4.5,OpenAI 也已经使用它一段时间了。所以很难知道这暗示 DeepSeq 与前沿技术有多远。这场对话将继续进行。而真正的答案只有知道他们已经掌握某些能力多长时间的一些实验室才知道。还有一个问题是,DeepSeq 可能只是选择投资更多,当然现在他们有了国家支持,谁知道呢?
但为了宣传目的而满足这个基准。所以这并不是要否定这个模型。它确实非常非常令人印象深刻。顺便说一句,所有规格基本上与以前相同。所以上下文窗口为 128,000 个标记。
无论如何,参数计数等等都相同。但我认为这是一个非常令人印象深刻的事情,有一些重要的警告,不要直接从提示符中读取这一点,比如说,在评估中国在哪里,DeepSeq 在哪里方面。对。而且我认为非常重要,因为 DeepSeq v3 的使用成本也相当低廉。你也可以在像 Grok 这样的提供商那里使用它,Grok 带 Q。所以如果它超过了
你知道,像 Claude 和 OpenAI 这样的模型用于实际应用,它实际上可能会严重损害 OpenAI 的利润,
至少对于初创公司和非 Azure 价格的客户来说。是的,对于使用基础模型的人来说,对吧?我想每个人的赌注都是这不会继续成为默认用例。如果你正在做开源,那么发布基础模型会更有趣,对吧?因为这样其他人就可以将他们自己的 RL 和后期训练方案应用到它上面。所以你可能会看到开源继续不成比例地发布其中一些
基础模型。我不会惊讶地发现,未来几年,基础模型的全部前沿将因此而被开源所主导。但问题是,是的,价值获取,对吧?人们是否在基础模型上花费更多钱?我认为不是。我认为他们正在为我们看到开始占据主导地位的自主代理模型投入更多资金。
还有一个故事。这个故事是关于OpenAI的,而不是关于模型的。我们看到一个公告,或者至少是Sam Altman在Twitter上的一篇文章,他说OpenAI将增加对模型上下文协议的支持,我们上周讨论过这个协议。
这是一个开源标准,它基本上定义了当您使用API时如何将模型用作协议。
有点重要,因为它来自一个主题。我们没有引入竞争性标准。他们正在采用现在已经成为社区兴奋的开放标准。所以我想这很酷。很高兴看到一些融合。当然,当您有一个新标准并且每个人都加入时,这使得构建工具更容易,并且整个生态系统受益匪浅。
一个标准最终成为每个人都使用的标准,并且没有像奇怪的竞争性不同方法那样。是的。我认为这已经有了如此强大的动力,以至于即使在OpenAI规模上朝着这个方向发展也是有意义的。是的。
关于研究和进展。正如我们在开头预览的那样,本周的大新闻来自Anthropic。这只是昨天发布的。所以我们仍在吸收它,无法深入细节,但我们将至少概述其含义和结果。所以……
实际上有一篇相当好的总结文章,你可以阅读,它技术性较低,来自麻省理工学院技术评论。这篇文章的标题是《Anthropic能够追踪大型语言模型奇异的内部运作》。
这涵盖了Anthropic的两篇博文。一篇名为《电路追踪:揭示语言模型中的计算图》。他们还有一篇博文,名为《大型语言模型的生物学》,本质上是将第一篇博文中提出的方法应用于Claude 3.5,并取得了许多有趣的结果。所以
这里有很多事情要做,我会尝试总结一下它所呈现的内容。我们之前已经看到Anthropic的工作侧重于可解释性和以可用且更直观的方式展现模型的内部运作。例如,我们看到他们使用……
技术能够看到模型具有一些高级功能,例如著名的金门大桥。然后你可以调整这些特征的激活,并能够影响模型。这本质上是将其提升到下一步。
在那里,你可以看到一系列高级特征协同工作并从初始输入令牌集中融合成输出。他们再次这样做,作为高级初始方法的后续行动,
它采用了用他们通过以下方式发现的高级特征替换模型的MLP位层的思想:
你知道,之前的一种东西。他们在这里有一种新的技术,叫做跨层转码器。因此,以前你只关注一层,并且你看到一层中的这些激活。现在你看到多层中的这些激活,并且你通过跨层转码器的概念看到特征之间的流动。而且
这里有一些更多细节,你从跨层转码器开始,然后创建一些叫做替换模型的东西。他们还为特定提示创建了一个局部替换模型。那里的想法是你基本上试图做到让这个替换模型(它没有相同的权重,没有与原始模型相同的节点或计算单元)具有相同的整体行为,具有相同的……
大致等效并且尽可能匹配模型,以便你可以用特征来查看模型的激活,并且可以忠实地将其映射到原始模型。让我们来看几个例子。他们在博文中提出的一个例子,图五,
你可以看到他们如何输入国家数字分析组,然后他们展示每个令牌如何在该图中导致令牌序列。你从数字分析组开始,它映射到与这些特定单词对应的令牌。在括号之后,
有一个未来,只是说/继续一个首字母缩写词。然后在计算图的第二层,你比如说D_1_说一些A,然后说一些G作为三个特征。还有一个叫做说DA的特征。
它与说G结合起来说DAG。DAG是数字分析组的首字母缩写词。这就是显示特征的总体流程。他们也非常有趣地对数学特征进行了分解。
他们有一些东西,我认为是36加59,他们正在展示这里正在使用一堆奇怪的特征。所以36大致映射到30、36和以6结尾的东西,59映射到以5开头的东西,大致是59、59和以9结尾的东西。然后你像
40加50左右和36加60左右。然后最终通过各种特征的组合,你最终得到36加59等于95的输出。
这是一个高级的东西。它让我们更深入地了解LLM的内部运作,就高级特征的组合以及它们在内部进行的电路而言。它实际上是基于去年耶鲁大学和哥伦比亚大学发表的一篇名为《转码器从可解释的LLM特征电路中发现》的论文。他们在这里使用了类似的方法,但当然规模更大。所以
与Anthropic之前的作品一样,在我看来,一些对可解释性影响最大的研究,也是一些最成功的研究,因为它确实展示了……
我认为在更深层次上,这些大型语言模型内部发生了什么。是的,绝对的。再说一次,我认为这是我在今天这一集开始时提出的警告。我还没有机会研究这个。这正是我倾向于花费最多时间的那种论文。所以对此表示歉意。我实际上可能会在下周带着一些热门话题回来。从我收集到的信息来看,这看起来是一项引人入胜的工作。这确实很吸引人。
我的意思是,它非常接近于对整体的决定性反驳,而且人们不再提出这种论点,即像加里·马库斯这样的人的随机鹦鹉论点,他们喜欢说,哦,LLM和自动攻击模型并没有那么令人印象深刻。它们实际上只是在预测下一个标记。它们是随机鹦鹉。它们基本上就像机器人一样,只是无情地输出最可能的下一个词。
我认为任何在过去两三年里关注可解释性领域的人都知道这显然是不正确的,以及关注能力方面的人,只是从我们看到的一些事情来看。但他们举的一个例子是,关于模型是否对不同语言使用完全独立的推理线程的问题。所以如果你问英语和法语中“small”的反义词是什么?
模型会使用语言中立组件,还是会对smallness有一个英语概念,一个法语概念?这也许是你对随机鹦鹉假设的预期,对吧?那就是,好吧,这是一个英语单词序列,所以我将使用我的英语子模型。事实证明并非如此,对吧?事实证明
相反,它使用与smallness和反义词相关的语言中立组件来得出答案。然后它才会选择,只有在它在潜在空间的概念层面进行推理之后,只有在那之后它才会用特定的语言解码。所以你在模型中有一个统一的推理空间。
它与语言脱钩,在某种程度上你应该期望它出现,因为它是一种压缩事物更有效的方式,对吧?这就像你有一个领域,并且你训练它的所有不同语言都是一种正则化。你是在强迫模型以一种独立于你选择用来推理的特定语言的方式进行推理。想法仍然相同。
然后,是的,存在关于可解释性的问题,对吧?这件事会捏造事实。你举了添加36和59的例子。如果它做了这种奇怪的推理,它几乎像是一种,如果你喜欢数学,你知道,像某种,我不知道,泰勒近似,你有点得到前导数字,对吧?然后是下一个数字,然后是下一个数字,而不是实际以符号方式进行。但是当你问它时,好吧,
你是如何得出这个答案的?它会给你一种常识。我加了1,我进位了1,我加了10,诸如此类,这明确地不是真正的推理。根据这项评估,它似乎至少遵循了这一点。这引发了关于你对推理痕迹的信任程度的深刻问题,这些推理痕迹已经变得如此流行,以至于
像DeepSeek和OpenAI这样的公司将其吹捧为他们(在某些情况下)将超级智能AI对齐的首要希望,这些推理痕迹似乎已经与这些模型中实际发生的推理脱钩了。所以这也是一个警告,我认为。
对。关于多语言故事的这一点,不仅是技术本身,而且是关于大型语言模型生物学的第二篇博文,他们将其应用于CLOD 3.5 HICU,并获得了一系列结果。他们有跨语言电路,有加法、医学诊断。
越狱的生命。他们实际上正在展示越狱是如何工作的。还有拒绝是如何工作的。所以一些非常深刻的见解实际上非常有用,就你如何构建你的LLM而言。这里有很多东西需要涵盖。所以我们可能在下周做第二部分。
接下来是关于工具链的故事,它利用了冻结语言模型的思维链推理中大量的未见工具。这是一种新的基于微调的工具学习方法,用于LLM,它允许它们在思维链推理过程中有效地使用未见工具。所以你可以用它来整合未见工具
他们实际上还有一个新的数据集,还有简单的工具问题,它有1836个工具可以用来评估工具选择性能。顺便说一句,工具是一种调用API。LLM可以说,好吧,我需要做这个事实,这个网络搜索,或者我需要做这个
加法,等等,它基本上可以使用计算器或谷歌,对吧?所以能够做各种事情非常重要。这将增加推理模型的性能。是的,这是一篇非常有趣的论文。它们是经典的多头九头蛇,你随时想要在模型中使用工具时都会权衡取舍。而且
所以其中一些技术,就像你提到的微调一样,如果你微调你的模型以使用工具,那么你不能使用你的基础模型,对吧?你不能只使用冻结的LLM。你不会成功地使用大量工具,因为你微调得越多,你忘记得越多,对吧?存在这种灾难性遗忘问题。因此,让模型同时知道如何使用超过一千个工具可能很困难,对吧?
如果你微调,你将永远无法让模型使用未见工具,因为你正在对想要教模型使用的特定工具集进行微调。上下文学习也存在类似的挑战,对吧?所以如果你正在进行上下文学习,你就会遇到大海捞针的问题。如果你有太多工具可供选择,模型就会开始失败。
无论如何,现有方法都面临各种挑战。那么这里有什么不同呢?他们在做什么?所以从冻结的LLM开始。这是一个非常重要的因素。他们希望能够在没有任何修改的情况下使用预先存在的模型。
他们将训练东西。他们将训练模型来帮助你开始使用的冻结LLM更好地完成它的工作,但这不会涉及训练任何原始LLM参数。所以他们将首先有一个工具判断器。基本上,当您向您的基础LLM提供提示时,它将查看激活,该输入在所有层的隐藏状态表示。它将根据我所在的序列中的这个特定令牌的表示,确定是否应该调用工具?下一个令牌将是调用计算器、调用天气应用程序还是其他什么?
所以这个工具判断器,再次在激活级别,在隐藏状态级别运行,这非常有趣,它将在一个具有明确注释的数据集上进行训练,例如,这里有一些提示,以及工具调用发生的位置,或者对不起,这里有一些文本,以及工具调用发生的位置。但是收集这些数据非常昂贵。所以他们也有合成数据显示相同的内容。
所以他们使用它来让工具判断器学习在激活空间中是什么和不是什么,什么对应于工具调用。所以基本上在这里训练一个二元分类器。然后在推理过程中,如果给定令牌的工具调用概率得分高于某个阈值,则系统将继续调用工具。当它这样做时,它通过一个单独的工具来做。
一种叫做工具检索器的模型。这是一种工具检索器,我的意思是,它不是一个模型,它本身就是一个系统。
它使用两种不同的模型,一个查询编码器和一个工具编码器。所以这基本上是RAG,对吧?这是检索增强生成。你有一些嵌入表示你所有不同的工具,你的1000或2000个不同的工具。然后你有一种表示查询嵌入的方法,对吧?这实际上是与工具判断器认为是工具调用的令牌相关的激活的修改版本。我的天哪。无论如何,从这里……
是RAG。所以如果你知道RAG的故事,那就是他们在这里做的。然后他们,他们,无论如何,他们调用工具。所以这里有一些优点,对吧?冻结的LLM不需要微调,也没有灾难性遗忘问题。
他们只使用隐藏状态。所以这相当简单。工具检索器,对吧?这个,这个东西,决定调用哪个工具的系统很有趣,它使用对比学习进行训练,基本上就像在每个训练小批量中一样,当你向系统提供一批训练数据以使其训练完毕时。
你基本上,而不是将一个工具与数据集中的所有其他工具进行比较以确定是否应该使用这个工具或另一个工具,你只是按批次进行比较,就像与该批次中调用或引用的所有工具进行比较一样,以使其更易于处理。
和计算效率。无论如何,如果你知道对比学习,那就是它的工作原理。如果你不知道,别担心。这是一个细节,但我认为这是一篇非常重要和有趣的论文,因为AGI的未来必须包括基本上无限的工具使用,对吧?我认为这是每个人都会合理预期的事情,以及学习如何使用新工具的能力。这是一种潜在的将这种能力融入其中的方法。
还有几篇论文。下一篇也是一篇关于可解释性的论文。标题是《由内而外:LLM中的隐藏事实知识》。这也很有趣。所以
简要总结一下,他们正在寻找LLM内部编码的知识,而它不会产生这些知识。它可能有一些隐藏的知识,它知道事实,但我们无法让它告诉我们它知道这些事实。他们这样做的方法是将知识定义为信息
你是否将正确答案的排名高于不正确的答案。所以你基本上知道哪个事实是事实,因为它
你认为是正确的延续。外部知识与内部知识的比较是外部的,你可以使用最终的标记概率,可见的最终外部事物。内部,你可以使用内部激活来获得对
排名的估计。这是一个有趣的发现,LLM在内部编码的事实知识比在外部表达时多40%。事实上,你可能会遇到这样的情况:LLM完全知道问题的答案,但即使尝试一千次也无法生成答案。
这是由于,你知道,采样,我想,过程。也许我需要更深入地研究,但可能有很多原因导致你无法对其进行采样。可能是,你知道,太小众了,你的先验正在覆盖它。可能是采样技术等等。
但无论如何,另一个关于LLM内部的有趣发现。是的,这是最接近……这是我见过的最接近对Guern著名……
格言的硬核量化,我想,他说提示可以揭示语言模型中能力的存在,但不能揭示能力的缺失。它可以揭示模型具有某种能力,但不能揭示它不具有这种能力。这就是你所看到的。这很直观。如果你尝试一千次而没有得到你认为系统能够提供的答案,那么这意味着你只是没有找到正确的提示。
一般来说,你永远不会找到所有提示的正确提示,对吧?所以你通常总是会低估语言模型的能力。当然,当你只在输出空间、标记空间中查看它时,这就是为什么越来越多的策略,例如OpenAI提出的只查看推理痕迹的安全策略看起来非常可疑并且从根本上是错误的。是的。
如果你要做出任何陈述,你需要表示空间可解释性技术。即使那样,对吧,你在激活本身的级别上也有各种有趣的隐写术问题。但是
有趣的论文。我想我们必须继续前进,因为我们的时间很紧。哦,是的,我们今天做的是一个较短的剧集,因为我们开始晚了半个小时。这就是为什么我们快速浏览的原因。但我确实认为这是一篇非常重要和有趣的论文。最后一篇论文,我们用另一个新的基准来结束。这是来自Sakana AI的。而且
他们的基准是基于数独的。我认为它被称为数独基准。这个基准不仅包含你见过的经典数独,还包含许多数独变体,这些变体具有越来越复杂的规则集,关于你如何在网格上填写数字。顺便说一句,数独是另一个网格。这里有一些规则。
根据这些规则,你必须找出哪些数字放在哪里,基本上。所以他们引入了这个基准。因为存在复杂性的进展,你看到即使是顶级推理模型,它们也能破解更容易的模型,但它们无法击败
这个更复杂的一面。而且,你知道,模型要能够击败这个基准,还有相当长的路要走。
是的,对我来说,这其中的要点是,我根本不知道数独是如何工作的,因为显然存在所有这些变体。就像我记得在高中时,我有一些朋友喜欢数独,它只是你提到的那种东西,其中有一个九乘九的网格,你必须将数字从1到9放在网格的每个组件中,每个组件只使用一次,然后所有这些爵士乐。但现在显然有各种各样的数独版本,
不像国际象棋和围棋,它们每次都有相同的规则。这就像……
所以有些版本,显然他们举的例子是,需要推断老鼠通过传送器迷宫的路径。所以如果老鼠到达X位置,那么它就会被神奇地传送到Y位置,Y位置可能完全不相关。这在数独的背景下被构思出来。另一个需要将障碍物、汽车(他们说)移动到正确的位置,然后再尝试出售。对此有各种奇怪的变化。他们基本上设计了一个频谱,对吧?从
非常非常简单,比如四乘四的数独,一直到添加越来越多的约束和子规则。这似乎通常是一种非常富有成效的……
玩组合游戏并程序化地生成所有这些可以玩的游戏的方法。然后他们最终到达的地方是他们分享了这些模型的性能数据集。你可以将此视为另一个Arc AGI类型的基准。对我来说,感觉就像,你知道,看到这与Arc AGI 2在同一周发布是一个有趣的巧合。基本上所有模型都很糟糕。这就是要点。最差的模型是来自
来自1月31日的O3 Mini。因此,对于这些问题的完整版本,它的正确求解率为1.5%。他们也有简化的难题。所以你实际上可以跟踪在这个方向上的进展。但无论如何,我认为这非常有趣。他们与一个名为Cracking the Cryptic的YouTube频道合作,基本上是为了整理出一堆本质上是训练数据,我想,这些东西的评估数据。但是的,这是一个
你知道,Sakana AI,他们是我们之前报道过的AI科学家论文的作者。他们带着这个回来了,我想称之为AGI基准,因为感觉就是这样。
接下来是政策和安全,首先是一些美国立法。参议员斯科特·韦纳正在推出SB53法案,旨在保护AI举报人并促进负责任的AI发展。所以这将……
首先,包括保护向公众通报AI风险的举报人的条款。它还建议建立CalCompute,这是一个研究集群,旨在为AI初创企业和研究人员提供低成本计算。这尤其是在加利福尼亚州,所以这将保护研究人员
大概是来自一些著名的加利福尼亚州公司的举报人,并让初创企业可能参与竞争。是的,这实际上非常有趣,对吧?因为我们广泛报道了SB 1047,这是一项成功通过加利福尼亚州立法机构的法案,加文·纽瑟姆否决了这项法案,不仅反对AI界的许多举报人,而且还反对埃隆·马斯克。
他实际上确实出来支持,这对他来说很不寻常,他是一个自由主义倾向的人,他支持SB 1047。SB 1047的原始版本包含很多内容,但基本上有三件事。一个是举报人保护。这包含在SB 53中。
另一个是Cal Compute。这包含在SB 53中,这让我们想知道,好吧,缺少什么,对吧?SB 1047有什么区别?这是责任制度。SB 1047包含许多条件,其中开发成本超过1亿美元的模型的开发人员……
如果他们的安全措施达不到标准,则可能要对灾难负责。所以如果他们开发了一个模型,并且它导致了灾难性事件,并且仅仅开发这个模型就花费了他们超过1亿美元,这基本上意味着你必须拥有超级资源才能构建这些模型。好吧,如果你拥有超级资源并且你正在构建一个模型,比如
训练费用超过1亿美元,是的,你将对由此产生的灾难性后果负责。我认为很多人……
对此表示,嘿,这个门槛不算太低。对于这些公司来说,这是一个相当合理的标准。但这被加文·纽瑟姆否决了。所以现在他们基本上是在说,好吧,加文,如果我们取消这个责任制度,我们再试一次呢?这就是我们现在所处的状态。所以他们正在努力通过加利福尼亚州立法机构。我们将看看这是否会再次出现在纽瑟姆的办公桌上。如果这样的话,如果我们再次废除这项立法。是的。
我应该明确一点,这是一位加利福尼亚州立法机构的参议员,而不是联邦政府的参议员。他实际上代表旧金山,来自旧金山的一位民主党人,这很有趣。是的,主要论点是平衡对安全措施的需求与加速和……,并对1047提出的异议做出回应。
接下来,我们有一个与美国联邦政策相关的报道。标题是《英伟达和其他科技巨头要求特朗普政府重新考虑将于5月15日生效的“AI扩散政策”》。这是一项最初在拜登政府时期推出的政策,它将各国大致分为三类,这取决于它们与美国国家安全利益的友好程度。
所以第一类是朋友,他们可以无限制地进口芯片。第二类是敌对国家,它们完全禁止获得美国原产的AI技术。然后还有其他国家,如印度,它们面临限制。当然,像英伟达这样的公司对此并不满意,因为这意味着购买他们芯片的人会减少。
我认为这就是故事。是的,毫不奇怪,有很多游说反对AI扩散政策。顺便说一句,这是拜登政府提出的政策,但有趣的是,到目前为止还没有被废除。这真的很令人感兴趣。
因为,你知道,拜登政府的许多行政命令都被取消了,正如你所料,特朗普政府就位后就是这样。所以,是的,我的意思是,这,你知道,英伟达再次尝试,甲骨文再次尝试,看看我们能否放松这些限制。我相信,我们将来会更多地讨论这个问题。接下来,另一个与出口管制相关的新闻,我们最喜欢的主题。这个新闻是美国将超过50家中国公司列入黑名单
列入出口黑名单。这是来自商务部工业与安全局的消息。现在实际上有80个组织在这个实体名单上,其中50多个来自中国。这些公司据称违反了美国的国家安全和外交政策问题。
例如,是的,他们被列入黑名单,禁止获取美国物品以支持军事现代化、推进量子技术和人工智能等。是的,这是我的一些案例,我不知道,当涉及到政策方面时,我认为这些仍然是拜登时代的政策,基本上是在这里运作。
我们可能会看到这种情况发生变化,但就目前而言,老兄,拜托。所以,他们添加到黑名单中的两家公司,正在向受制裁的实体(如华为及其关联芯片制造商海思)供应产品。好的。所以海思基本上就是华为。它基本上是华为的一个部门,是华为的英伟达,如果你愿意的话。他们负责所有的芯片设计。
然后他们将27个实体列入黑名单,理由是获取支持中国共产党军事现代化的物品和其他一些东西。当涉及到人工智能方面时,好吧,在实体名单中的组织中,他们说,我们还有六家中国云计算公司Inspur Group的子公司。Inspur是中国一家巨大的云计算公司。
他们实际上在过去制造了中国版的GPT-3。如果你当时在跟踪的话,你可能会记得这个,它被称为UN 1.0,或者也称为Source 1.0。但事实上,这是中国的游戏,对吧?他们不断地推出这些愚蠢的子公司,并利用这样一个事实
是的,就像我们不会抓住他们一样。我们在玩一场输赢的打地鼠游戏。创建子公司非常便宜,你可以进口你不应该进口的东西,直到它们被发现并关闭。然后你再做一次,直到我们转向黑名单模式,对不起,而是转向白名单模式,而不是对中国的黑名单模式。这种情况会继续发生,对吧?你需要一个白名单,默认情况下是禁止的,然后某些实体可以进口。然后你必须非常非常小心,因为这是
基本上是因为军民融合,中国任何私营实体都是解放军,中国军队附属实体。这就是它的运作方式。这与它在美国的运作方式不同。这就是生活的事实。但是,除非你采取白名单策略,否则你只是在等待被人愚弄。人们会创建新的子公司,我们将继续撰写这样的文章和新闻,直到牛回家
除非这种情况改变。所以这是一种情况,你知道,我不知道为什么拜登政府没有这样做。我知道美国工业界人士面临着巨大的压力,因为这确实很难。但在某种程度上,如果目标是阻止中国共产党军队获得这种能力,我们必须诚实地面对自己,这就是解决方案。否则,我们将无法成功地进行这种打地鼠游戏。
还有一个新闻,这个新闻更关注安全而不是政策。Netflix的里德·黑斯廷斯向鲍登学院捐赠5000万美元,用于建立一个人工智能项目。这将是一个名为“人工智能与人类”的研究计划,重点关注人工智能的风险和后果,而不是传统科学
计算机科学,人工智能研究。学院将利用这些资金来招聘新的教师,并支持现有教师的这项研究重点。5000万美元相当多,我想,用于做这种事情。
是的,这很有趣,因为我不知道,你知道,在这个问题上有很多这样的名人。我们没有听到Netflix的消息,对吧?来自里德·黑斯廷斯。所以我想现在我们知道至少这件事的一部分是怎么发生的。是的,这很有趣。当然,这是给黑斯廷斯的母校的礼物。几十年前他毕业于这所大学。
关于合成媒体和艺术,我们还有几个新闻。首先,一位法官允许《纽约时报》针对OpenAI的版权案继续进行。OpenAI曾请求驳回此案,但没有成功。
法官缩小了诉讼的范围,但维持了主要的版权侵权索赔。法官还表示,他们将发布一份详细的意见,但尚未发布。我认为这非常重要,因为有很多诉讼正在进行,但这可是《纽约时报》。一家大型媒体出版公司,肯定有
经验丰富的律师在其身边,并且能够在资源方面与OpenAI抗衡。所以,这个案子继续进行,这非常重要。是的,我的意思是,实际上,我的意思是,现在,他们可能没有以前那样的资源。令人惊讶的是,他们相当成功,你会认为,因为他们设法转向基于订阅的在线模式,并且比近几十年来的其他媒体实体生存得更好。
我不知道他们是否像以前那么大了,但他们仍然出奇地成功。是的。我正在查找。显然,他们的订阅收入
是,让我看看这个季度。好的。每季度订阅收入为4.4亿美元。天哪。好的。我不会,我不会想到的。我必须更新我的,好吧,就是这样。我的意思是,我们将,我们将得到,我们将得到法官斯坦所说的“迅速”的意思,我想在律师的谈话或法律谈话中可能意味着未来十年中的某个时候,但就是这样。
另一个类似的新闻,尽管这次是另一方,一位法官裁定,Anthropic目前可以继续使用受版权保护的歌词进行训练。这是环球音乐集团的一项诉讼的一部分,该集团希望获得禁令,以阻止Anthropic使用受版权保护的歌词来训练模型。这意味着……
是的,Anthropic可以继续这样做,假设它正在这样做。这还表示诉讼将继续进行。关于Anthropic这样做是否合法,仍然存在一个悬而未决的问题,但在实际案件进行之前,还没有限制。
这非常不像律师的领域。据我了解,禁令基本上是法院在某些事情发生之前提前说,哦,砰砰砰,就像,你知道,不要这样做。然后,如果你违反了禁令,那么做这件事就尤其糟糕。所以这有点像,法院的预期,而不是对某些事情的反应。所以这是,
这就是出版商要求的。因此,法官对该案的声明说:“出版商基本上要求法院界定人工智能训练许可市场的范围,其中公平使用的门槛问题仍未解决。”
法院拒绝根据合法权利向出版商授予初步禁令这种特殊救济。所以基本上,我们不会介入并预料到这个市场将走向何方,只是说,嘿,你不能根据尚未确立的合法权利使用这个。所以基本上,由另一个法院来决定实际的合法权利是什么。在我们这样做之前,我们没有立场根据
尚未确定的法律来授予禁令。所以一旦我们有了确定的法律,是的,如果它说你不允许这样做,那么当然,我们可能会授予禁令,说,哦,Anthropic,不要那样做。但就目前而言,法律上没有规定,我们也没有先例。所以我不会给你禁令。至少这是我对这件事的解读。再说一次,听着的律师可能会打我的脸并纠正我,但这很有趣。是的,听起来对我来说是对的。所以……
好了,本期《上周人工智能》就到这里。本周发生了很多事情,希望我们已经涵盖了这些内容。正如我们所说,我们可能会在下周涵盖更多这些细节,因为有很多内容需要解读。但就目前而言,感谢您收听这整集节目。我们感谢您的评论、评价、分享播客等等。但最重要的是,我们感谢您的收听。所以请继续这样做。
收听,收听,新闻开始了,是时候打破,打破它了。《上周人工智能》来搭车吧,了解科技的低迷之处,让它滑落。《上周人工智能》来搭车吧,我被允许上街,人工智能正在攀升。
新兴科技,看着外科医生飞翔从实验室到街道,人工智能正在攀升算法塑造未来的海洋收听,收听,轻松获取最新信息《上周人工智能》来搭车吧了解科技的低迷之处,让它滑落《上周人工智能》来搭车吧从实验室到街道,人工智能正在攀升
从神经网络到机器人,新闻标题不断涌现数据驱动的梦想,它们永不停歇每一次突破,每一行未写的代码在变化的边缘
我们兴奋地被迷住了,从机器学习奇迹到编码之王。未来正在展开,看看它会带来什么。