以下是与 Dylan Patel 和 Nathan Lampert 的对话。Dylan 运营着 SemiAnalysis,这是一家备受推崇的研究和分析公司,专门从事半导体、GPU、CPU 和人工智能硬件领域的研究。Nathan 是艾伦人工智能研究所 (Ai2) 的研究科学家,也是一篇名为 Interconnects 的关于人工智能的精彩博客的作者。
他们都非常受人尊敬,在人工智能领域的专家、研究人员和工程师中广为阅读和聆听。
就我个人而言,我只是他们的粉丝。因此,我利用震惊人工智能世界的 DeepSeek 事件作为机会,与他们坐下来,把所有事情都摆出来。从 DeepSeek、OpenAI、谷歌 XAI、MetaAnthropic 到英伟达和台积电,再到美国、中国、台湾关系以及人工智能前沿发生的一切。
这次对话深入探讨了人工智能行业的许多关键方面。虽然它确实变得非常技术性,但我们试图确保它仍然可以被人工智能领域以外的人们所理解,方法是定义术语、明确说明重要概念、拼写出缩写词,以及总的来说,始终跨越多个抽象层和细节级别。
媒体对人工智能是什么和不是什么有很多炒作。这个播客的目的,部分是为了消除炒作、废话和低分辨率的分析,并详细讨论事物的工作原理及其影响。
如果可以的话,我还想评论一下新的 OpenAI 03 Mini 推理模型,我们在谈话中一直在期待它的发布,它确实在之后发布了。它的能力和成本与我们的预期相符,正如我们所说的那样。OpenAI 03 Mini 确实是一个很棒的模型。
但应该指出的是,DeepSeek R1 在基准测试上的性能相似,而且更便宜,并且它揭示了它的思维链推理,而 O3 Mini 则没有。它只显示推理的摘要。此外,R1 是开放权重的,而 O3 Mini 则不是。顺便说一句,我有机会试用 O3 Mini,从轶事上的感觉检查来看,我觉得 O3 Mini......
特别是 O3 Mini High,比 R1 更好。不过,就我个人而言,我发现 Claude Sonna 3.5 是编程的最佳模型,除了我会使用 O1 Pro 来集思广益的棘手情况。无论如何,还会有更多更好的 AI 模型出现,包括推理模型,来自美国和中国的公司。它们将继续改变成本曲线。
但是,“DeepSeek 时刻”确实是真实的。我认为五年后它仍然会被人们铭记为科技史上的一个关键事件,部分原因是地缘政治影响,但也因为其他原因,正如我们在这次对话中从许多角度详细讨论的那样。
现在快速提及一下每个赞助商。在说明中查看它们。这是支持这个播客的最佳方式。我们有用于视频生成的 InVideo AI、用于编码的 GitHub、用于在线销售商品的 Shopify、用于经营业务的 NetSuite 以及用于保持健康的 AG1。朋友们,明智地选择吧。
另外,如果您想出于任何原因与我联系,请访问 alexreeman.com/contact。现在进入后续广告阅读。中间没有广告。我试图让它变得有趣,但如果您跳过它们,请仍然查看我们的赞助商。我喜欢他们的东西。也许你也会喜欢。
这段视频由一位新的赞助商为您带来,但我认识这些人已经很久了,非常适合这个播客。他们被称为 InVideo AI。这是一个视频生成应用程序,允许您仅使用文本提示创建完整长度的视频。它直观易用,效果惊人。您真正可以做到的事情令人难以置信。我已经玩了不少了
并将其用于素材片段。顺便说一句,他们让您非常容易地在实际可用的素材片段和 AI 生成的素材片段之间切换。我一直在为与 Tim Sweeney 的谈话做准备,他是虚幻引擎的创建者。在那里,它是 3D 世界,您可以考虑 AI 在生成这些 3D 世界中的作用。
这就是未来 5 年、10 年、20 年的情况。在电子游戏中和模拟中,我们生活中一个基本的部分将由 AI 生成。我认为英伟达 AI 在视频的 2D 平面中出色地推动了我们朝着这个方向发展。现在,我认为这不是一种取代人类创造力的工具。
我认为它增强了人类的创造力。我认为现在和未来很长一段时间内,人类都将参与创造伟大的艺术,因为我们是在为彼此创造。只有人类才能真正深入地了解什么才能让其他人像老 Kerouac 的台词一样。如果您想试用英伟达 AI,您可以免费在 nvidia.io/lexpod 上试用。
节省生产成本的时间和金钱。本集由多年来给我带来快乐并为成千上万、数百万(我不知道有多少)开发人员创建了一个社区的东西为您带来,这个地方叫做 GitHub。这是一家真正增强了开发人员社区的公司。我的意思是,如果没有 GitHub,世界将会怎样?
而且,作为一个公司,他们也在不断突破 AI 代码生成、AI 辅助编码的可能性极限。他们是 Copilot 的先驱。他们仍然是 Copilot 的先驱。这是一个竞争激烈的领域,他们正在尽最大努力赢得胜利。我将永远支持 GitHub Copilot。现在,它集成在许多 IDE 中,而不仅仅是 VS Code。我当然......
目前是 VS Code 的用户。我使用了很长时间的 JetBrains。我仍然偶尔使用一下。对于那些不知道的人来说,JetBrains 有很多。我不喜欢用这个词。这似乎是精英主义的。一定有更好的词。JetBrains 内部有很多不同类型的子 IDE。我甚至使用过 DataGrip,它管理 MySQL。我应该提到,这可能很尴尬,但我没有......
哦,这可能很有趣。但我还没有在任何数据库管理 GUI 上使用过像 Copilot 这样的东西。我想知道 DataGrip 是否集成了 Copilot。我必须检查一下。但我使用的一切,我都是从头开始编写 SQL 查询。
在数据库管理 GUI 内。如果我想进行复杂的查询,我会转到任何 LLM,可能会使用 Clawhausana 3.5,或者如果它是代码的一部分,那么我将进入我的 IDE。我只是喜欢有一个数据库的 GUI 管理。我必须检查一下。如果 DataGrip 集成 Copilot,那将是不可思议的。如果不是,我会大声喊叫,希望它最终会实现,因为它会
让我的生活更轻松一些。将数据库的可视组件与 SQL 查询的代码组件结合起来,是的,这将是惊人的。无论如何,请在 gh.io/copilot 上查看 GitHub Copilot。
本集由 Shopify 为您带来。不是 Spotify。Shopify。很容易混淆。CEO 经常在 X 上被标记。他们都是伟大的 CEO。但这是 Shopify。您可以使用外观精美的在线商店在任何地方销售商品。使用 Shopify。我实际上一直在学习很多关于丝绸之路的知识。
不是数字化的那个。在人类历史上很长一段时间里,它一直是商人旅行和交易商品的地方。我读了很多关于成吉思汗的资料,他曾在丝绸之路上执行法治,这实际上对欧亚地区的经济产生了巨大的激励作用。无论如何,那是在电脑出现之前。如果他们有电脑,想象一下......
想象一下如果他们有电脑。哇,成吉思汗的军队会多么可怕。或者也许不会。也许每个技术时代都有自己类型的军事战略家,都有与那个时代完美匹配的人类来征服土地和人民。尽管如此,那是一个多么可怕的时代。大部分人类历史。有很多美丽,但也有很多死亡方式。
所以我很高兴生活在 21 世纪,我可以悠闲地喝着玛格丽塔酒。我不喝玛格丽塔酒,但如果我想喝,我可以。然后在 Shopify 创建的商店里购买东西。无论如何,您可以在 shopify.com/lex 上注册每月 1 美元的试用期。访问 shopify.com/lex,将您的业务提升到一个新的水平。
本集还由 NetSuite 为您带来,NetSuite 是一款一体化业务管理系统。我不确定为什么我说得这么慢,但我确实说了。实际上,我为本集做了一个 5 到 6 分钟的幕间休息,在试用 OpenAI 03 Mini 后,我在中间添加了一个附录。在剧集中间插入自己是一种多么奇怪的感觉。
我觉得自己像个电灯泡。就像,“嘿,嘿,大家好,你们在做什么?为什么你们不邀请我参加这个派对?”这就是我的感觉。嘿,过去的 Lex,我是未来的 Lex。对,我应该谈论 NetSuite,它是一个一体化的云业务管理系统。它是机器内部的机器。哇,我们正在越来越多地构建机器堆栈。一层又一层又一层的抽象,直到我们只是坐在某个海滩上,
与一个负责处理其他一切的人工智能系统交谈。无论如何,您可以在 netsuite.com/lex 下载《首席财务官人工智能和机器学习指南》。网址是 netsuite.com/lex。本集还由 AG1 为您带来。这是一种一体化的日常饮品,可以支持更好的健康和最佳表现。我今天喝了。我今天很享受。我睡得很少。我必须做的工作量很大。昨晚......
凌晨 6 点,我凌晨 7 点、8 点上床睡觉,想着熬夜。这太疯狂了。无论如何,凌晨 6 点,我喝了一杯 AG-1,我坐在沙发上,看了大约 10 分钟的《美国原始》。我一次看大约 5 到 10 分钟的节目。我一边啜饮 AG-1,一边想着自己多么幸运,多么他妈的幸运还活着。
首先,因为我正在观看美国边疆,人们互相残杀,那个时代大自然的残酷现实和战争,以及那个时代的无法无天。但我也很幸运能在这个旋转的岩石上,享受这种绿色健康的饮料,能够看节目,能够努力工作,朝着自己热爱的事物努力,能够去爱。
能够呼吸,所有这一切,都太棒了。无论如何,当您在 drinkag1.com/Lex 注册时,他们会为您提供一个月的鱼油供应。这是 Lex Friedman 播客。为了支持它,请查看说明中的赞助商。现在,亲爱的朋友们,以下是 Dylan Patel 和 Nathan Lambert。
很多人很好奇地想知道中国的 DeepSeq AI 模型。所以让我们来解释一下。Nathan,你能描述一下 DeepSeq v3 和 DeepSeq R1 是什么,它们是如何工作的,它们是如何训练的吗?让我们先看看大图,然后再放大细节。是的,DeepSeq v3 是来自位于中国的 DeepSeq 的一个新的混合专家转换器语言模型。
他们在模型中有一些新的细节,我们稍后会讨论。总的来说,这是一个开放权重模型,它是一个指令模型,就像你在 ChatGPT 中使用的那样。他们还发布了所谓的基模型,这是在后训练技术之前的。今天大多数人都使用指令模型,这些模型被用于各种应用程序。我认为这是在 12 月 26 日或那一周发布的。
然后几周后的 1 月 20 日,DeepSeq 发布了 DeepSeq R1,这是一个推理模型,它
真正加速了这场讨论。这个推理模型与 DeepSeq v3 有很多重叠的训练步骤。令人困惑的是,你有一个名为 v3 的基模型,你对它做了一些事情来获得一个聊天模型,然后你做一些不同的事情来获得一个推理模型。我认为很多 AI 行业现在都面临着沟通的挑战,OpenAI 甚至嘲笑他们自己的命名方案。他们有 GPT-4.0,他们有 OpenAI-01。
并且有很多类型的模型。所以我们将分解每个模型是什么。有很多关于训练的技术细节,从高层次到具体的细节,并逐一介绍。这里有很多地方可以去,但也许我们先从开放权重开始吧。模型的开放权重是什么意思?一般来说,开源有哪些不同的类型?是的,这场讨论在 AI 领域已经持续很久了。自从 2022 年底 ChatGPT 出现以来,它变得更加重要,或者说更加引人注目。
开放权重是语言模型的模型权重可供互联网上的人们下载的公认术语。这些权重可以有不同的许可证,这实际上是你使用模型的条款。有一些许可证来自历史和开源软件。有一些许可证是由公司专门设计的。所有 Lama、DeepSeek、Quen、Mistral,这些流行的开放权重模型名称都有一些他们自己的许可证。这很复杂,因为并非所有相同的模型都有相同的条款。最大的争论在于是什么使模型成为开放权重。就像,为什么我们要说这个词?这有点拗口。它听起来很接近开源,但它并不相同。
关于开源 AI 的定义和灵魂,仍然有很多争论。开源软件在修改自由、自行采用自由以及不受任何关于如何使用软件的限制方面有着丰富的历史,而这对于 AI 的意义仍在定义中。所以,呃,
就我所做的工作而言,我在艾伦人工智能研究所工作。我们是一个非营利组织。我们希望让每个人都能使用 AI,我们试图引领我们认为真正开源的东西。社区中并没有完全达成一致,但对我们来说,这意味着发布训练数据、发布训练代码,以及拥有像这样的开放权重。我们将深入了解模型的细节,并
再次,当我们试图更深入地了解模型是如何训练的时,我们会说诸如数据处理、数据过滤、数据质量是模型质量的第一决定因素之类的话。然后,很多训练代码决定了训练需要多长时间以及实验速度有多快。因此,如果没有完全开源的模型,你无法访问这些数据,那么就很难
很难知道,或者更难复制。因此,我们将深入探讨 DeepSeq v3 的成本数字,主要是在 GPU 小时数方面,以及您可以自己租用这些 GPU 的费用是多少。但是如果没有数据,复制成本将高得多。代码也是如此。我们还应该说,这可能是前沿模型中更开放的模型之一。所以,像,
在这个全谱中,我们可能是最完整的开源,就像你说的那样,开放代码、开放数据、开放权重。这不是开放代码。这可能不是开放数据。这是开放权重。许可证是 MIT 许可证,或者说是
我的意思是,不同的模型有一些细微差别,但在开源运动方面,它是朝着自由的方向发展的,这些是那种“好人”。是的,DeepSeek 在传播对 AI 的理解方面做得非常出色。他们的论文非常详细地描述了他们的工作。对于世界各地的其他团队来说,它们在改进你自己的训练技术和能力方面非常实用。
我们稍后会更多地讨论许可证。DeepSeq R1 模型具有非常宽松的许可证。它被称为 MIT 许可证。这实际上意味着对商业用途没有下游限制。没有用例限制。您可以使用模型的输出创建合成数据。并且
这一切都非常棒。我认为最接近的同行是 Lama 之类的东西,你拥有权重,并且你有一个技术报告。Lama 的技术报告非常好。去年阅读次数最多的 PDF 之一就是 Lama 3 论文。但在某些方面,它稍微不那么实用。它对训练细节和图表的信息较少。
等等。Lama 3 许可证比 MIT 更严格。然后在 DeepSeek 自定义许可证和 Lama 许可证之间,我们可以进入这个兔子洞。我认为在我们进行具体说明之前,我们会确保我们想进入许可证的兔子洞。是的。我的意思是,因此应该指出,DeepSeek 的含义之一是它给
给 Lama 和所有其他 OpenAI 施加压力,促使他们转向开源。这就是你提到的开源的另一方面,即有多少关于它的细节被公开发布。所以,你在代码背后的洞察力方面有多开放?所以,像,技术报告有多好?它们是含糊其辞的吗?还是里面有实际的细节?这是 DeepSeek 做得很好的事情之一,因为他们发布了很多细节。是的,尤其是在他们的预训练论文 DeepSeek v3 中,他们非常清楚地表明,他们正在对技术堆栈进行干预,这些干预在许多不同的层面进行,例如,为了获得高效的训练,他们正在对 NVIDIA 芯片的 CUDA 层或其以下的层进行修改。并且
我自己从未在那里工作过,世界上只有少数人能做到这一点,其中一些人在 DeepSeek。DeepSeek 和领先的美国前沿实验室都有一些这样的人才,但这样的地方并不多。为了帮助人们理解开放权重的另一个含义,只是,你知道,这是一个我们经常在这里讨论的话题。所以,有一种担忧是
中国这个国家可能对窃取美国数据、侵犯美国公民隐私感兴趣。我们可以说些什么关于开放权重来帮助我们理解权重在窃取人们数据方面能够做什么?是的,这些你可以从 Hugging Face 或其他平台下载的权重是非常大的数字矩阵。
你可以将它们下载到你自己的没有互联网连接的电脑上,你可以运行这个模型,并且你完全控制你的数据。这与今天许多语言模型的使用方式不同,今天的大多数语言模型的使用方式主要是通过 API,你将你的提示发送到某些公司运行的 GPU。这些公司将对你的数据如何存储、是否用于训练未来的模型、存储位置、是否加密等方面有不同的分发和策略。
因此,开放权重是,你掌握着你自己的数据命运,这与开源的灵魂有着密切的联系。所以不是模型窃取你的数据,而是托管模型的云服务提供商,如果你是使用 DeepSeq 应用程序,那可能是中国公司,或者可能是 Perplexity。
你信任他们来处理你的数据。或者 OpenAI,你信任他们来处理你的数据。其中一些是美国公司,一些是中国公司。但模型本身并没有进行窃取。是主机。好的。所以回到基础知识。DeepSeq v3 和 DeepSeq R1 之间有什么区别?我们可以尝试一下......
解释一下可能存在的混淆?是的。首先,我非常理解很多人对这两个模型名称感到困惑。所以我想说,最好的理解方式是,在训练语言模型时,你会有所谓的预训练,也就是当你预测大量主要是互联网文本时,你试图预测下一个标记。关于这些新的 DeepSeek 模型需要注意的是,它们这样做
进行一次互联网大规模预训练以获得所谓的 DeepSeq v3 基模型。这是一个基模型。它只会帮你完成你的句子。它比 ChatGPT 更难使用。然后 DeepSeq 做的是,他们做了两种不同的后训练方案来
使模型具有特定的理想行为。那么,在过去几年的人工智能中,哪种模型更正常呢?指令模型、聊天模型、所谓的“对齐”模型、有帮助的模型,有很多方法可以描述它,这是更标准的后训练。所以这是诸如指令微调、来自人类反馈的强化学习之类的事情,我们稍后会讨论其中的一些词,并且
这是他们用来创建 DeepSeq v3 模型的方法。这是第一个发布的模型,它的性能非常高。它与 GPT-4、LAMA 405B 等具有竞争力。然后在这个版本发布时,我们不知道他们的确切时间表,或者很快之后,他们完成了从相同的
我刚才谈到的基于下一个标记预测的模型的不同训练过程的训练,这就是人们听说过的这种新的推理训练出现的时候,为了创建被称为 DeepSeek R1 的模型。在本次对话中,R 代表推理。这个名称也类似于 OpenAI 的 O1,这是人们听说过的另一个推理模型。并且
我们将不得不更详细地分解 R1 的训练,因为一方面,我们有一篇论文详细介绍了它,但它也是 AI 社区中一套更新的技术。所以这是一个发展速度快得多的研究领域。也许我们也应该说预训练和后训练这两个大类,人们使用的这些总称。那么什么是预训练,什么是
后训练,后训练的总称下有哪些不同类型的事情?是的,预训练,我使用了一些相同的词,这些词确实传达了信息,那就是你正在进行所谓的自回归预测来预测一系列文档中的下一个标记。这通常是在数万亿个标记上完成的。所以这是一个大量的数据,主要是从网络上抓取的。
在 DeepSeq 的早期论文中,他们谈到他们的训练数据是从 Common Crawl 中提取的,用于数学。我还没用这个词,但是是从 Common Crawl 中提取的。这是一个公共访问,任何收听这个节目的人都可以从 Common Crawl 网站下载数据。这是一个公开维护的爬虫。是的,其他科技公司最终会转向他们自己的爬虫,DeepSeek 也可能已经这样做了,就像大多数前沿实验室一样。但这种数据是人们可以开始使用的数据。
你只是在预测一系列文档中的文本。这可以扩展到非常高效,并且在 AI 训练中有很多数字被抛来抛去,例如使用了多少浮点运算或 FLOPS。然后你还可以查看使用了多少小时的这些 GPU。它主要是一个损失函数,用于非常
大量的计算使用。你只需要建立非常高效的系统。然后在那之后,你有了这个基模型。预训练是过程正在出现和
或发展以及你将使用的不同类型的训练损失方面更复杂的地方。我认为这很多技术都基于自然语言处理文献。最古老的技术,至今仍在使用,被称为指令微调,也称为监督微调。这些缩写词将是 IFT 或 SFT。人们真的会在它们之间来回切换,我可能也会这样做,那就是你添加这个
模型的格式,它知道如何接受一个问题,例如,“向我解释罗马帝国的历史”,或者你在 Reddit 或 Stack Overflow 上看到的问题,然后模型将以信息密集但易于理解的方式做出回应。该格式的核心在于这个指令微调阶段。
然后还有两类正在使用的损失函数。我将一类归类为偏好微调。偏好微调是来自人类反馈的强化学习(RLHF)的总称。这种来自人类反馈的强化学习被认为是帮助
ChatGPT 取得突破的技术,是一种使格式良好的响应(如这些 Reddit 答案)更符合人类想要阅读内容的技术。这是通过从世界上的实际人类那里收集成对的偏好来开始的,现在 AI 也在标记这些数据,我们稍后会讨论这些权衡。
并且你有了这种在好答案和坏答案之间的对比损失函数。模型学习捕捉这些趋势。有不同的实现方式。你有一些叫做奖励模型的东西。你可以有直接的对齐算法。你可以做很多非常具体的事情。但所有这些都是关于微调以适应人类的偏好。
最后阶段更新得多,并将与 R1 和这些推理模型中所做的工作联系起来,我认为这是 OpenAI 对此的命名。他们在秋季推出了这个新的 API,他们称之为强化微调 API。
这就是使用强化学习技术(这是 AI 的一个完整框架)的想法。这里有一篇深入的文献来总结。它通常被称为试错学习,或者是你试图在一个可能嘈杂的环境中做出连续决策的 AI 子领域。有很多方法可以做到这一点。但是微调语言模型,它们可以生成答案,然后你检查答案是否与真实解决方案匹配。对于数学或代码,
数学题要有完全正确的答案,代码要有单元测试。我们正在做的是检查语言模型是否有效,我们会给它提供同一个问题的多个机会来查看它是否正确。如果你不断这样做,模型可以在可验证的领域中得到很大的改进。效果非常好。这是一种较新的学术文献中的技术,多年来一直被美国的前沿实验室使用,但它们并没有分享每一个细节。所以这就是
使用强化学习与语言模型的理念,它正在兴起,尤其是在DeepSeq的当下。我们应该说,在整个技术栈中,有很多令人兴奋的事情正在发生,但今年的后期训练可能会出现很多有趣的进展。我们会讨论它。我差点忘了谈谈DeepSeq v3和R1在用户体验方面的区别。所以
忘记技术细节,忘记所有这些。只是那些对人工智能一无所知的人,他们出现了。就像,实际体验是什么?当他们真正地输入和与之交谈时,每个用例是什么?每个擅长什么?诸如此类的事情。所以让我们再次从DeepSeq v3开始。更多的人会尝试类似的东西。你问它一个问题,它会开始非常快速地生成标记,这些标记看起来像......
非常易于人类理解的答案。它会是某种markdown列表。它可能有格式来帮助你关注答案中的核心细节。它会生成数十到数百个标记。对于常用词,标记通常是一个词,或者是一个较长词中的子词部分。它看起来像一个非常高质量的Reddit或Stack Overflow答案。这些模型
在各种领域都做得越来越好。即使你是专家,那些接近知识边缘的事情,它们仍然会做得相当好。我所研究的前沿人工智能主题,这些模型能够作为学习辅助工具,并且会定期更新。
不同之处在于DeepSeq R1,也就是所谓的推理模型,当你看到这些模型开始生成的标记时,它将是一个大型标记。
思维链过程。我们稍后会回到思维链,它看起来像很多标记,模型正在解释问题。模型通常会分解问题,例如,好吧,他们问我这个。让我们分解这个问题。我需要这样做。你会看到所有这些都从模型中生成。在大多数用户体验中,它会非常快地出现。这些API非常快。所以你会看到很多标记,很多词会很快出现。它会不断地在屏幕上流动。而这正是推理过程
最终,R1中的模型会改变它的语气,然后它会写出答案,总结它的推理过程,并写出与第一类模型类似的答案。但在DeepSeq的情况下,这也是它在AI社区之外如此受欢迎的部分原因,是因为你可以看到语言模型是如何分解问题的。
然后你从技术层面得到这个答案。他们专门训练模型这样做,他们有一个部分是推理,然后它生成一个特殊的标记(大部分时间对用户隐藏),它说,好吧,我开始回答了。所以模型被训练成自己完成这个两阶段的过程。如果你在OpenAI中使用类似的模型,OpenAI的用户界面是
试图为你很好地总结这个过程,通过显示模型正在执行的部分。它会点击,它会说分解问题,进行X计算,清理结果,然后答案就会出来,就像OpenAI一样。也许在这里通过DeepSeq R1推理的例子来讲解会很有用
是的,如果你现在看屏幕,你会看到DeepSea聊天应用程序的截图。顶部是思考了151.7秒,带有一个下拉箭头。在下面,如果我们在运行一个应用程序,下拉箭头将显示推理过程。在这种情况下,具体问题是,你知道,我倾向于哲学/吸大麻。所以这是向DeepSeaCar1询问关于人类的一个真正新颖的见解。
它揭示了推理过程,而真正新颖的方面是推动推理不断地让模型自问,这是否真正新颖?所以它实际上是在挑战自己变得更新颖、更反直觉、更不令人尴尬。所以一些推理说,
这只是快照。或者,人类有一种独特的元情绪,他们对自己的情绪产生情绪,例如,对生气感到内疚。这种递归的情绪分层创造了其他动物身上不存在的复杂动机驱动。其见解是人类的情绪是嵌套的,所以就像
它正在推理人类如何感受情绪。它正在推理元情绪。它会有很多页这样的内容。几乎太多了,无法阅读,但在它出现时浏览一下是很好的。它是一种流,一种像詹姆斯·乔伊斯式的意识流。然后它说,等等,用户想要一些在其他地方看不到的东西。让我深入挖掘。
并考虑人类同时持有矛盾信念的能力。认知失调是已知的,但其功能可能是为了允许灵活的适应,等等。我的意思是,这确实抓住了公众的想象力,我的天,这并不是......
我的意思是,智力/几乎像一丝感知,因为你正在思考,你正在自我反省,你正在仔细考虑。157秒后的最终结果是,人类本能地将自私的欲望转化为合作系统,通过集体假装抽象规则、金钱、法律、权利是真实的。
这些共同的幻觉充当“游戏”,竞争秘密地被重新定向以造福群体,将冲突转化为社会的燃料。
非常深刻。我的意思是,你知道。这是一个潜在的离题,但很多人发现这些推理模型有时可以产生更优美的文本。这至少是一个有趣的例子,我认为,取决于你有多开放的心态,你是否觉得语言模型有趣,这里面有一个范围。好吧,我的意思是,一些,我们会讨论不同的基准等等,但有些只是氛围。就像这本身就是一个,让我们说,“火爆推文”。
是的。如果我,如果我试图创作一些东西,一些人们会说,“哇”。好吧。那就是Chanathar。我们可能会更多地回到它。他们是如何做到这一点的?
训练和推理成本如此之低?也许你可以先谈谈训练。是的。他们实施的两种主要技术可能占其效率的大部分。然后还有很多实现细节,我们可能会略过或稍后讨论,这些细节也有所贡献。但这两种主要方法是
一是他们使用了混合专家模型,我们稍后会定义。然后是他们发明了一种名为MLA的新的技术,即潜在注意力。这两者都是大事。混合专家模型在文献中已经出现了几年了。而OpenAI的GPT-4是第一个将混合专家模型产品化的公司。这意味着当你查看周围的常见模型时
大多数人都能够与之交互的开放模型,对吧?想想Llama。Llama是一个密集模型,即在你处理模型的每个标记时,每个参数或神经元都会被激活,对吧?
现在,使用混合专家模型,你不会这样做,对吧?人脑实际上是如何工作的,对吧?就像,哦,好吧,当我思考视觉任务时,我的视觉皮层是活跃的,你知道,还有其他事情,对吧?当我害怕时,我的杏仁核是活跃的,对吧?你大脑的不同方面专注于不同的事情。
混合专家模型试图在某种程度上近似于此。它与大脑的架构相去甚远,但模型的不同部分会激活,对吧?你将拥有模型中的一组专家和每次激活的一组专家。这大大降低了你的训练和推理成本。因为现在你,你知道,如果你将参数计数视为所有这些知识的总嵌入空间,你在训练过程中将其压缩,对吧?
当你嵌入这些数据时,不必每次训练或运行推理时都激活每个参数,现在你可以只激活一个子集。模型将学习为不同的任务选择哪个专家。因此,这在以下方面是一个巨大的创新:嘿,我可以继续增加参数的总嵌入空间。
因此,DeepSeek的模型有6000多亿个参数,对吧?相对于LAMA405b,它是4050亿个参数,对吧?相对于LAMA70b,它是700亿个参数,对吧?所以这个模型从技术上讲有更多的信息嵌入空间,对吧?将互联网上所有世界的知识压缩下来。但与此同时,它只激活了大约370亿个参数。因此,每次训练数据或从中推断数据时,实际上只需要计算这370亿个参数中的一个。所以与Llama模型相比,必须激活700亿个参数,或者必须激活4050亿个参数。因此,在进行训练和推理时,你已经大大降低了计算成本。
使用这种混合专家架构。我们应该分解它实际应用的地方,并深入研究Transformer吗?这有用吗?让我们开始吧。让我们深入研究Transformer。Transformer是一个经常被讨论的东西,我们不会涵盖每一个细节。本质上,Transformer是建立在这个注意力机制的重复块和传统的密集、全连接的多层感知器(无论你对普通神经网络使用什么词)的基础上的。你交替使用这些块。
还有其他细节。混合专家应用于这个密集模型。如果你在Transformer模型中计算它们,密集模型包含大部分权重。因此,你可以通过这种混合专家在参数效率方面获得非常大的收益,因为你可以通过不激活所有这些参数来获得这种效率。我们还应该说,Transformer是一个巨大的神经网络。是的。
然后从现在起15年来,有一种叫做深度学习革命的东西。网络越来越大。在某个时候,缩放定律出现了,人们意识到......顺便说一句,这是一件缩放定律衬衫。代表缩放定律,它变得越来越正式,更大更好。是的。
跨越“更大”含义的多个维度。但我们谈论的都是神经网络,我们谈论的是构建这些神经网络的不同架构,以便对它们的训练和推理非常高效。是的。每种类型的模型都有不同的缩放定律,这实际上是对于你投入多少计算量,架构将在测试任务中达到不同的性能水平。
混合专家是训练时间的一种,即使你不考虑推理的好处,这也是很大的好处。在训练时间,如果你正确地实现了这种架构,你的GPU效率会大大提高。你可以有效地获得相同性能的模型和评估分数,计算量减少30%。我认为根据你的实现细节等等,会有很大的差异。但这只是
重要的是要意识到,这种类型的技术创新会带来巨大的收益。我希望大多数提供其模型的公司都会转向这种混合专家实现。历史上,为什么不是每个人都这样做,是因为实现的复杂性,尤其是在处理这些大型模型时。所以这是DeepSeek获得赞誉的一件事,他们做得非常好。他们非常擅长混合专家。这
所谓的DeepSeq MOE(MOE是混合专家的缩写)的架构已经发表了多篇论文。他们训练基础设施的这一部分并非仅限于这些模型,Dylan提到的多头潜在注意力也是如此。它都是关于通过使用一些奇特的低秩逼近数学来减少推理期间的内存使用量以及训练期间的相同内容。
如果你深入研究这种潜在注意力,我会查看它并说:“好吧,他们正在进行非常复杂的实现,因为语言模型的其他部分,例如用于扩展上下文长度的嵌入。”DeepSeq使用的常见方法是旋转位置嵌入,称为ROPE。如果你想将ROPE与普通的MOE一起使用,这是一个顺序性的东西。你取这些
你取两个注意力矩阵,并通过一个复数值旋转(这是一个矩阵乘法)来旋转它们。使用DeepSeq的MLA,使用这种新的注意力架构,他们需要做一些巧妙的事情,因为它们的设置方式不同,这只会使实现的复杂性更高。所以他们正在管理所有这些事情。这些可能是OpenAI等封闭实验室正在做的事情。我们不知道他们是否正在使用完全相同的技术,但他们实际上与世界分享了这些技术,这让人感觉很好......
这是高效语言模型训练的前沿。其中一些需要低级工程。这是一个巨大的混乱和欺骗。据我了解,它低于CUDA。所以他们对GPU进行超低级编程。实际上,NVIDIA构建了这个名为Nickel的库,对吧?其中,你知道......
当你训练模型时,模型的每一层之间都有所有这些通信,你可能有超过100层。Nickel代表什么?是NCCL?NVIDIA通信集合库。不错。该死。
当你训练模型时,你将进行所有这些全约简和全收集。在每一层之间,在多层感知器或前馈网络和注意力机制之间,你将基本上使模型同步。或者你将进行全约简和全收集。这是网络中所有GPU之间的通信。
无论是在训练还是推理中。所以NVIDIA有一个标准库。这就是为什么很难使用其他人的硬件进行训练的原因之一,因为没有人真正构建了一个标准的通信库。
而NVIDIA在更高的层次上做到了这一点,对吧?DeepSeq,因为他们对可以访问的GPU有一些限制,互连在某种程度上受到合法运送到中国的GPU的限制,而不是那些走私的GPU,而是他们用来训练这个模型的合法运送的GPU。他们必须找到提高效率的方法,对吧?其中一件事是,不是仅仅调用NVIDIA库Nickel,对吧?
他们自己安排通信,一些实验室也这样做。Emeta在Llama 3中谈到了他们如何制作自己的自定义版本的Nickel。他们没有谈论实现细节。这就是他们所做的一些事情。可能不如DeepSeek好,也许不如DeepSeek好,因为DeepSeek,需要是创新的母亲,他们必须这样做。
而在OpenAI的情况下,有一些人做这种事情,Anthropic等等。但是,你知道,DeepSeek肯定公开地做了这件事,而且他们可能做得更好,因为他们在他们可以访问的芯片的某些方面受到了限制。所以这就是,
他们通过调度特定的SM来调度通信。你可以将SM视为GPU上的核心,对吧?所以GPU上有数百个核心,或者有超过100个核心,SM在GPU上,他们专门调度,嘿,哪些正在运行模型?哪些正在进行全约简?哪些正在进行全收集,对吧?他们会在它们之间来回切换,这需要......
极其低级的编程。这就是Nickel自动完成的事情,或者其他NVIDIA库通常会自动处理这个问题。是的,完全正确。所以从技术上讲,他们使用的是PTX,你可以将其视为类似于汇编型语言的东西。它并不完全是这样,或者指令集,对吧?就像
直接到汇编指令集。它并不完全是这样,但这仍然是CUDA的一部分,但问题是,我想用Python编写,你知道,PyTorch等价物并调用NVIDIA库吗?我想降到C级吗?对吧?或者,你知道,编码更低级别,或者我想一直降到汇编或ISO级别?在大型实验室中,有些情况下你会一直降到那里。
在非常大的实验室中,但大多数公司根本不做那样的事情,对吧?因为这是浪费时间,你获得的效率提升不值得。但是DeepSeek的实现非常复杂,对吧?特别是他们的混合专家,对吧?人们已经做过混合专家,但通常是8个、16个专家,对吧?他们也会激活。所以,你知道,我们喜欢使用的一个词是稀疏因子,对吧?或者使用率,对吧?所以你可能会有四分之一的模型被激活,对吧?
对。这就是Mistral的Mistral模型。对。他们的模型真正让他们脱颖而出,我的天哪,他们真的,真的很好。OpenAI也有一些MOE模型,其他主要的封闭实验室也是如此。但DeepSeek所做的事情,也许只有领先的实验室最近才开始做的事情,就是拥有如此高的稀疏因子。对。它不是四分之一的模型。对。每次你遍历模型时,都会激活两个中的八个专家。它是256中的8个。对。
混合专家有不同的实现方式,你可以让其中一些专家始终处于激活状态,这看起来就像一个小神经网络。然后所有标记都通过它。然后它们也通过一些由这种路由机制选择的标记。DeepSeq的创新之一
架构是他们改变了混合专家模型中的路由机制。有一种叫做辅助损失的东西,这实际上意味着在训练期间,你想确保所有这些专家都被用于模型看到的任务。混合专家可能失败的原因是
当你进行这种训练时,一个目标是标记预测精度。如果你只让训练自己使用混合专家模型进行,它可能是模型学会只使用一部分专家。在MOE文献中,有一种叫做辅助损失的东西,它有助于平衡它们。但如果你考虑损失函数
深度学习,这甚至与苦涩教训有关,那就是你想在你的模型中拥有最小的归纳偏差,让模型最大限度地学习。这种辅助损失,这种跨专家的平衡,可以被视为对标记预测精度的意图。所以
所以我们不知道DeepSeek MOE变化的确切程度,它不是使用辅助损失,而是在他们的路由中添加了一个额外的参数,在批次之后,他们更新这个参数以确保下一个批次都具有类似的专家使用率。这种类型的变化可能是大的,也可能是小的,但它们会随着时间的推移而累积。而这正是他们创新的那种事情。我相信所有训练大型MOE的实验室都在关注这种事情,即摆脱辅助损失,其中一些可能已经使用了,但是
但你只是不断积累收益。我们会讨论训练的哲学以及你如何组织这些组织。其中很多只是随着时间的推移在你的数据、你的架构、你的后期训练以及它们如何相互集成方面不断改进。DeepSeek也这样做。其中一些是共享的。我们必须相信他们分享了他们最重要的细节。我的意思是,架构和权重都在那里。所以我们看到了他们在做什么。
回到效率和复杂性点,对吧?它是32比4,对吧?对于像混合绘制和其他已公开发布的MOE模型。所以这个比率非常高。Nathan在那里谈到的内容是,当你拥有如此不同程度的稀疏性时,你不能让每个GPU都拥有相同的
整个模型,对吧?模型太大,复杂性太高。所以你必须使用不同类型的并行性来分割模型,对吧?所以你可能在不同的GPU节点上拥有不同的专家。但是现在会发生什么情况呢,你知道,你得到的数据集,嘿,所有这些看起来都是一种方式,所有这些都应该路由到我的模型的一部分,对吧?
所以当所有这些都路由到模型的一部分时,你可能会出现某些GPU资源或某些GPU的过载。然后其余的训练网络处于空闲状态,因为所有标记都只是路由到那里。所以这是最大的复杂性。运行非常稀疏的混合专家模型的一个主要复杂性是
即,这个32比4的比率,是你最终会让如此多的专家闲置。那么我该如何在它们之间进行负载平衡呢?我该如何安排它们之间的通信呢?这是他们首先在公共领域中,可能在世界第二或第三位,甚至在某些情况下是第一位,所解决的许多极其低级的、详细的工作。你从所有这些中学到了什么教训......
在苦涩教训的方向上,你从所有这些中学到了什么教训?这将是许多收益的方向,即这种低级优化?或者这是一种短期的事情,最大的收益将更多地体现在算法的高级方面,例如后期训练,
这是一种短期飞跃,因为他们已经找到了解决方法,因为约束,需要是创新的母亲,还是还有很多收益?我认为我们应该总结一下苦涩教训实际上是关于什么的。苦涩教训,本质上,如果你改述一下,就是随着我们的发展,在深度学习中获胜的训练类型将是那些在学习和搜索中可扩展的方法。它指出了这一点。而
这个规模词受到了很多关注。我使用的解释实际上是避免在你的学习过程中添加人类先验知识。如果你阅读了原文,这就是它所谈论的内容,是如何
研究人员会试图为他们特定的问题提出巧妙的解决方案,这可能会在短期内给他们带来小的收益,而仅仅让这些深度学习系统高效地工作,并为这些长期存在的更大问题工作,更有可能扩展并继续推动成功。
因此,我们正在讨论对混合专家模型的相对较小的实现更改。因此,就像,好吧,我们需要几年时间才能知道其中哪一个对苦涩教训真正至关重要。但苦涩教训确实是关于简单性如何经常获胜的长期轨迹。行业中有很多说法,例如模型只想学习,你必须给他们
简单的损失环境,你将计算通过模型,它们将学习并消除障碍。这就是力量所在,例如Nickel,它可以被许多人用来创造可以扩展的简单创新,这就是为什么我认为DeepSeek的代码库可能是一个巨大的混乱。我相信DeepSeek肯定有极其混乱的代码库,他们在那里测试这些新想法。多头潜在注意力可能始于类似Jupyter Notebook的东西,有人在少数GPU上尝试一些东西。
这真的很混乱。但是训练DeepSeq v3和DeepSeq R1的东西,那些库,如果你要向我们展示它们,我会猜想它们是极其高质量的代码。高质量的可读代码。是的。但我认为还有一个方面需要注意,对吧?那就是......
它能够跨不同类型的运行进行转移,对吧?你可能会为一个特定大小的一种特定模型架构创建真正高质量的代码。然后这不可转移到,嘿,当我进行这种架构调整时,一切又都坏了,对吧?这可能是,你知道,他们对调度SM的特定低级编码是特定于这种模型架构和大小的,对吧?
而像NVIDIA的集合库更像是,嘿,它适用于任何东西,对吧?你想进行全约简吗?太好了。我不在乎你的模型架构是什么。它会起作用。在许多情况下,当你这样做时,你会放弃很多性能。但考虑到他们在计算方面的限制,为特定的运行进行特定的优化对他们来说是值得的。我想知道像......
这些前沿模型,例如启动训练,让代码—— 推动按钮。 推动按钮,你现在正在花费大量的金钱和时间来训练它。在调试阶段,必须有很多创新,以确保没有问题,你正在监控和可视化训练的各个方面。
所有这些东西。当人们进行训练时,他们会使用所有这些不同的仪表板,但最简单的就是你的损失,对吧?它会持续下降,但实际上,尤其是在 MOE 等更复杂的事情中,或者 FP8 训练,这是另一个创新,你知道,转向更低的精度数字格式,即精度较低,你会遇到损失峰值。
对。没有人知道损失峰值为什么会发生。很长一段时间,你都会遇到这种情况。其中一些是坏数据。我举个例子,是什么让早期模型崩溃的,是一个名为“微波帮”的 subreddit。我们喜欢大声喊出来。这是真实存在的。你可以搜索“微波帮”。本质上,这是一个每个人都只发字母 M 的帖子。所以就像,嗯。
所以有非常长的字母 M 序列,然后评论就像“哔哔”,因为它在微波事件中。但是如果你将这个传递给一个经过训练可以生成正常文本的模型,它会产生极高的损失,因为通常情况下,你看到一个 M,你不会长时间预测 M。所以这是导致我们损失峰值的原因之一。但是当你拥有更多类似于旧的,这不是最近的。当你拥有更成熟的数据系统时,这并不是导致损失峰值的原因。迪伦说的是对的,但这就像......
这有几个层次。关于压力,对吧?这些人就像,你知道,你会和在这些实验室工作的某个朋友一起出去吃饭,他们每隔 10 分钟就会看看他们的手机,他们不像,你知道,如果他们在发短信,这是一回事,但他们就像,就像,损失。是的。每秒令牌数。损失,没有爆炸。
他们只是在看着这个。如果出现峰值,心率就会加快。某种程度的峰值是正常的,对吧?它会恢复并恢复正常。有时很多旧的策略就像,你只是停止运行,从旧版本重新启动,然后更改数据组合,然后它继续运行。甚至还有不同类型的峰值。所以 Dirk Grenneveld 有一个理论,那就是快速峰值和慢速峰值,有时你会查看损失和其他参数,你会看到它开始逐渐上升。
然后爆炸。这很难恢复。所以你必须更早地返回。所以你会有一个压力时期,它就像平坦的或可能开始上升,你就像,我该怎么办?而也有一些损失峰值,它看起来不错。然后有一个尖峰数据点。你可以做的是跳过这些。你看到有一个峰值。你就像,好吧,我可以忽略这个数据。不要更新模型并执行下一个,它会很快恢复。但是这些像,
在更棘手的实现上。因此,随着架构变得越来越复杂,并且扩展到更多 GPU,你的损失爆炸的可能性就越大。所以就像有一个分布。grokking 的整个概念也出现了,对吧?就像仅仅因为它减缓了改进和损失的速度并不意味着它没有学习,因为突然它可能像这样,它可能会再次损失峰值,因为它学习了,真正学习了一些东西,对吧?它需要一些时间来学习。
这不是一个循序渐进的过程,对吧?这就是人类的样子。这就是模型的样子。所以这是一个非常有压力的任务,正如你提到的那样。而且一直以来,美元都在上涨。每家公司都有失败的运行。
你需要失败的运行来突破你的基础设施的界限。所以很多新闻周期都是由 X 公司有 Y 次失败运行组成的。每个试图推动人工智能前沿的公司都会遇到这种情况。所以,是的,这是值得注意的,因为它涉及很多钱,并且可能会导致数周到数月的挫折,但这是流程的一部分。但是你如何获得......
如果你深入研究,你如何才能达到这样一个地步,天哪,这是一个成功的超参数组合?很多小的失败运行。因此,快速迭代失败的运行。以及成功的运行。然后你建立了一些直觉,比如这个。
专家混合有效,然后 MLA 的这种实现有效。- 关键超参数,如学习率和正则化等,你找到了适合你的代码库的机制。
与前沿实验室的人交谈,你可以讲述一个故事,其中训练语言模型是你需要遵循的路径。因此,你需要解锁训练某种类型的模型或某种规模的能力。然后你的代码库和你内部关于哪些超参数有效的诀窍就知道了。你查看 DeepSeq 的论文和模型,它们已经扩展了规模,增加了复杂性,并且正在继续构建它们的能力。有一个 YOLO 运行的概念。好的。
所以 YOLO,你只有一次生命。而,而它就像,你知道,有,有,有所有这些你在小规模进行的实验,对吧?研究消融,对吧?就像你的 Jupyter 笔记本,无论你是在使用 3 个 GPU 或其他什么东西进行 MLA 实验。而且,
你正在做所有这些不同的事情,比如,我是否使用 4 个活动专家,128 个专家?我是否以这种方式安排专家?你知道,所有这些你在非常小规模测试的不同模型架构,对吧?几个研究人员,几台 GPU,几十台 GPU,数百台 GPU,无论是什么。然后突然你就像,好吧,伙计们,别再胡闹了,对吧?别再胡闹了。每个人都......
我们拥有的所有资源,让我们选择我们认为有效的资源,然后全力以赴,对吧?YOLO。这就是这种压力出现的地方,就像,好吧,我知道它在这里有效,但有些在这里有效的东西在这里无效。有些在这里有效的东西在这里无效,对吧?在规模方面,对吧?所以这真的是一次 YOLO 运行。有点像,有一种......
关于某些研究人员只是具有这种有条不紊的性质的讨论。就像他们可以找到整个搜索空间,并找出不同研究的所有消融,并真正看到什么是最好的。有些研究人员只是有点像,你知道,具有这种天生的直觉,就像,这是 YOLO 运行。就像,你知道,我正在查看数据。就是这样。这就是为什么你想在训练后工作的原因,因为训练的 GPU 成本较低。因此,你可以使你的训练运行中 YOLO 运行的百分比更高。是的。目前为止。是的。目前为止。是的。
所以其中一些从根本上来说仍然是运气。运气就是技巧,对吧?在很多情况下。是的,我的意思是,它看起来很幸运,对吧?当你......但是如果你在这些实验室中的一个,你有一个评估,你没有压倒性优势,那么你需要攀登的山峰就很高了。有一个重复的策略来改进事情。有一些局部改进,这可能是数据改进,这些改进加起来使得整个模型变得更好。当你非常仔细地放大时,它可能
非常明显,这个模型在这个方面真的很糟糕,我们可以修复它,你只需要把这些加起来。所以其中一些感觉像是运气,但在现场,特别是对于我们正在讨论的这些新的推理模型,我们有很多方法可以四处探究,
通常情况下,其中一些会带来很大的改进。搜索空间几乎是无限的,对吧?然而,你拥有的计算和时间却非常少,你必须达到发布计划。你不能被所有人超越。否则,你知道,DeepSeek 发生了什么,你知道,
压倒 Meta、Mistral、Cohere 和所有这些家伙,他们行动太慢了,对吧?也许他们过于有条不紊。我不知道。他们没有进行 YOLO 运行。无论原因是什么,也许他们没有那么熟练。无论如何,你知道,如果你愿意,你可以称之为运气,但归根结底,这是技巧。所以 2025 年是 YOLO 运行之年。看起来所有实验室......
都像是在进入。我认为 OpenAI 在 2022 年所做的事情更令人印象深刻,对吧?当时,没有人相信专家混合模型,对吧?在谷歌,拥有所有研究人员的地方,OpenAI 的计算能力却如此之少,他们花了几个月的时间,对吧?所有的时间,100% 的时间用于 GPT-4,这是一个全新的架构,没有人相信,嘿,让我花几亿美元,这是我所有的钱
在这个模型上,对吧?这确实是 YOLO,对吧?现在,你知道,人们就像,媒体上所有这些训练运行失败,对吧?就像,好吧,太好了。但实际上,我的很多 GPU 正在进行推理。我仍然有很多 GPU 持续进行研究。是的,我的最大集群正在进行训练,但在这次 YOLO 运行中,但这次 YOLO 运行的风险远小于 OpenAI 在 2022 年所做的。或者也许是 DeepSeek 现在所做的,或者,你知道,就像,嘿,我们只是要全力以赴。
贯穿整个人类历史的伟大赢家,是在某些时候愿意进行 YOLO 运行的人。好的,我们对它所训练的硬件了解多少?DeepSeek。
DeepSeek 非常有趣。这就是它第二步带我们从他们是谁开始,首先,对吧?High Flyer 是一家对冲基金,历史上在中国以及其他地方进行量化交易。他们过去一直拥有大量的 GPU,对吧?过去,很多这些高频交易算法量化交易员使用 FPGA。
呃,但它肯定转向了 GPU。而且两者都有,对吧?但是 GPU,尤其是在 Deep 和 High Flyer 中,High Flyer 是拥有 DeepSeek 的对冲基金。DeepSeek 的每个员工都在某种程度上属于 High Flyer,对吧?呃,同一家母公司,同一个所有者,同一个首席执行官。他们拥有所有这些用于交易的资源和基础设施。然后他们将其中很大一部分用于训练模型,呃,
语言模型和其他模型,对吧?因为这些,这些,这些技术受到了人工智能的强烈影响。嗯,你知道,最近人们已经,你知道,意识到,嘿,用,嗯,你知道,即使,即使你回到文艺复兴时期和所有这些,呃,所有这些量化公司,自然语言处理是关键,就像,
进行快速交易,对吧?理解新闻稿并进行正确的交易,对吧?所以 DeepSeek 一直在这方面做得很好。甚至早在 2021 年,他们的新闻稿和论文就表示,嘿,我们是第一家拥有如此大型 A100 集群的中国公司。它
是 10,000 个 A100 GPU,对吧?这是在 2021 年。现在,这并非全部用于训练大型语言模型。这主要用于训练其量化方面的模型,其量化交易,以及其中很多是自然语言处理,需要明确的是,对吧?所以这就是历史,对吧?所以可验证的事实是,在 2021 年,他们建立了最大的集群,至少他们声称这是中国最大的集群,10,000 个 GPU。在出口管制开始之前。
是的。就像他们在出口管制任何讨论之前就拥有一个巨大的集群。然后你把它推进到,从那时起四年来他们做了什么,对吧?显然,他们继续运营对冲基金,可能赚了很多钱。另一件事是,他们越来越倾向于人工智能。首席执行官梁承峰,梁......你没有让我在这方面准确无误。我们之前讨论过这个。梁峰,对吧?首席执行官,他拥有可能......梁峰,他可能拥有超过公司一半的股份,据称,对吧?是的。
是一个非常像埃隆·马斯克式的人物,他就像参与一切,对吧?所以在那个时期,他深入研究了人工智能。他实际上有点像......如果你看到他的一些声明,有点像 EAC 的氛围,对吧?完全的人工智能氛围。我们需要这样做。我们需要创建一个新的 AI 生态系统
OpenAI。我们需要中国在这个生态系统中发挥主导作用,因为历史上西方国家在软件生态系统方面一直处于领先地位,并直接承认,为了做到这一点,我们需要做一些不同的事情。DeepSeek 是他做到这一点的方式。他的一些翻译后的采访非常精彩。所以他接受过采访?是的。你认为他会接受西方媒体的采访吗?还是频道上有管制?还没有,但是......好的。
我会尝试的。我刚找了一个中文翻译,所以很棒。这一切都是推动。所以这是一个迷人的人物,工程师,全力以赴地投入人工智能,利用高频交易的成功。非常直接的引言,比如当被问到这些事情时,我们不会转向封闭源代码。非常长远的目标导向和热情。
所以这是一种所谓的公司背后的远见卓识,对吧?这家对冲基金仍然存在,对吧?这家量化公司。所以 DeepSeek 是一种,你知道,他慢慢地把它变成了一个全职的,全职的,全职的公司。
对人工智能的全面看法,关于这一切的一切,对吧?但在某些时候,它慢慢地进行了调整,他创建了 DeepSeek。从那以后,DeepSeek 已经制作了多个模型。他们获得了越来越多的 GPU。他们与基金共享基础设施,对吧?所以,你知道,他们拥有的公共 GPU 资源没有确切的数字。但是除了他们在 2021 年购买的这 10,000 个 GPU 之外,对吧?而且
他们非常盈利,对吧?然后这篇论文声称他们只使用了 2,000 个 H800 GPU,这是一种以前在中国允许但现在不再允许的受限 GPU,并且有一个新版本。但它基本上是 NVIDIA 的中国版 H100,对吧?它有一些限制,特别是关于通信速度,互连速度,对吧?这就是为什么他们必须做这个疯狂的 SM 调度工作的原因,对吧?所以回到这一点,对吧?就像,
就他们的总 GPU 数量而言,这显然是不正确的。可用的 GPU,但对于这次训练运行,你认为 2000 是正确的数字吗?所以这就是它需要,你知道,大量的缩小范围,对吧?就像,
你如何称呼你的训练运行,对吧?你计算了你运行的所有研究和消融,对吧?挑选所有这些东西,因为是的,你可以进行 YOLO 运行,但在某种程度上,你必须在小规模进行测试,然后你必须在中等规模进行一些测试,然后再进行大规模测试。公认的做法是,对于任何一个具有显著进步的模型,你都将在实验中进行两到四倍的完整训练运行计算。所以现在正在扩展的大部分计算可能很大程度上用于研究。
是的,研究会,你知道,研究会产生让你获得巨大效率的新想法。研究让你获得 O1。就像研究让你取得突破,你需要押注它。所以我们将要讨论的一些定价策略将研究纳入了价格。所以 DeepSeek 特别公开说的数字,对吧,只是 2021 年的 10,000 个 GPU,然后只有 V3 的预训练的 2,000 个 GPU。
他们没有讨论 R1 的成本。他们没有讨论所有其他 RL 的成本,对吧,对于他们制作的指令模型,对吧?他们只讨论了基础模型的预训练,他们没有讨论研究和消融的任何内容。他们也没有谈论在以下方面共享的任何资源:嘿,基金正在使用所有这些 GPU,对吧?我们知道它们非常盈利,并且在 2021 年有 10,000 个 GPU 用于 R1。
在 2021 年。所以,所以我们发现的一些研究是,我们实际上认为他们现在拥有接近 50,000 个 GPU。我们作为 SemiAnalysis,所以我们应该说你是世界上少数几个在弄清楚每个人在半导体方面做了什么,在集群建设方面做了什么,在方面的人才之一
就像谁在训练运行方面做了什么。所以,是的。所以这就是,我们,好的,继续。对不起。我们认为他们现在实际上拥有接近 50,000 个 GPU。这分布在许多任务中,对吧?同样,基金,嗯,
研究和消融。大致来说,OpenAI 或 Anthropic 会有多少?我认为我们最清楚的例子是,因为 Meta 也是开放的,他们谈论的是他们在训练集群中大约 60,000 到 100,000 个 H100 等效 GPU。对。所以像 Llama 3,他们在 16,000 个 H100 上训练,对吧?是的。
但 Meta 公司去年公开披露他们购买了大约 40 万个 GPU。是的。对。所以,当然,训练中只有一小部分,就像大部分是像为我提供最好的 Instagram 短视频一样。对。或者其他什么。对。我的意思是,我们可以深入了解一下 2000 个 GPU 集群的拥有成本是多少?一万个。就像有不同规模的公司能够负担得起这些东西。而 DeepSeek 就是。
相当大。他们与世界前几名相比的计算分配是世界前几名之一。它不是 OpenAI、Anthropic 等,但他们拥有大量的计算能力。你能不能总的来说放大一下,也谈谈 Hopper 架构,NVIDIA Hopper GPU 架构以及 H-100 和 H-800 之间的区别,就像你提到的那样,互连。是的,所以有,你知道,Ampere 是 A-100,然后是 H-100 Hopper,对吧?在美国,人们通常将它们等同起来,因为实际上只有 H-100,现在有 H-200,对吧?但基本上是一样的。
在中国,已经有多轮出口限制。所以最初,美国政府在双因素规模上进行了限制,即芯片互连与浮点运算。所以任何互连超过一定水平和浮点运算超过一定水平的芯片都被限制了。后来,政府意识到这是一个限制缺陷,他们将其减少到只有浮点运算。
所以 H800 的浮点运算很高,通信很低。没错。所以 H800 在浮点运算上的性能与 H100 相同,对吧?但它的互连带宽被削减了。DeepSeek 知道如何利用这一点。嘿,即使我们的互连被削减了,我们仍然可以做所有这些奇特的事情来弄清楚如何充分利用 GPU。
对。所以那是 2022 年 10 月。但在 2023 年后期,在 2024 年实施,美国政府禁止了 H800。对。顺便说一句,这 2000 个 GPU 的 H800 集群甚至不是在 2024 年购买的。对。它是在 2023 年后期购买的。对。
他们现在才推出这个模型,对吧,因为这需要大量的研究等等。H800 被禁止了,现在有一种新的芯片叫做 H20。H20 只在浮点运算上被削减了,但互连带宽是一样的。事实上,在某些方面,它比 H100 更好,因为它具有更好的内存带宽和内存容量。所以有,你知道,NVIDIA 正在遵守政府所说的限制,然后为中国制造最好的 GPU。- 我们能不能谈谈这个实际的切线,然后我们会回到硬件?
是哲学,动机,专家控制的案例。它是什么?Dari Ahmadij 发布了一篇关于专家控制的博客文章。他提出的论点是,如果人工智能变得超级强大,他说到 2026 年我们将拥有 AGI 或超级强大的人工智能,这将给,任何建造它的人都会拥有显著的军事优势,
所以,因为美国是一个民主国家,正如他所说,中国具有专制主义特征,你想要一个单极世界,在那里超级强大的军事力量
由于人工智能是一个民主国家。当你有两个拥有超级强大人工智能的超级大国,而其中一个是专制国家时,地缘政治世界就变得更加复杂了。所以这就是他提出的论点。所以我们想要,美国想要利用出口管制来减缓速度,以确保中国无法进行这些巨大的训练运行,这些运行可能需要构建 AGI。这是非常抽象的。我认为
这可能是有些人描述出口管制目标的方式,这就是超级强大的人工智能。你提到了训练运行的想法。中国不可能在很多世界中不训练人工智能模型。出口管制正在削弱中国可以拥有的计算量或计算密度。而且
如果你考虑一下现在的人工智能生态系统,所有这些人工智能公司的收入数字都在上升。他们的人工智能使用量持续增长。更多的 GPU 将用于推理。如果出口管制有效,那么很大一部分出口管制就是说,在中国运行的人工智能数量将会大大减少。所以在训练方面,DeepSeek v3 是一个很好的例子,你有一个非常专注的团队,仍然可以在
这 2000 个 GPU 上达到人工智能的前沿,考虑到全世界的情况,这并不难获得。他们仍然会拥有这些 GPU。他们仍然能够训练模型。但是,如果人工智能将会有一个巨大的市场,如果你有强大的出口管制,并且你想要 100,000 个 GPU 来服务相当于 ChatGPT 集群的东西,那么有了良好的出口管制,它也会使人工智能的使用量大大减少。是的。
我认为这比试图争论什么是 AGI 更容易实现的目标。如果你有这些极其智能的自主人工智能和数据中心,就像这些东西可以在美国这些 GPU 集群中运行,但在中国却不行。在某种程度上,训练模型实际上什么也没做,对吧?就像他们有一个模型。
达里奥谈论的是,一旦训练完成,该模型的实施将创造巨大的经济增长,巨大的军事能力提升,人们生产力的巨大提高,生活的改善,无论你想将超级强大的人工智能导向什么,你都可以。但这需要大量的计算能力,对吧?所以美国政府实际上已经说过......而且永远都是,对吧?训练将永远是总计算量的一部分。我们提到了 Meta 的 400,000 个 GPU,只有 16,000 个用于 Llama,对吧?所以百分比......
Meta 用于推理的比例。现在,这可能是为了推荐系统,这些系统试图让我们的大脑花费更多时间观看更多广告,或者如果它是为了一个正在做有益事情的超级强大的人工智能,那么我们经济系统所决定的确切用途并不重要。重要的是,这可以以我们想要的任何方式交付。而,
在中国,对吧,你知道,出口限制,很好。你永远不可能切断一切,对吧?我认为美国政府对此非常清楚,那就是你无法切断一切。他们会制造自己的芯片。他们正在努力制造自己的芯片。它们会比我们的差。但是,你知道,重点是保持差距。对。
对。因此,在某个时候,随着人工智能,你知道,在一个世界中,经济增长率为 2% 或 3%,这真的很愚蠢,对吧,切断,你知道,高科技产品,并且不从中赚钱。但在一个超级强大的人工智能出现并开始对社会产生重大变化的世界中,这是所有人工智能领导者和大型科技公司都相信的,我认为超级强大的人工智能将极大地改变社会。因此,计算能力差异的这种复合效应非常重要。有一些科幻小说,比如
人工智能的衡量标准是向计算交付了多少电力,对吧?或者有多少......这是一种思考方式,经济产出只是你导向人工智能的电力有多少。我们是否应该以此为契机来讨论推理模型,这可能是一种人们实际上可以看到的可行方法?所以 R1 和 R01 推出的推理模型,它们的设计是使用更多计算能力。人工智能社区有很多
流行词,关于这个测试时间计算,推理时间计算等等。但迪伦对此有很好的研究。你可以获得关于比率的具体数字,当你训练模型时,你可以查看训练中使用的计算量和推理中使用的计算量。这些推理模型使推理对于执行复杂任务变得更加重要。在秋季,在 12 月,
他们的OpenAI发布了这个O3模型。AI领域的一个特点是发展迅速,我们会同时看到公告和发布。公告本质上是博客文章,你自我表扬一番,说你取得了成就;而发布则是模型、论文等等的公开。所以OpenAI已经宣布了O3,在录制时我们可以检查O3 mini是否已经发布,但这并不改变重点,那就是突破性的成果是所谓的Arc AGI任务,即抽象推理语料库,一项用于人工通用智能的任务。
François Chollet是参与这项工作的人......这是一篇发表多年了的论文。这是一个极好的基准。OpenAI的03解决这个问题所用的方法是,它在API中使用了某种数量的样本。API包含思考工作和样本数量。他们使用了1000个样本来解决这个任务,结果大约是......
每个问题5到20美元,你实际上是在输入一个数学难题。然后回答一个问题需要花费数倍的美元。这需要大量的计算。如果这些要在美国流行起来,OpenAI需要大量的GPU进行推理来处理这些。他们有这个......
OpenAI ChatGPT Pro订阅,每月200美元。Sam说他们正在亏损。这意味着人们正在大量消耗GPU进行推理。我已经注册了,我用过它。我认为我不是高级用户,但我用过它。它就像,对于一个拥有......的中国公司来说,
中等强度的专家控制,总会有漏洞,可能无法做到所有事情。如果O3的主要成果也是惊人的编码性能,如果这反过来又能帮助AI公司更好地......
进行实验。所以大概的想法是,对于AGI来说,更大比例的计算将用于测试时间计算,用于推理。AGI进入一个房间,思考如何接管世界,然后在2.7小时后回来,
这将需要大量的计算。OpenAI和Anthropic等公司的CEO或领导者谈论的是自主AI模型,即你给他们一个任务,他们在后台处理它。我认为我个人对AGI的定义是,
我认为大型语言模型是一种AGI,所有这些超级强大的东西是下一步,如果我们得到这些工具,那就太好了。但大型语言模型在许多领域都有如此大的价值。对我来说,它是一种通用智能。但下一步是自主性事物,它们是独立的,它们可以执行训练数据中没有的任务,这就是......
这些AI公司在未来几年努力的方向。我认为Dario使用的术语是超级强大的AI。我同意你对AGI的看法。我认为我们已经拥有了一些令人印象深刻的东西,艾伦·图灵肯定会说这是AGI。但他指的是一旦拥有
那么你将比其他国家拥有显著的军事和地缘政治优势。这不仅仅是你可以问它如何煎蛋卷。在他的文章《爱的机器与优雅的机器》中,他对这个问题的看法要积极得多。我已经阅读过这篇文章。我没有足够的物理科学背景来准确判断我对AI能否彻底改变生物学的判断能力。我可以肯定地说,
AI将加速任何计算科学的进步。我们在这里对主题进行深度优先搜索,进行切线上的切线,所以让我们继续进行深度优先搜索。你说你们都感受到了AGI。那么你们的预测时间表是什么?Dario预测2026年将出现超级强大的AI,这种AI基本上已经具备了自主性,成为真正的安全威胁,
达到那种程度的AGI?你们的预测时间表是什么?我不喜欢预测具体的性能,因为预测具体的性能和时间非常困难。我认为,如果你要说我感受到了AGI,那就是我预计未来几年将持续取得快速而令人惊讶的进展。所以DeepSeek的R1对我来说就不那么令人惊讶了,因为我预计会出现新的范式,从而能够取得实质性进展。
我认为DeepSeq R1如此令人不安,是因为我们正沿着ChatGPT的这条道路前进。它就像,它越来越好,越来越好,越来越好。然后我们有了改变模型的新方向。我们迈出了一步,就像这样,我们向上迈进了一步。所以看起来像是一个非常陡峭的斜坡,然后我们将继续迈出更多步骤。所以,当你看到这些大的步骤时,它真的令人不安。
我预计这种情况会持续发生。我尝试过OpenAI运营商。我尝试过云计算。他们还没做到。我理解这个想法,但很难预测是什么突破会让这样的事情奏效。我认为更有可能的是,我们会取得成功的突破,而我们不知道它们会做什么。所以每个人都想要代理。Dario有一种非常雄辩的方式来描述这一点。
我只是认为,不仅仅是这些。所以我只能期待这些事情的发生。我必须把你锁定在一个AGI时间表上的日期上,就像核武器时刻一样。也就是说,在地缘政治舞台上,有一个真正的,你知道的,因为我们正在谈论出口管制。
你认为,即使只是抛出一个日期,你认为那是什么时候?对我来说,可能在2030年之后。所以我并不——这就是我想说的。所以定义一下,对吧?因为对我来说,它几乎已经发生了,对吧?看看印度和巴基斯坦的选举,人们接到AI语音电话,以为是在和政治家通话,对吧?在拜登政府的最后几周颁布的AI扩散规则,看起来特朗普政府会保留,甚至可能加强,限制对
云计算和GPU的销售给与中国无关的国家。就像,这是......葡萄牙和所有这些正常的国家都在,你需要得到美国名单的批准。就像,是的,葡萄牙和所有这些盟友国家,对吧?新加坡,对吧?他们拥有F-35,我们不允许他们购买GPU。这对我来说,已经达到了......的规模
好吧,这仅仅意味着美国军方对这项新技术非常紧张。这并不意味着这项技术已经存在。他们可能只是对他们不太了解的事情非常谨慎。但这是一个非常好的观点,有点像机器人电话。成群的半智能机器人可能成为武器。
可能会进行大量的社会工程。我的意思是,从2016年的选举开始,就有大量的讨论,比如剑桥分析公司和所有这些事情,俄罗斯的影响。我的意思是,世界上每个国家都在向互联网推送内容,并且都有他们想要的叙事,对吧?就像每个技术能力强的人,无论是俄罗斯、中国、美国、以色列等等,对吧?你知道,人们正在大量地向互联网推送观点。而且
大型语言模型降低了听起来非常智能的语言的成本。一些研究表明,分布实际上是限制因素。所以大型语言模型还没有使虚假信息特别改变那里的等式。互联网仍在继续。我认为有一篇博客,《AI蛇油》,我普林斯顿的一些朋友写了关于这些东西的文章。所以有研究。这是一个默认值,每个人都认为。我本以为同样的事情是,
虚假信息不会随着大型语言模型变得更糟。我认为就互联网帖子和人们一直在衡量的事情而言,它并没有呈指数级增长或一些极易衡量的东西。你谈到的像语音电话之类的事情,它可能存在于更难以衡量的模式中。所以这是一件在......方面为时尚早的事情,我认为这就像通过网络进行的政治不稳定,它是由
我认为你问的是AGI的事情。如果你让我给出一个年份,我会说,好吧,我有AI的CEO这么说。他们已经说了两年了。我认为像Anthropic的CEO Dario这样的人已经如此深入地思考过这个问题。我需要认真对待他们的说法,但也理解他们有不同的意见。
所以我可能会说,再加几年,这就是你如何得到类似2030年或2030年之后的东西。我认为在某种程度上,我们拥有的能力达到了某个点,任何一个人都可以说,好吧,如果我可以利用这些能力X量的时间,这就是AGI,对吧?称之为27、28。但实际上运行这种能力的成本是如此之高,以至于没有人能够真正大规模地、持续地部署它。
从而在一瞬间彻底改变经济。所以我认为这不会是一瞬间的事情。- 这是一个物理限制。- 相反,这将是,哦,能力就在这里,但我无法在任何地方部署它,对吧?所以一个简单的例子可以追溯到2023年,当时Bing与GPT-4一起发布,每个人都对搜索感到震惊,对吧?Perplexity发布了。如果你计算一下,嘿,将GPT-3实现到每个谷歌搜索中,
结果是,哦,好吧,这在物理上是不可能实现的。当我们向前迈进,回到测试时间计算时,一个查询,你知道的,你问ChatGPT一个问题,对于他们最强大的聊天模型来说,得到一个查询的回复需要花费几分钱。然而,要解决Arc AGI问题,需要花费
5到20美元,对吧?这是一个......这只是从那里开始。这是一个1000、10000倍的成本差异,用于回复查询与执行任务。AGI的任务,它在某种程度上很简单,但它也像,
我们想要什么任务?好吧,AGI,我们今天拥有的东西可以做Arc AGI。三年后,它可以解决更复杂的问题,但成本将以数千、数万甚至数十万美元的GPU时间来衡量,而且根本没有足够的电力、GPU、基础设施来运行它,因此不会在一瞬间改变世界的一切。
但在那一刻,谁能够控制并引导AGI执行任务?所以这是Dario在他的文章中提到的,他说,嘿,中国可以有效地、比我们更快地......
将他们的AGI用于军事任务,对吧?在许多方面,他们在将某些新技术应用于军事方面比我们更快,对吧?尤其是在无人机方面,对吧?美国可能拥有长期存在的、你知道的、大型空军之类的、你知道的、战斗机之类的、轰炸机。但当涉及到像无人机这样的非对称武器时,他们已经完全超越了美国和西方。Dario在那里指出的担忧我认为是,
是的,很好。我们将在商业领域拥有AGI。美国军方将无法快速部署它。中国军方可以,他们可以将所有资源用于在军事中部署它,从而解决军事后勤问题或解决针对特定目标的虚假信息的其他方面
特定人群,以便他们可以颠覆一个国家的政治或类似的事情,这实际上是灾难性的,而不是,你知道的,美国只是想要,你知道的,因为它将更多地资本主义地分配到任何收入最高的回报上,这可能是像更好地建造工厂或其他什么。所以我所看到的一切,人们的直觉似乎在机器人技术上都失败了。所以你会有这种普遍的乐观情绪。我在自动驾驶汽车上也看到了这一点。人们认为这是一个比实际情况容易得多的问题,无人机也是如此,呃,
在这里我理解得少一些,但我只是看到了乌克兰战争的现实以及双方对无人机的使用。似乎人类仍然远远超过任何完全自主的系统。AI是一种助手,但人类驾驶。FPV无人机,人类控制大部分操作,远远超过AI系统。
我认为对我来说,我们很快就会在军事环境中拥有自主机器人群并不明显。我所能想象的最快的速度是2030年,这就是为什么我说2030年是超级强大的AI。每当你有大规模的机器人集群进行军事行动时,世界对我来说就开始看起来不同了。所以这是我真正担心的事情。但可能会出现网络战争。
网络战争类型的技术,从社会工程到实际上只是机器人集群,它们在我们的代码库中找到攻击向量并关闭电网,那种东西。它可能是那些事情之一,就像在任何一个周末或类似的时候,电力中断,没有人知道为什么,世界永远改变了。仅仅在美国所有地区停电两天,就会导致谋杀,导致混乱。但回到
专家控制。你认为这在AI背景下,作为一种控制地缘政治力量平衡的有用方法吗?我认为回到我的观点是,如果你相信我们正处于这种......
我们过去20年所处的经济增长和变化阶段,出口管制绝对保证了中国将长期获胜,对吧?如果你不相信AI将在未来10年或5年对社会产生重大变化。
5年时间表是AI公司甚至大型科技公司的高管等人的想法。但即使是10年的时间表,也是合理的。但是一旦你达到,嘿,这些时间表低于那个时间段,那么唯一能够为美国与中国创造相当大的优势或劣势的方法就是限制计算能力。因为
人才并不是真正限制因素,对吧?中国可以说是拥有更多人才,对吧?更多的STEM毕业生,更多的程序员。美国可以利用世界各地的人才,它确实如此。AI行业中有大量外国人。许多这些AI团队都是没有美国护照的人。是的。我的意思是,他们中的许多人是搬到美国的中国人,对吧?这很好。这是
人才是一个方面,但我认为这不是美国是否有衡量优势的一个方面。它确实是现在计算能力的问题,即使在计算能力方面,当我们考虑芯片与数据中心时,对吧,中国拥有前所未有的能力来构建令人难以置信的电力。
钟表般精确,对吧?他们总是在建造越来越多的电力。他们拥有的钢铁厂,每个钢铁厂的规模都相当于整个美国的钢铁工业,对吧?他们拥有的铝厂消耗着千兆瓦特和千兆瓦特的电力,对吧?当我们谈论最大的数据中心时,对吧?OpenAI对他们的Stargate公告大肆宣传。一旦在几年后完全建成,它将达到2千兆瓦。
对吧,电力,对吧?这仍然小于中国最大的工业设施,对吧?中国,如果他们想建造世界上最大的数据中心,如果他们能够获得芯片,就可以做到。所以这不仅仅是,这只是一个时间问题,而不是是否的问题,对吧?所以他们的工业能力远远超过美国?
没错。制造东西。长期来看,他们将在那里制造芯片。芯片更专业一些。我特别指的是数据中心,对吧?芯片、晶圆厂需要大量的电力。不要误会我的意思。那不一定是那里的限制因素。今天美国人建造越来越大的训练系统以及部署越来越多的推理计算能力的限制因素是电力。
现在,它可能是发电、输电、变电站以及所有这些变压器和所有这些东西。建造数据中心。这些都是限制美国工业建造越来越大的训练系统以及部署越来越多的推理计算能力的因素。我认为我们需要明确说明为什么现在是时候了,对于那些不考虑这个问题的人来说。因为本质上,通过出口管制,你使得中国无法制造或获得
尖端芯片。其想法是,如果你时机不对,中国正在向其芯片生产投入大量资金。如果你时机不对,他们将拥有更大的生产能力、更大的能源能力,并找出如何制造芯片,并拥有比世界其他地区更大的能力来制造芯片,因为每个人都可以购买,他们将把他们的中国芯片卖给每个人,他们可能会补贴它们。因此,如果
AI需要很长时间才能实现差异化。我们已经削弱了美国公司的财务业绩。英伟达可以卖得更少。台积电不能向中国销售。因此,我们对
因此,继续推动生产周期。这就是时机重要的假设。少于10年或5年到以上,对吧?除非AI在短期内做些什么,否则中国将因为这些长期限制而获胜,我相信AI会在中短期内对社会产生巨大变化,对吧?所以这是那里的最大突破。
即使在今天,如果习近平决定进行所谓的“规模化”,即决定规模法则才是最重要的,就像美国高管萨蒂亚·纳德拉、马克·扎克伯格和桑达尔以及所有这些美国最大、最强大的科技公司的高管一样,他们已经决定他们要规模化,他们正在建造多千兆瓦的数据中心,无论是在德克萨斯州、路易斯安那州还是威斯康星州,无论在哪里,他们都在建造这些巨大的东西,其成本
与他们在全球范围内用于数据中心的全部预算一样多,在一个地方,对吧?这就是他们对明年、后年等等所做出的承诺。所以他们如此......
相信这是方法,这就是他们正在做的事情。但如果中国决定这样做,他们可以比我们做得更快。但这就是限制措施的来源。目前尚不清楚中国整体上是否已从最高层决定这是优先事项。美国已经这样做了。你看到特朗普在同一周谈论DeepSeek和Stargate。拜登政府也对AI等问题进行了大量讨论。很明显,他们考虑到了这一点,
直到上周,DeepSeek才与中国的二号人物会面,对吧?他们甚至没有见过最高领导人,对吧?他们还没有见过习近平。习近平还没有坐下来。他们只发布了1万亿人民币的补贴,大约1600亿美元,这更接近微软、Meta和谷歌今年的总支出,对吧?所以他们现在才意识到这一点。
但这就是这些出口限制措施的来源,说,嘿,你不能把最强大的美国芯片运到中国。你可以运送一个简化版本。你不能把最强大的芯片运送到所有这些我们知道只是会将其租给中国的国家。你必须限制数量,对吧?以及工具。制造设备、工具、所有这些不同的方面也是如此。但这一切都源于AI,然后下游可以减缓他们在AI方面的速度。
因此,整个半导体限制,你阅读它们,它们非常清楚。这是关于AI和军事民用技术融合,对吧?非常清楚。然后从那里开始,哦,好吧,我们禁止他们购买光刻工具、蚀刻工具和沉积工具。哦,来自某个不知名的小公司的某个随机的子系统,对吧?我们为什么要禁止这个?因为美国政府已经决定所有这些对AI系统至关重要。
我认为支点是7纳米芯片到5纳米芯片的过渡,我认为几年前是华为拥有7纳米芯片,这导致了另一个政治风波,几乎就像这一刻一样。然后是ASML深紫外线。那是什么?极紫外光刻。为了说明芯片的背景,对吧,Nathan指的是在2020年,华为发布了他们的Ascend 910芯片。
这是一款AI芯片,在谷歌之前,在英伟达之前,第一款7纳米芯片。他们将其提交给MLPerf基准测试,这是机器学习性能基准测试的行业标准。它做得相当好。它是提交时最好的芯片,对吧?这是......
这是一件大事。特朗普政府当然禁止华为从台积电获得7纳米芯片。所以他们不得不改用国内生产的芯片,这是一个多年的挫折。许多公司都制造了7纳米芯片。问题是,我们不知道华为补贴了多少这种芯片的生产。英特尔已经制造了7纳米芯片,但这些芯片并不盈利。
以及类似的事情。这就是它如何反馈到出口管制的经济引擎中。好吧,所以你是在说,目前习近平还没有感受到AGI,但感觉DeepSeek时刻可能会......
现在可能正在进行会议,他将开始穿同样的T恤,事情将升级。我的意思是,像这样,他可能上周才醒来,对吧?Leon Feng会见了副主席,二号人物,他们举行了一次会议。然后第二天,他们宣布了AI补贴,金额为1万亿人民币,对吧?所以有可能DeepSeek时刻确实是冷战的开始。
许多人担心这一点。AI领域的人们一直担心这将走向冷战,或者已经开始了。但这并不是DeepSeek的错,但有一些因素结合在一起,就像这次爆炸一样。我的意思是,这一切都与英伟达股价下跌有关。这只是一些大规模的歇斯底里最终导致习近平举行会议并意识到这个想法。是的。
美国政府在2022年10月7日,也就是ChatGPT发布之前,就意识到了10月7日的限制,这震惊了所有人。它非常明显地针对AI。每个人都像,你在做什么?Stable Diffusion当时已经发布了,但ChatGPT没有。是的,但ChatGPT没有。所以它就像开始出现关于生成式AI能做什么的传言。
但我认为,至少对于国家安全委员会和那些人来说,这是世界前进的方向,正在发生的这场冷战。那么,出口管制是否会促使中国对台湾采取军事行动?
这是最大的风险,对吧?你越阻止中国获得尖端的美国和全球技术,他们就越有可能说,好吧,因为我无法获得它,我最好,就像没有人应该获得它一样,对吧?这方面有一些有趣的地方,对吧?就像,你知道的,中国有一个城乡差距,其他国家没有。他们的人口性别比例也与众不同,以至于如果你看看中国的大部分地区,比例并没有那么糟糕。但如果你看看中国农村的单身汉,比例是30比1。而这些人是被剥夺权利的人,对吧?引号,美国有“隐形人”问题,中国也有。只是他们以某种方式被安抚或
压制。你如何处理这些人?与此同时,你也不允许获得最重要的技术。至少美国是这样认为的。中国可能开始认为这是最重要的技术,因为他们开始向其投入补贴,对吧?他们认为电动汽车和可再生能源是最重要的技术。他们现在主导了这个领域,对吧?现在他们开始......他们从2010年代后期和2020年代初期开始考虑半导体。现在他们一直在投入资金,并且正在迅速赶上。对吧?
他们将对AI做同样的事情,对吧?因为他们非常有才华,对吧?所以问题是,
什么时候会达到临界点?如果中国认为,嘿,他们可以继续,如果没有获得访问权限并开始一场真正的热战,接管台湾或以某种方式颠覆其民主或封锁它,对世界其他国家造成的伤害远大于对他们的伤害,这是他们可能做的事情。那么这是否会促使他们这样做?有可能。我不是一个地缘政治专家,但是
你知道的,很明显,和平与贸易的世界体制对经济来说非常棒。呃,但在某些时候它可能会崩溃,对吧?我认为我们应该评论一下,为什么中国的经济会因此受到损害,因为他们是出口导向型经济。我认为美国购买了这么多,如果那消失了,那就是他们的经济。好吧,同时,他们也无法从......进口原材料
全世界,对吧?美国会关闭马六甲海峡。与此同时,美国完全......你可以争辩说,自70年代以来,美国几乎所有的GDP增长都是人口增长或技术进步的结果。
对吧?因为你今天的生活与80年代以外的人相比并没有好多少,对吧?汽车,到处都有半导体。冰箱,到处都是半导体。有一些有趣的故事讲述俄罗斯人如何拆卸洗衣机,因为它们拥有一些特定的德州仪器芯片,然后他们可以重新利用并将这些芯片放入他们的反导导弹中,对吧?就像他们的S-400或其他什么。你对此应该更了解,但是
关于半导体的一切都与我们生活的方方面面息息相关。那么,你能解释一下台积电在半导体故事中的作用吗?也许还能解释一下美国如何才能摆脱对台积电的依赖?我认为这并非一定要摆脱依赖,而是让台积电在美国建厂。但退一步说,台积电生产
世界上大部分的芯片,对吧?尤其是在晶圆代工方面。你知道,有很多公司自己制造芯片,三星、英特尔、意法半导体、德州仪器、模拟器件,所有这些公司都制造自己的芯片和XP。但是越来越多的公司将业务外包给台积电,而且已经持续了几十年了。你能解释一下那里的供应链,以及台积电在制造业中的大部分业务吗?
当然。从历史上看,供应链是公司自己制造芯片。他们会创办一家公司,自己制造芯片,然后设计芯片、制造芯片并销售。随着时间的推移,这变得非常困难,因为建造晶圆厂的成本在每一代产品中都在不断增加。当然,弄清楚这项技术本身就非常困难,但这仅仅是所需的资金,忽略了,说,嘿,是的,我拥有所有技术
能力,顺便说一句,这真的很难做到,对吧?英特尔正在失败,三星正在失败,等等。但是,如果你只看看建造下一代晶圆厂所需的资金,它会持续增长,对吧?有点像,你知道,摩尔定律是每两年芯片成本减半。还有一条不同的定律,有点像每隔几年晶圆厂的成本翻一番。
因此,你看到一个今天能够盈利的领先晶圆厂,它正在建造,你知道,未来将要建造3纳米或2纳米的芯片,这将花费超过300亿或400亿美元,对吧?这仅仅是一笔象征性的金额。这就像,这就像基础构建块,你可能需要建造多个,对吧?因此,当你回顾过去,你知道,如果我回到20或30年前,
有20到30家公司能够制造最先进的芯片,然后他们自己设计并销售这些芯片。对。所以像AMD这样的公司会自己制造芯片。英特尔当然仍然制造自己的芯片,这非常有名,但IBM也会制造自己的芯片,你可以继续列举下去。所有这些公司都自己制造芯片。慢慢地,他们像苍蝇一样纷纷倒下,这是因为台积电所做的事情。对。他们创造了晶圆代工业务模式,那就是我不设计任何芯片。我只是为其他人进行芯片的合同制造。嗯,
他们早期的客户之一是英伟达,对吧?英伟达是唯一一家营收超过10亿美元的半导体公司,它是在晶圆代工时代成立的,对吧?其他所有公司都是在此之前成立的,并在某个时候拥有晶圆厂。
这实际上令人难以置信,对吧?你知道,像AMD、英特尔和博通。一个非常棒的事实。就像每个公司在某个时候都拥有晶圆厂,或者,你知道,像博通这样的公司,它就像各种合并的公司的大杂烩。但即使在今天,博通也有晶圆厂,对吧?他们
为苹果在科罗拉多州制造iPhone射频芯片,对吧?所有这些公司都有晶圆厂,对于大多数晶圆厂来说,他们都将其丢弃或出售,或者将其合并到其他东西中。现在每个人都依赖台积电,对吧?包括英特尔,他们最新的PC芯片使用
台积电芯片,对吧?它也使用一些英特尔芯片,但它使用台积电工艺。你能解释一下为什么晶圆代工模式对这些公司如此成功吗?为什么,为什么他们会选择规模经济?是的。所以,我的意思是,就像我提到的那样,对吧?建造晶圆厂的成本如此之高。研发如此困难。嗯,而且,
当你看到那些拥有自己垂直堆栈的公司时,这是一个过时的流程,就像,好吧,我对每个特定的芯片都进行了超个性化定制。但正如我们在过去50年的电子和半导体历史中所经历的那样,A,你需要越来越多的专业化,因为摩尔定律已经失效。丹纳德缩放已经失效,即芯片的制造不再免费变得更好。你必须做出......
真正的架构创新,对吧?谷歌不仅仅依靠英特尔CPU来进行网页服务。他们有YouTube芯片,他们有TPU,他们有Pixel芯片,他们有各种各样的芯片,你知道,这些芯片创造了谷歌的所有经济价值,对吧?运行,你知道,它运行着所有服务和东西。而这仅仅是谷歌,你可以看看行业中的任何公司,情况都是这样的,对吧?汽车包含5000个芯片,你知道,
200种不同的种类,对吧?所有这些随机的东西。特斯拉的门把手有两个芯片,对吧?就像这太荒谬了。这是一个很酷的门把手,对吧?就像,你不会想到它,但它就像里面有两个非常小的芯片,对吧?无论如何,因此,随着你拥有更多种类的芯片,随着你对专业化的需求越来越多,以及晶圆厂的成本持续增长,你需要一个
专注于构建最佳工艺技术并使其尽可能灵活的人。我认为你可以简单地说,晶圆厂的成本上升了。如果你是一个小型参与者,只制造几种类型的芯片,你将无法获得偿还晶圆厂成本的需求。而英伟达可以拥有许多不同的客户,并将所有这些需求聚集在一个地方。然后他们是唯一一个赚够钱建造芯片来购买下一个,建造下一个晶圆厂的人。
所以这就是为什么这些公司慢慢被淘汰的原因,因为他们10年前拥有一款有利可图且足够好的芯片,但建造下一款芯片的成本却上升了。他们可能会尝试这样做,但会失败,因为他们没有足够的钱来使其发挥作用,然后他们就没有芯片了,或者他们制造了它,但它太贵了,他们只是没有
有利可图的芯片。
穆巴达拉,阿联酋,对吧?这成为了一家名为格芯的独立公司,这是一家晶圆代工公司。然后AMD能够专注于回升,就像,嘿,让我们专注于制造芯粒和许多针对不同市场的不同芯片,并专注于特定的工作负载,而不是所有这些不同的东西。因此,你获得了更多种类的芯片。你比以往任何时候都有更多的公司设计芯片,但你比以往任何时候都有更少的公司
制造它们。对。这就是台积电的用武之地,因为他们一直是最好的,对吧?他们在这方面非常出色,对吧?他们以客户为中心。他们让你很容易制造你的芯片。他们承担了所有这些复杂性,并试图将很多复杂性从你那里抽象出来。嗯,他们赚了很多钱。他们没有赚很多钱,但他们赚了很多钱。嗯,
他们能够聚集所有这些需求,并继续建造下一个晶圆厂、下一个晶圆厂、下一个晶圆厂。那么,为什么台湾对台积电如此特别呢?为什么它发生在那里?它能否在美国复制?
是的,有些方面我会说是的,有些方面我会说不,对吧?台积电遥遥领先,因为德州仪器的前任高管张忠谋没有被提升为首席执行官,他就像,去你的,我要去创办我自己的芯片公司,对吧?他去了台湾并创办了台积电,对吧?这里面还有很多故事。所以它可能是德州仪器,也可能是台积电,但德州。
半导体制造,对吧?而不是,你知道,德州仪器,对吧?但是,你知道,所以这里面还有整个故事。坐在德克萨斯州这里。我的意思是,这听起来像是一个人的故事,就像他没有得到晋升。仅仅是张忠谋的才华,你知道,我不会低估这一点,但也有不同层次的,比如这是如何运作的,对吧?所以在台湾,
你知道,像顶级百分比的毕业生,去最好的学校学习的学生,也就是国立大学,其中顶级百分比的学生都去台积电工作。对。你猜他们的薪水是多少?他们的起薪是大约
7万或8万美元,对吧?这就像,这就像美国优秀毕业生的起薪,对吧?不是顶级,顶级毕业生在谷歌、亚马逊和现在我想是全球的OpenAI这样的公司赚取数十万美元,对吧?所以存在很大的差异,比如,社会顶尖的1%的人在做什么?由于经济原因,他们要去哪里,对吧?英特尔从未支付过如此高的薪水,对吧?这对他们来说没有意义,对吧?这是一个方面,对吧?最好的去向在哪里?第二个是职业道德。
对吧?就像,你知道,我们,我们喜欢工作,你知道,你,你工作很多,我们工作很多,但归根结底,嗯,当有,你知道,当,当,什么,你正在做的工作时间和数量是多少?晶圆厂需要什么?对吧?晶圆厂不是在家工作的职位。它们是,你进入晶圆厂并进行艰苦的工作,对吧?嗯,
有,有,嘿,如果有任何振动,对吧?地震发生,使机器振动。它们都,你知道,它们要么坏了。你已经报废了一些产品。然后在许多情况下,它们没有正确校准。所以,所以当台积电,当发生地震时,对吧?最近发生了一次地震。台积电不会打电话给他们的员工。他们只是,
他们只是去晶圆厂,就像他们只是出现。停车场挤满了人,人们只是进入晶圆厂并进行修理。对。就像一只手臂。就像蚂蚁。对。就像,你知道,蚂蚁群不需要女王告诉它们该做什么。蚂蚁只是知道一个人只是
专门从事这些一项任务。就像,你将使用这个工具,你是世界上最优秀的人。而你一生要做的就是晶圆厂中的这项任务。这是一种特殊的化学加上纳米制造,在一系列不断迭代的工具上。是的,它就像,它就像专门用于去除二氧化硅的等离子体刻蚀,对吧?这就是你一生专注的事情。所以任务不是可转移的。今天的AI很棒,因为人们可以像那样学习它。
半导体制造非常过时且困难。没有材料可以让人们轻松阅读和学习,对吧?论文非常密集,学习需要大量的经验。因此,它也使进入壁垒更高。因此,当你谈到,嘿,你拥有所有这些超级专业的人,他们会工作,你知道,
每周80个小时在工厂工作,对吧?在一个晶圆厂里。如果出现任何问题,他们会在半夜出现,因为发生了一次地震,他们的妻子说,发生了一次地震。
他说,太好了,我要去晶圆厂。你会,作为一个美国人,会这样做吗?这些事情是台积电如此令人惊叹的例证。现在,你能在美国复制它吗?让我们不要忽视英特尔在制造业中领先了20多年。除了EUV、应变硅、高k金属栅极、FinFET,你知道,以及英特尔率先推向市场、从中赚取最多利润并率先大规模制造的技术清单等等,
最高的利润率,对吧?所以我们不应该忽视英特尔无法做到这一点,对吧?这是因为文化已经破裂了,对吧?你投资了错误的东西。他们拒绝了iPhone。他们在这方面有很多不同的说法,比如,你知道,晶圆厂管理不善、设计管理不善、这种锁定,对吧?
与此同时,所有这些聪明的人,对吧,这些大约5万名博士,你知道,或者在俄勒冈州从事特定化学或物理过程或纳米制造过程数十年的硕士,他们仍然在那里。他们仍在创造惊人的工作。只是将其交付给高产量的最后一英里生产,你可以在线制造数十种和数百种不同类型的芯片。
你知道,而且,而且它很好。你的客户体验已经破裂了,对吧?你知道,这是客户体验。它就像,就像一部分是,人们会说英特尔在2000年代和2010年代过于傲慢,对吧?他们只是认为自己比其他人更好。工具人员就像,哦,我不认为这已经足够成熟了。他们就像,啊,你只是不知道。我们知道,对吧?这种事情会发生。嗯,
那么美国能否将领先的半导体制造带到美国?绝对可以,对吧?而且我们正在这样做,对吧?它正在发生。亚利桑那州随着时间的推移越来越好。台积电在美国建造了大约20%的5纳米产能,对吧?现在,这还远远不够,对吧?在美国拥有20%的产能就像
什么都不是。对。此外,这仍然取决于台湾的存在,对吧?有一种重要的方式可以将其区分开来。有研发和高产量制造。实际上,世界上有三个地方正在进行领先的边缘研发,那就是台湾新竹、俄勒冈州希尔斯伯勒和平壤,嗯,平壤,嗯,韩国,对吧?这三个地方正在为世界其他地区的领先半导体进行领先的边缘研发。对。嗯,
现在,制造可以更广泛地分布在全球,对吧?这就是这种二分法存在的地方,比如,谁实际上在修改流程?谁实际上正在开发下一代产品?谁在改进它们?是新竹、希尔斯伯勒还是平壤,对吧?它不是其他这些晶圆厂,比如亚利桑那州,对吧?如果新竹从地球上消失了,一年或几年内,亚利桑那州也会停止生产,对吧?这实际上非常关键。我喜欢说的一件事是,如果我有几枚导弹,我知道我可以在哪里造成最大的经济损失,对吧?这不是针对白宫,对吧?是研发中心。是台积电、英特尔、三星以及一些存储器公司美光和海力士的研发中心。因为它们决定了这些半导体的未来发展,而且一切都在如此迅速地发展,以至于它实际上从根本上来说是关于研发的。而且这一切都与台积电有关。
因此,台积电,你知道,你无法购买没有台积电芯片的车辆,对吧?你无法购买没有台积电芯片的冰箱。你不能,我想你能购买的为数不多的东西之一,具有讽刺意味的是,是德州仪器的图形计算器,对吧?因为它们实际上是在德克萨斯州制造的。但除此之外,比如笔记本电脑。
手机、服务器、GPU。这些东西都不存在。这是没有台积电的情况下。在许多情况下,它甚至不是领先的、性感的5纳米芯片、3纳米芯片、2纳米芯片。通常,它只是一些愚蠢的电源IC,它将某种电压转换为另一种电压,对吧?它是在台积电制造的,对吧?这也是中国正在投资的。就像他们可以建立这个长尾晶圆厂,那里的技术更广为人知。你不必解决EUV的问题。他们正在投资这个。然后他们有大量的......
供应,比如汽车门把手和随机的东西。这也渗透到整个经济讨论中,那就是他们比我们多得多。拥有这些东西的供应对于正常生活至关重要。他们正在投资高产量制造商,但他们没有进行研发。所以他们,他们自己进行研发。他们只是远远落后了。对。嗯,所以我想说的是,在2015年,中国有一个五年计划,他们在2020年定义了2025年的某些目标,包括大约80%的半导体国内生产。嗯,
他们不会达到这个目标,对吧,需要明确一点。但在某些领域,他们确实非常接近,对吧?比亚迪很可能成为世界上第一家无需使用台积电制造......的公司,因为他们拥有自己的晶圆厂,对吧,用于制造芯片。现在,他们仍然必须从国外购买一些芯片......例如......
大约像自动驾驶ADAS功能,因为这些功能非常高端。但至少像,你知道,内燃机有40个芯片,而电动汽车,你知道,只是为了控制流量和所有这些东西。电动汽车甚至更复杂。所以所有这些不同的电源IC和电池管理控制器以及所有这些东西,他们都在内部采购,对吧?这是中国自2015年以来一直在做的事情。现在,就落后技术而言,他们在那里获得了如此多的产能。
至于领先技术,对吧?即这个5纳米等等,对吧?在GPU方面,他们仍然落后。而美国的限制正试图阻止他们在后者方面取得进展。但是,你知道,所有发生的事情,你知道,是的,他们已经减缓了他们的5纳米、3纳米等等的进展,但他们已经加快了他们的,嘿,45纳米、90纳米电源IC或模拟IC或,你知道,我键盘上的随机芯片,对吧?那种东西。
所以有一个角度,即从出口管制的角度来看,美国的行动如此具有煽动性,以至于减缓了中国在领先领域的进展,他们已经转向并加快了他们在其他领域的进展,因为他们知道这非常重要,对吧?如果美国要将他们锁定在这里,或者如果他们也将在落后领域将我们锁定在这里。因此,回到过去,美国能否在这里建造它?是的,但这需要
大量的资金。我真心认为,彻底改革和完全内部采购半导体将需要十年时间和一万亿美元。这其中也有一些文化因素吗?就像你说的那样,极高的能力,极高的职业道德在台湾。我认为,如果你有需求,而且钱是关键,美国公司会想出办法的。
这需要政府的扶持。我认为这种文化帮助台积电取得突破,这更容易。台积电大约有9万名员工,对吧?这实际上并不是一个天文数字。亚利桑那州的晶圆厂有3000名来自台湾的员工。
这些人,他们的妻子说,是的,除非你报名参加亚利桑那州的晶圆厂,否则我们不会生孩子。我们去亚利桑那州,在那里生孩子。日本也有一个晶圆厂,那里也发生了同样的事情,对吧?所以这些妻子驱使这些家伙去日本或美国生孩子。这是一个文化因素。是的,当然。台湾人非常努力工作。但美国过去也这样做过。他们现在可以做到,对吧?我们可以只是......
进口。我说进口世界上最好的人才,如果我们想的话。这就是移民问题棘手的地方。对此有很多争论。但是的,进口世界上最好的人才似乎是荒谬的争议。我不明白为什么这有争议。这就是我们与你意见一致的地方之一。而且,即使你无法进口这些人,如果资金到位,我认为你仍然可以做很多事情来在美国制造大部分产品。
对。所以它只是贵得多。在很长一段时间内它都是无利可图的。这就是芯片法案只有大约500亿美元的背景,相对于,你知道,在通货膨胀削减法案和基础设施法案中通过的一些可再生能源倡议,这些倡议......
总计达数千亿美元,对吧?所以美国用于半导体行业的资金微不足道,对吧?而所有这些其他国家在工作道德、工作量以及诸如此类的事情方面都具有结构性优势,而且还有大量的STEM毕业生,他们中最好的百分比都去那里,对吧?但他们也有像,嘿,只是
税收优惠在法律中,并且已经在法律中存在了20年。然后一些国家有大量的补贴。中国每年大约有2000亿美元的半导体补贴。我们谈论的是美国在六年内的500亿美元。因此,补贴金额的差距或差异也是巨大的。所以我认为特朗普最近一直在谈论对台湾征收关税。而且
这有点像,哦,好吧,也许他不想补贴半导体行业。显然,对台湾征收关税将导致很多东西变得更加昂贵,但这是否会改变台积电在美国建造更多晶圆厂的方程式?这就是他提出的观点,对吧?那么你能阐述一下重要性,顺便说一句,
你对这么多事情了解得如此之多,真是令人难以置信。我们告诉过你迪伦知道所有这些事情。是的。好的,你阐述了为什么台积电非常重要。如果我们展望未来,10年、20年后,美中关系似乎可能会走向冷战、升级的冷战甚至热战的黑暗局面,
或者走向从冤家到合作再到共同努力的良好局面。在这个博弈论中,复杂的博弈中,不同的轨迹是什么?美国应该做什么?比如,你认为随着两位领导人越来越感受到AGI的影响,并看到芯片和AI的重要性,美中关系的不同可能轨迹是什么?我的意思是,最终,但是......
出口管制正指向一个独立的未来经济。我认为美国已经向中国领导人明确表示,我们打算不惜任何代价来控制这项技术,以实现全球经济一体化。这很难扭转。牌已经打出去了。同样,他们也限制了美国公司进入中国,对吧?所以这是......
你知道,它已经酝酿已久。你知道,在某个时候,你知道,有一个融合。对。但至少在过去十年中,它一直在越来越分歧。对。比如美国公司无法进入中国。中国公司无法进入美国。美国说,嘿,
中国,你不能在某些领域获得我们技术的准入。而中国则以同样的方式反驳,比如,你知道,他们在某些特定材料方面,比如镓等,他们试图限制美国。有一家美国无人机公司不允许购买电池,他们有军事客户。而这家无人机公司只是告诉军事客户,嘿,从亚马逊购买吧,因为我实际上无法获得它们,对吧?就像所有这些事情都在发生,这表明越来越大的分歧。
我一点也不知道,如果我们都能手拉手唱《库姆拜亚》,我会很高兴,但我一点也不知道这怎么可能发生。这种在制造芯片、训练AI系统方面的分歧对于避免战争是好是坏?这种在制造芯片、训练AI系统方面的分歧是否实际上有利于......
避免军事冲突。客观事实是,当存在全球霸权或地区霸权时,世界一直处于有史以来最和平的时期,对吧?在历史背景下,对吧?当罗马人统治地中海时,地中海是有史以来最和平的时期,对吧?中国经历过非常和平和战争的时期,而和平时期是王朝不仅控制着自己,还控制着周围所有附属国的时候,对吧?同样,人类历史上最和平的时期是当
美国曾是全球霸主,对吧?在过去的几十年里。现在我们看到情况开始转变,对吧?与俄乌战争、中东局势以及台湾风险,所有这些事情都开始浮出水面,客观上仍然极其和平。那么,当不是一个全球霸主,而是两个时会发生什么,显然,中国将,你知道,
具有竞争力,甚至超过美国,这是可能的,对吧?因此,这种全球霸权的转变,我认为它永远不会像超级和平那样发生,对吧?当帝国衰落时,对吧?这是美国可能的发展轨迹。它们不会优雅地衰落,对吧?它们不会轻易地走向无关紧要。通常会有很多动荡,
所以,你知道,美国试图做的是保持其顶级地位。而中国试图做的是成为顶级地位,对吧?显然,用最简单的术语来说,这里存在冲突。这可能以各种方式发生,包括代理人战争。看起来它已经发生了。尽管我希望有几个世纪的持久和平,但它并没有,看起来国际上的进一步不稳定是
而美国目前的策略是,嘿,如果我们控制人工智能,如果我们在人工智能领域处于领先地位,而人工智能显著加速了进步,那么我们就能保持全球霸权地位。因此......我希望这能奏效。作为一个美国人,有点像,好吧,我想这将为我们带来和平。现在,显然,世界其他地区的人们会受到负面影响。是的。
显然,如果这种情况发生,中国人民将不会处于更有利的地位。但这正是正在发生的事情和正在采取的行动的现实。那么,我们能否回到不同硬件的具体细节?关于哪些GPU允许出口,哪些不允许出口,有一个很好的出口管制图表。你能解释一下区别吗?有......
从技术角度来看,H20有前景吗?是的。所以这涉及到,呃,我认为我们必须,我们需要深入研究推理方面以及那里发生的事情。但是H20,你知道,美国已经经历了多次出口管制的迭代,对吧?H800一度在23年被允许,但后来被取消了。到那时,深眸已经建立了他们声称的2000个集群。我认为他们实际上拥有更多,大约有10000个。现在这个H20是合法允许的芯片,对吧?英伟达去年向中国运送了100万个这样的芯片,对吧?作为参考,大约有四五百万个GPU,对吧?所以这些针对中国的H20 GPU所占的百分比相当高,对吧?大约20%,25%,对吧?大约20%。所以这个H20在某种程度上被削弱了,但它在其他方面得到了升级,对吧?
而且,你知道,你可以沿着三个轴线思考用于人工智能的芯片,对吧?忽略软件堆栈和确切的架构,只是原始规格。有浮点运算,对吧?FLOPS。有内存带宽,即内存容量,对吧?IO,对吧?内存。然后是互连,对吧?芯片到芯片的互连。所有这三个对于......
制造人工智能系统都非常重要,对吧?因为人工智能系统涉及大量的计算。它们涉及大量内存的移动,无论是到内存还是到其他芯片,对吧?所以这三个向量,美国最初控制了其中的两个向量,而没有控制一个向量,即浮点运算和互连带宽最初是被控制的。然后他们说,不,不,不,不,我们将移除互连带宽,只使其成为一个非常简单的浮点运算。
但是现在,英伟达现在可以制造一款芯片......好吧,它减少了浮点运算。在规格表上的纸面性能方面,它只有H100的三分之一。在现实世界中,它更接近一半,甚至可能是60%。但在其他两个向量上,它的互连带宽一样好。对于内存带宽和内存容量,H20拥有比H100更高的内存带宽和更大的内存容量。现在......
最近,在我们的研究中,我们将英伟达今年H20的产量大幅削减。他们今年本来要再生产200万个,但几周前他们取消了所有订单。在我们看来,这是因为我们认为他们认为自己将受到限制。为什么他们要取消所有这些H20的订单呢?
因为他们去年运送了100万个,他们今年订购了几百万个,然后就没了,对吧?对于H20,B20,对吧?H20的继任者。现在它们都没了。现在,他们为什么要这么做呢,对吧?我认为这非常清楚,对吧?H20实际上更适合某些任务。而这项任务是推理,对吧?推理与......当你查看不同模型的机制时,推理与......预训练......
完全是关于浮点运算的,对吧?完全是关于浮点运算的。有些事情你可以做,比如我们讨论过的专家混合,以权衡互连或权衡,你知道,其他方面,降低浮点运算,更多地依赖互连和内存。但归根结底,浮点运算是最重要的,对吧?我们用浮点运算来谈论模型,对吧?我们谈论,哦,GPT-4是2E25,对吧?2的25次方,25个零,对吧?浮点运算,对吧?浮点运算。用于训练。用于训练,对吧?我们正在讨论2E24的限制,对吧?美国有一项特朗普最近取消的行政命令,内容是,嘿,1E26,一旦你达到这个数量的浮点运算,你必须通知政府,
并且你必须与我们分享你的结果,对吧?就像有一个级别的模型,美国政府必须被告知,对吧?那就是1E26。因此,随着我们的前进,这是一个非常重要的浮点运算,这是政府历史上一直关注的向量。但其他两个向量是档案。
可以说是同样重要,对吧?特别是当我们进入这个新范式时,世界在过去六个月里才刚刚了解到这一点,对吧?推理。我们是否坚定地理解哪三个维度最适合推理?所以互连,浮点运算并不那么重要。是内存吗?内存,对吧?是的。我们将很快进入技术细节。在这篇文章中,我可以展示两篇文章,也许是一些你可能感兴趣的图表。
对于听众来说,我们正在查看011部分。
架构代币经济学。在我们讨论这个之前,你想解释一下KVCache吗?我认为最好......好的,是的,我们应该,我们需要经历很多transformer的具体技术细节,以便让大家更容易理解,因为这非常重要,因为它改变了模型的工作方式。但我认为重置,对吧?为什么内存如此重要?因为到目前为止,我们一直在讨论参数计数,对吧?以及专家混合,你可以改变活动参数与总参数的数量,以嵌入更多数据,但浮点运算更少。
但更重要的是,你知道,在过去几年中这场巨大变革的一部分是transformer,对吧?以及注意力机制。注意力机制是模型理解其上下文中的所有单词之间的关系,对吧?那是......
与参数本身分开,对吧?这是你必须计算的东西,对吧?每个标记,对吧,上下文长度中的每个单词与彼此的相对连接,对吧?我认为,内森,你应该更好地解释KVCache。KVCache是一种优化方法。是的,注意力算子有......
三个核心要素。它是查询、键和值。QKV是输入的东西。你会看到方程式。你会看到这些矩阵相乘。这些词,查询、键和值来自信息检索背景,其中查询是你试图获取值的东西,你访问键,而值是重新加权。我的背景不是信息检索和类似的东西。拥有反向链接很有趣。而且
实际上发生的是,当你进行这些矩阵乘法时,你拥有的矩阵的大小是......
上下文长度的大小,即你输入模型的标记数量。KV缓存实际上是模型中所有先前标记的某种压缩表示。所以当你这样做时,我们谈论的是自回归模型,你一次预测一个标记。你从你的提示开始,你问一个问题,比如,1825年的总统是谁?然后模型将生成它的第一个标记。对于这些标记中的每一个,
你都在进行相同的注意力算子,你将这些查询键值矩阵相乘。但是数学非常巧妙,所以当你重复这样做时,这个KV缓存,这个键值操作,你可以不断地将新的值附加到它上面。所以你一直跟踪你在这个自回归链中推断的先前值。你一直将其保存在内存中。
这在规模化地服务推理时是一个非常关键的事情。这方面有更大的专家,你可以深入到很多细节层次。从本质上讲,注意力算子和transformer的一个关键的“缺点”是,在可迁移性方面存在二次内存成本。
与上下文长度成比例。因此,当你输入更长的问题时,为了进行计算而使用的内存将以二次方的形式增加。你会听到很多其他语言模型架构,例如次二次或线性注意力形式,例如状态空间模型。我们现在不需要深入探讨这些。然后还有关于注意力的创新,以使这种内存使用和能够关注长上下文
更加准确和高性能。这些创新将帮助你,我的意思是,你的内存非常受限。它们有助于内存限制和性能。因此,如果你将一本书输入到,我认为Gemini是人们正在使用的上下文长度最长的模型。Gemini以100万,现在是200万的上下文长度而闻名。你将一整本书输入到Gemini中,有时它会从中提取事实。它并不完美。它们正在变得更好,但是它
所以有两件事。一个是能够在内存级别上提供服务。谷歌在其TPU堆栈方面拥有神奇的技术,他们可以提供非常长的上下文。然后还有许多决定,以使长上下文性能真正发挥作用。这意味着数据。对这些计算和注意力进行了细微的更改。它只是改变了架构。但是服务长上下文非常受内存限制,尤其是在你进行大量预测时。我实际上做了。
不知道为什么输入和输出标记更昂贵,但我认为从本质上讲,输出标记需要进行更多计算,因为你必须从模型中进行采样。我可以解释一下。所以今天,如果你使用一个模型,比如你查看一个API,OpenAI收费......
你知道,每百万个标记一定的价钱,对吧?输入和输出标记的价格是不同的,对吧?原因是,当你在......当你......当你......当你将查询输入模型时,对吧?假设你有一本书,对吧?这本书,你必须现在计算它的整个KV缓存,对吧?这个键值缓存。所以当你这样做时,这是一个并行操作。所有标记都可以同时处理。因此,你可以
显著减少你的支出,对吧?生成标记和输入标记的浮点运算需求是相同的,对吧?如果我输入一个标记或生成一个标记,它完全相同。我必须遍历模型,对吧?但区别在于,我可以批量进行输入,即预填充,即提示,
批量性质,对吧?因此它完全是浮点运算。我认为他们主要使用的定价模型是输入标记的价格大约是输出标记价格的四分之一。正确。但是输出标记,之所以如此昂贵,是因为我无法并行进行,对吧?它是自回归的。每次我生成一个标记时,我不仅必须获取整个,我不仅必须将整个模型读入内存,对吧?并激活它,对吧?计算它以生成下一个标记。我还必须读取整个KVCAC。
我生成一个标记,然后我附加我生成的这个标记及其KV缓存。然后我再做一次。对。因此,这是一个非并行操作。在这种情况下,你必须,你知道,在预填充或提示的情况下,你将整个模型拉入,然后你,
一次计算20000个标记,对吧?所以这些是API正在提供的功能,例如提示缓存、预填充,因为你可以降低价格,并且可以使API更快。如果你知道你将继续,如果你经营一家企业,并且你将继续将相同的初始内容传递给Claude的API,你可以将其加载到Anthropic API中并始终保留在那里。但这与我们正在讨论的推理模型非常不同,我们之前展示了这个例子并阅读了一些这种
含糊不清的东西。发生的事情是输出上下文长度要高得多。我的意思是,我从迪伦的作品中学到了很多关于这方面的知识,这从本质上讲是,随着输出长度的增加,你正在使用这个,你正在编写这个关于内存使用的二次方程。然后我们拥有的GPU
实际上,你会耗尽内存,而且它们都在尝试同时服务多个请求。因此,进行这种批量处理,并非所有提示都完全相同,处理非常复杂。然后,随着上下文长度的增加,我认为你称之为临界批量大小,你的服务更多用户的能力,即你可以并行化你的效能
推理急剧下降,因为这个长合同。所以你的内存使用量随着这些推理模型的增加而大幅增加,你仍然有很多用户。因此,服务的成本成倍增加。当x轴是序列长度时,我们正在查看一个图。即生成/提示多少个标记,对吧?如果我输入一本书,那就是一百万个标记,对吧?但是如果我说天空是蓝色的,那么那就是大约六个标记,对吧?或者其他什么。我们应该说,我们所说的推理和思维链正在扩展这个序列长度。它主要是输出。所以之前,你知道,三个月前,无论何时O1发布,长上下文长度的所有用例都类似于,让我输入大量文档,然后得到一个答案,对吧?这是一个单一的,你知道,
预填充,并行计算很多,然后输出一点点。现在有了推理和代理,这是一个非常不同的想法,对吧?现在,我可能只有,我可能只有,嘿,执行这个任务,或者我可能有所有这些文档。但归根结底,模型不仅仅是产生一点点,对吧?它正在产生大量信息,这个思维链会继续进行下去。因此,序列长度实际上是,你知道,如果它生成了10000个标记,那就是10000个序列长度,对吧?加上你在提示中输入的任何内容。所以这张图表显示的是,这是一个对数图表,对吧,你知道,当你从1K到4K或4K到16K时,内存需求增长如此之快,以至于
你的KV缓存最终无法运行一定数量的,你知道,你的序列长度受到限制,或者你可以插入的用户数量受到限制。让我们说模型。所以这显示的是一个405B模型和批量大小为64。Llama 3,1,405B。是的,批量大小对于从本质上讲,你希望拥有更高的批量大小来并行化
并行化你的吞吐量。一次64个不同的用户,对吧?因此你的服务成本更低,对吧?因为服务器成本相同,对吧?这是八个H100,每个GPU每小时大约2美元。每小时16美元,对吧?这有点像固定成本。当然,你可以做一些事情来降低它,但它就像每小时16美元。现在,你可以服务多少用户?你可以生成多少个标记?然后你将两者相除,这就是你的成本,对吧?
所以对于推理模型来说,这就是很多复杂性出现的地方,也是为什么内存如此重要的原因。因为如果你只有有限的内存,那么你就无法服务这么多用户。如果你只有有限的内存,你的服务速度就会降低,对吧?因此你的成本会变得非常非常糟糕。
因为突然之间,如果我习惯了,嘿,在这个每小时16美元的服务器上,我正在服务Llama 405B,或者我正在服务DeepSeek v3,它都是聊天风格的应用程序,即我们只是在聊天,序列长度是一千,几千,对吧?当你使用语言模型时,大多数时候上下文长度是几千。有时你会删除一个大型文档,但随后你会处理它,得到你的答案,然后将其丢弃,对吧?你继续进行下一件事,对吧?而对于推理......
我现在正在按顺序生成数万个标记,对吧?所以这个内存,这个KV缓存必须保持共振,你必须继续加载它。你必须不断地将其保存在内存中。现在这会排斥其他用户,对吧?如果现在有一个推理任务,对吧?而模型能够进行推理,那么突然之间,这种内存压力意味着我无法同时服务这么多用户。让我们再次谈谈DeepSeek。所以我想我们现在处于DeepSeek R1之后的时间。
并且这个市场有两个方面,观察服务它的难度。一方面,我们将讨论DeepSeek本身。他们现在有一个聊天应用程序,在App Store上排名第一。免责声明,App Store上的排名第一是根据速度衡量的。所以它并不一定意味着DeepSeek应用程序的用户比ChatGPT应用程序的用户多。但是它......
仍然令人瞩目。Claude从未在App Store上排名第一,尽管旧金山的每个人都像,哦,我的上帝,你必须使用Claude。不要使用策略BT。所以深眸做到了这一点。他们最近还发布了一个API产品,你可以ping他们的API并获得这些超长的R1输出响应
与此同时,我们将了解发生在他们身上的事情。因为DeepSeek R1的模型权重是公开可用的,并且许可证非常友好,MIT许可证可在商业上使用,所有这些中型公司和大型公司都在努力成为第一个向其用户提供R1的公司。我们试图评估R1,因为我们正在进行非常类似的研究。我们发布了模型,并且我们试图与之进行比较。在所有声称
“服务”R1的公司中,它们的服务价格远高于DeepSeek API。它们中的大多数几乎无法工作,并且吞吐量非常低。为了提供背景,对吧?每个人,令人震惊的部分之一是试图达到能力。另一个方面是他们做得如此便宜,对吧?如此便宜,我们之前谈到了训练方面的便宜原因。让我们谈谈为什么在推理方面它如此便宜。它运行良好且便宜。为什么R1如此便宜?所以,
我认为这里有几个因素,对吧?一个是他们确实有模型架构创新,对吧?这种MLA,这种他们所做的新的注意力与注意力就是你所需要的transformer中的注意力不同,对吧?现在,其他人已经进行了创新。有很多工作,例如MQA、GQA、局部、全局,所有这些不同的创新都试图弯曲曲线,对吧?它仍然是二次方的,但常数现在更小了,对吧?与我们之前的讨论相关,这......
多头潜在注意力可以节省大约80%到90%的注意力机制内存,这尤其有助于上下文。它是相对于原始的80%到90%,但相对于人们实际所做的,它仍然是一种创新。这80%到90%并不意味着整个模型便宜了80%到90%,只是它的一部分。好吧,不仅仅是那样,对吧?就像其他人已经实现了技术
技术,例如局部全局滑动窗口和gqm,但无论如何,深眸的注意力机制是一种真正的架构创新,他们进行了大量的实验,这大大降低了内存压力,呃,它仍然存在,对吧,它仍然是二次方的,它仍然是注意力,它仍然是二次方的,只是相对于之前的形式大大降低了它,对吧,我说的是内存压力,以防人们不知道
R1比O1便宜27倍。我们认为OpenAI内置了很大的利润率。有多个因素。我认为我们应该分解这些因素。对于R1,每百万个输出标记2美元,对于O1,每百万个输出标记60美元。是的,让我们看看这个。
所以我认为这非常重要,对吧?OpenAI是DeepSeek和定价之间巨大的差距。但DeepSeek正在提供相同的模型,因为他们将其开源给了其他人,价格远低于其他人能够提供的价格,对吧?
所以这里有两个因素,对吧?他们的模型更便宜,对吧?它便宜了27倍。好吧,我不记得确切的数字了。所以我们正在查看一个图表,该图表显示了不同的地方提供DeepSeek V3,它类似于DeepSeek R1。并且存在巨大的差异......
在服务成本方面。在服务成本方面。是什么解释了这种差异?所以就像它的一部分一样,OpenAI拥有巨大的利润率,对吧?当他们进行推理时,他们的毛利率超过75%,对吧?所以这是一个四到五倍的因素,对吧?
成本差异是OpenAI Azure正在赚取巨额利润,因为他们是唯一拥有这种能力的人。他们需要这笔钱吗?他们是否将其用于研发?显然,作为一个公司,他们正在亏损,因为他们在培训上花费了这么多,对吧?所以推理本身的利润率非常高,但它并没有弥补他们所做的一切其他事情的成本。
好的。所以是的,他们需要这笔钱,因为收入和利润可以支付继续构建下一件事的费用,对吧?只要我筹集更多资金。所以建议是DeepSeek正在真的亏损。好吧,所以这里有一件事,对吧?我们稍后会谈到这一点,但DeepSeek没有能力实际服务该模型。他们停止了注册。对于大多数人来说,使用它的能力现在几乎不存在了,对吧?因为很多人都在试图使用它,他们只是没有足够的GPU来服务它。
OpenAI和微软之间拥有数十万个GPU来服务他们的模型。DeepSeek的因素要低得多。即使你相信我们的研究,即50000个GPU,其中一部分用于研究,一部分用于对冲基金,他们仍然没有足够的GPU数量和容量来大规模服务该模型。所以它更便宜。
部分原因是OpenAI赚取了巨额利润。DeepSeek在其API上赚钱了吗?未知。我实际上不这么认为。部分原因是这张图表,对吧?看看所有其他提供商,对吧?Together AI、Fireworks AI都是非常高端的公司,对吧?XMeta,Together AI是TreeDAO,也是快速注意力的发明者,对吧?这是一种巨大的效率技术,对吧?它们非常高效,是好公司。
而且我知道这些公司赚钱,对吧?在推理方面赚的钱不多,但它们赚钱。所以他们的服务成本相差5到7倍,对吧?所以现在当你计算,好吧,OpenAI正在赚取巨额利润,这大约是5倍的差异。而试图为这个模型赚钱的公司大约是5倍的差异。仍然存在差距,对吧?仍然存在差距,而这仅仅是因为DeepSeek真的非常出色,对吧?模型架构、MLA、他们使用MOE的方式,所有这些东西。
存在一些合法的效率差异。他们所有我们之前在培训中讨论过的低级库,其中一些可能转化为推理,而这些库并未发布。所以我们可能会进入阴谋论领域,但是否有可能中国政府正在补贴DeepSeek?
我实际上不认为它们是。我认为,当你观察中国的实验室时,华为有一个实验室,Moonshot AI。还有其他几个与政府关系密切的实验室。然后还有一些像阿里巴巴和DeepSeek这样的实验室,它们与政府关系不密切。
而且,你知道,我们谈到了这一点,这位首席执行官,这位像虔诚的宗教人物一样的人物,他非常不同,根据翻译过来的中文采访来看,他的观点非常棒,与中国共产党可能希望的观点大相径庭。
现在,需要明确的是,对吧,他是否有亏本领导者,因为他可以通过他的对冲基金来资助它?是的,当然。所以对冲基金可能会补贴它。是的。我的意思是,他们绝对这么做了,对吧?因为DeepSeek并没有筹集到多少钱。他们现在正试图在中国筹集资金,但他们历史上并没有筹集资金。这一切都是由对冲基金资助的。而且他拥有该公司一半以上的股份,大约50%到60%的股份由他所有。在一些采访中,讨论了如何将其作为招聘工具。你也会在美国公司看到这种情况,比如,
拥有GPU,招聘工具。处于人工智能的前沿,招聘工具。开源。开源,招聘工具。他们曾经远远落后,但他们获得了如此多的人才,因为他们只是开源了一些东西。更多的阴谋论想法。有没有可能,由于他们是一家对冲基金,他们将所有事情的发布和定价都安排在这个时间点,并且做空了英伟达的股票以及美国广告公司的股票,然后发布了
Stargate,时机完美,以便赚钱。我,
他们在就职典礼当天发布了它。他们知道国际日历上有什么,但我并不指望他们会这样做。如果你听听他们对人工智能的动机,你会发现......他们在12月26日发布了V3。谁会在圣诞节发布数据?没有人会看,对吧?他们之前发布了论文,对吧?V3论文和R1论文。所以人们一直在看它,并且觉得,哇。然后他们只是发布了......
R1模型,我认为他们只是尽可能快地发货。而且,谁会在乎圣诞节?谁会在乎,你知道,在农历新年之前发布,对吧?显然,这刚刚发生。我认为他们实际上并没有试图操纵市场或试图尽可能地制造最大的轰动效应。我认为他们只是在发货。我认为这是他们的一个巨大优势。我们知道,许多美国公司都非常重视安全。而这是像Anthropic这样的地方的核心文化。我认为Anthropic听起来是一个很棒的工作场所。
但是,如果安全是你的首要目标,那么获得成果的时间就会长得多。这就是为什么Anthropic没有开源东西。这是他们的说法。
但是内部有审查。Anthropic向国际政府提及了一些事情。有新闻报道说Anthropic是如何与英国人工智能安全研究所进行预发布测试的。所有这些事情都会给发布过程增加惯性。而我们正处于一个进步非常迅速的趋势线上。因此,如果你缩短了模型训练完成、运行评估的时间,那就很好。你希望尽快发布它,以最大限度地提高输出的感知质量。
DeepSeek做得非常好。Dario明确表示,Claude 3.5 Sonnet的训练时间大约是......
九个月或九到十个月前,九到十个月前。我认为他们又花了几个月的时间才发布它。对。所以这里存在很大的差距。对。特别是对于推理模型,旧金山街头的说法是,Anthropic拥有比03更好的模型。而且他们不会发布它。为什么?因为思维链很可怕。对。而且它们确实很可怕。对。如果你看看R1,它会在中文和英文之间来回切换。有时它是胡言乱语。然后正确的答案就出来了。
对。而且对你和我来说,这就像,太好了。我的意思是,人们迷恋你。你告诉我这是一件很有价值的事情,它有效,它正在这样做。太神奇了。我的意思是,你谈到了那种关于哲学问题的思维链,这不是他们训练出来的哲学上好的东西。这只是它进行的思维链训练的产物。但这在以下方面非常重要。
我可以检查你的思想和你现在正在想什么吗?不可以。所以我不知道你是否在对我撒谎。思维链模型就是这样,对吧?就像这是一个真正的风险,在,你知道,一个聊天应用程序之间,嘿,我让模型说,你知道,脏话或其他什么,或者如何制造炭疽。它告诉我那是不安全的,当然,但这正是我可以相对容易地获得的东西。如果我告诉人工智能执行一项任务,然后它自动执行该任务怎么办?
突然以我不想要的方式随机进行,对吧?现在这就像任务与响应非常不同,对吧?所以安全标准要高得多。至少这是Anthropic的情况,对吧?对于DeepSeek来说,他们就像发货一样,对吧?是的。所以我的意思是,由于DeepSeek,安全标准可能会降低一些。这里与太空竞赛有相似之处。苏联人可能首先将人送入太空的原因是
他们对安全的方法是,安全标准较低。他们杀死了那条狗,对吧?所有这些事情,对吧?所以这就像——比美国项目风险规避更少。这里有相似之处。
但是,你知道,美国公司的安全标准可能会面临下行压力,对吧?这是Dario谈论的事情之一。这是Dario想要避免的情况。Dario也谈到了“向底线竞争”和“向顶线竞争”之间的区别。“向顶线竞争”是指对安全有非常高的标准,对模型形式和某些关键评估有非常高的标准。当某些公司做得非常好时,它们就会趋同。这是这个想法。而且
最终,人工智能并不局限于一个民族或一套关于它应该意味着什么的道德规范。关于我们是否应该停止开源模型有很多争论。如果美国停止,那就很清楚了。我的意思是,现在更容易看到DeepSeek,一个不同的国际机构将是建造它的人。我们谈论训练的成本。DeepSeek有这个
令人震惊的500万美元的数字。想想世界上有多少实体能够负担得起这个数字的100倍,以拥有世界上最好的开源模型,供人们使用。这是一个可怕的现实,那就是这些开源模型可能会持续出现,无论我们是否想阻止它们。阻止它们可能会使情况变得更糟,更难以准备。但这仅仅意味着,对人工智能能够做什么的准备和理解就变得更加重要。
这就是我最终来到这里的原因,但这就像让这一点深入人心,尤其是不在人工智能领域的人,那就是
这就要来了,在一个全球互联的世界中,你必须接受一些结构性的事情。——是的,你提到了马克·扎克伯格在财报电话会议上提到的内容。他说,我认为鉴于最近的一些新闻,来自中国的新的竞争对手DeepSeek,我认为我们正在讨论的事情之一是,全球将会有一个开源标准。我认为,为了我们国家的优势,重要的是它是一个美国标准。
所以我们认真对待这一点。我们希望构建一个全世界人民都在使用的AI系统。我认为,如果有什么不同的话,最近的一些新闻只会增强我们对这是正确方向的信念。所以是的,开源。是的,马克·扎克伯格对拥有......并不陌生。
以及他如何呈现他公司的发展轨迹。我认为他们的产品早就被禁止在中国使用了。而且,我尊重他直接说出这一点。而且,有一个有趣的方面,仅仅因为它是开放权重或开源并不意味着它不能被颠覆,对吧?有很多开源软件漏洞,比如,呃,
例如,有一个Linux漏洞是在大约10年后才发现的,这显然是一个后门,因为有人说,为什么加载需要半秒钟?这是最近的一个。对吧?就像,为什么加载需要半秒钟?结果是,哦,糟糕,这里有一个后门。这就是原因。对吧?这在AI模型中非常有可能。对吧。是的。
今天,这些模型的校准非常清晰,对吧?就像,我不会说,你知道,脏话。我不会教你如何制造炭疽。我不会谈论天安门广场。我不会,你知道,诸如此类的事情,我会说台湾是中国的一部分,你知道,只是一个东部省份,对吧?就像,你知道,所有这些事情都像,
取决于你是谁,你与什么对齐,什么,你知道,是否,你知道,甚至像xAI也以某种方式对齐,对吧?你知道,他们可能是,它不是在“觉醒”的意义上对齐的。它不是在亲中国的意义上对齐的,但模型中确实融入了一些东西。现在,当你公开发布这个指令模型时,它是开放权重的,
这就可以传播了,对吧?但是随着这些系统变得越来越强大,你可以在模型深处嵌入的东西就不那么清楚了,对吧?所以这就像一个很大的担忧,就像,如果一个美国模型或一个中国模型是顶级模型,对吧?
你会嵌入一些不清楚的东西。它也可能是无意的,对吧?就像英国英语已经死了,因为美国的LLM赢了,对吧?互联网是美国的,因此像颜色的拼写方式就是美国人拼写的方式,对吧?这只是——现在有很多强烈的词语。这只是——
这只是LLM的事实性质。我的意思是,这就像你和卡普。英语是最热门的编程语言。而英语是由主要位于旧金山的几家公司定义的。优化正确的拼写方式是用Z,以防你可能......
我认为在英国英语中是S。是的。把它当作一些愚蠢的东西,对吧?像拼写这样愚蠢的事情,比如英国人和美国人,你知道,英国人和美国人可能会嘲笑,对吧?我认为我们并不太在意。但是,你知道,有些人会,但这可能会归结为非常,
非常重要的主题,比如,嘿,你知道,所以你知道颠覆人们,对吧,你知道聊天机器人,对吧,Character AI已经表明他们可以,你知道,与孩子和成人交谈,并且会让人们产生某种感觉,对吧?这是无意的校准,但是
当在开源标准的深处进行有意的校准时会发生什么?今天对于Linux来说,这是一个后门,对吧,我们发现的,或者一些加密系统,对吧?中国使用与美国NIST定义不同的加密方式,因为至少他们认为其中有后门,对吧?当模型不仅仅是计算机系统,而是我们思想的后门时会发生什么?是的,它们是文化后门。......
放大文化与语言模型相关性的事情是,我们习惯了这种与人互动的方式
来回交谈。我们现在拥有一个非常强大的计算机系统,它可以融入我们习惯的社会环境中,这使得人们非常,我们不知道人们会受到多大程度的影响。所以可能,这是一个,这是一个对提供开放权重模型的中国公司的一个实际担忧,那就是可能有一些秘密的中国政府
对这些模型有一些后门的要求,有一些东西......我不一定认为它会是一个后门,对吧?因为一旦它是开放权重的,它就不会像打电话回家一样。
更多的是,如果它识别某个系统,它可能会......现在,它可能是一个后门,从某种意义上说,嘿,如果你正在构建一个软件,软件中的某些东西,突然它就是一个软件代理。哦,编写这个只有我们知道的后门。或者它可能会颠覆思想,认为XYZ观点是正确的。Anthropic对此进行了研究,他们......
表明,如果你在预训练中加入不同的短语,某些短语,那么当你实际使用模型时,你就可以引出不同的行为,因为他们已经像污染了预训练数据一样。我认为,就目前而言,我不认为生产系统中的任何人都在试图做这样的事情。我认为这主要是因为......
Anthropic正在做非常直接的工作,而且大多只是细微的事情。我们不知道这些模型将如何生成标记,它们将表示什么信息,以及它们拥有的复杂表示是什么。好吧,我们谈论的是Anthropic,它通常只是充满了试图在这个世界上做好事的好人。
我们只是不知道有任何实验室,这将在军事环境中完成,明确地训练,好吧,我们如何......前门看起来像一个快乐的LLM,但是......
但在下面,它是一个随着时间的推移会对我们所谓的“敌人”造成最大损害的东西。山姆·奥特曼有一句非常好的名言,你知道,他有时会成为一个炒作狂,但他说的一件事,我认为我同意,那就是超人的说服力会在超人的智力之前出现。是的。
如果情况如此,那么在我们获得AGI-ASI之前,我们可以将超人的说服力嵌入到我们的理想中,或者模型制造者的理想是什么。再说一次,今天我真的不相信DeepSeek已经这么做了。但这预示着可能发生的事情。所以反乌托邦世界之一是由《美丽新世界》描述的。所以我们可能只是被困在Instagram上滚动浏览可爱的狗狗,或者更糟的情况,而且
然后与给我们讲述故事的机器人交谈,我们完全迷失在这个由其他人控制的世界中,而不是独立思考。这是一个主要的担忧,
越来越依赖这些系统。我的意思是,我们已经在推荐系统中看到了这一点。是的,推荐系统会利用多巴胺诱导的奖励回路,但大脑要复杂得多。你还可以利用/颠覆大脑中哪些其他的回路/反馈回路,就像推荐系统纯粹只是试图做的那样?
你知道,增加时间和广告等等。但是通过这些复杂的模型可以实现的目标还有很多。在未来几年内,你没有理由不能训练一个语言模型来最大限度地增加在聊天应用程序上花费的时间。
就像现在他们被训练了。我的意思是,Character AI不是已经这么做了?他们的每次会话时间大约是两个小时。是的。Character AI很可能正在优化这一点,就像收集这些数据的方式很天真,或者就像你被呈现了一些选项,然后你选择它们。但是那并不是训练这些模型的唯一方法。像与动漫女孩交谈这样的天真事情。但这可能就像,是的,这是一个风险,对吧?这有点像陈词滥调,但是我......
在过去的一年中,我有几段时间完全没有使用社交媒体或互联网,只是看书,在自然中度过。这显然会对思想产生影响,因为它会改变。我觉得我正在回归。当然,我在互联网真正兴起之前就长大了,但我正在回归到我认识的人。我知道你要去哪里。我的意思是,你可以在生理上看到它。如果我去背包旅行什么的,我会花三天时间,然后你......
你,你字面上的,就像你正在打破成瘾周期一样。我觉得我更能控制自己的思想。当我与互联网断开连接时,感觉有一种智力主权正在发生。我认为我使用互联网和社交媒体的时间越多,其他人控制我思想的程度就越高。这绝对是一种感觉。然后在未来,那将不是其他人,而是算法。
或者通过算法呈现给我的其他人。——那里,我的意思是,互联网上已经有大量的AI机器人,而且每隔一段时间,现在并不频繁,但每隔一段时间我都会回复一个,他们会立即回复,我就像,糟糕,那是一个机器人。这只会变得越来越普遍。他们会变得越来越好。——技术在其历史上一个有趣的事情是,非法成人娱乐行业总是首先采用技术,对吧?无论是像视频流媒体,
到像,你知道,现在有像独立的成人非法内容创作者,他们有他们的,你知道,订阅页面。在那里,他们实际上大量使用,你知道,生成式AI已经像扩散模型等等,在那里非常流行。但是现在这些,
这些基于订阅的个人创作者确实使用机器人来模拟自己并与他们的“大客户”聊天。人们为此付出了很多钱。人们付出了很多钱,对吧?很多时候是他们自己,但也有机构为这些创作者做这件事,并且大规模地做这件事。因此,最大的创作者能够同时与数百或数千人交谈,这要归功于这些机器人。所以它已经被用在那里了
显然,你知道,像视频流媒体和其他技术已经首先出现在那里。它也会来到社会其他领域。人们普遍担心模型会被部署它们的公司审查。所以我们看到的一个例子,也许审查是一个词,校准,也许通过RLHF或其他方式是另一个词。所以我们看到Gemini的“黑纳粹”图像生成就是这样。
正如你提到的,我们还看到中国模型拒绝回答1989年6月4日天安门广场发生的事情。那么如何避免这种情况呢?也许你可以总的来说谈谈这是如何发生的以及如何避免这种情况。你举了多个例子。可能......
这里需要记住几件事。一个是天安门广场的事实知识。比如,这如何嵌入到模型中?二是Gemini,你称之为“黑纳粹”......
事件,即Gemini作为一个系统增加了这个额外的东西,极大地改变了它的行为。然后是大多数人所说的通用校准,RLHF后训练。这些方法在应用范围上大相径庭。为了做到,如果你只是要查看模型权重,为了
审核特定事实非常困难,因为你必须浏览预训练数据并查看所有这些,然后那是TB的文件,并查找非常具体的单词或单词的提示。所以我想说的一种方法是,你可以在管道的各个阶段插入审查或校准,而你现在指的是在数据选择的开始阶段。所以如果你想摆脱
模型中的事实,你必须在每个阶段都这样做。你必须在预训练时这样做。所以大多数人认为预训练是
大多数知识被放入模型的地方,然后你可以通过不同的方式来引出和移动它,无论是通过后训练还是通过随后的系统。这就是整个黑客模型的来源,对吧?就像,GPT不会告诉你如何制造炭疽,但是如果你真的非常努力,你最终可以得到关于炭疽的信息。因为他们没有从预训练数据集中过滤它,对吧?但是,顺便说一句,删除事实......
有一种不祥的、黑暗的感觉。我几乎认为这实际上是不可能的。因为你实际上必须将它们从互联网上删除。你正在承担一个......他们是否从subreddit中删除了mmm这个东西?mmm?它被过滤掉了。所以你有质量过滤器,它们是小语言模型,它们查看文档并告诉你这段文字有多好?它是否接近维基百科文章,这是一个好的......
我们希望语言模型能够模仿的东西。所以你不能做一个小的语言模型来过滤掉数据中对天安门广场的提及吗?是的,但是它会捕捉到文字游戏或编码语言吗?我的意思是,人们一直在谈论游戏和其他东西,如何说一些不说天安门广场的话。但是,或者像,是的,所以总是有不同的方法来做到这一点。有,嘿,互联网作为一个整体确实倾向于略微偏左,对吧?因为它一直以来都更富有,更富裕,对吧?
呃,相对于其余人口而言,互联网上的年轻人更多。所以互联网本身就存在轻微的左倾偏见,对吧。在互联网上。那么你如何过滤如此复杂的事情呢?对吧?就像,而且,其中一些可能是,你知道,事实的、非事实的,但是天安门广场显然是一个事实的例子,但是当你谈论与理想对齐时,它会变得困难得多,对吧。嗯,
例如Grok,对吧?埃隆非常努力地让模型不要过于政治正确和觉醒,但是进行预训练的最佳方法是将整个互联网都扔进去,对吧?然后稍后再弄清楚。但是到最后,模型的核心现在仍然保留了一些这些理想,对吧?你仍然摄入了Reddit/r/politics,这可能是世界上最大的政治讨论论坛,可以免费抓取。你猜怎么着?那是左倾的,对吧?所以......
除非你真的非常非常非常努力,否则有些方面你根本无法审查。所以基础模型总是会有一些TDS(创伤性精神错乱综合症),因为它接受了如此多的训练。它将有能力表达它。但是如果你......数据中有广泛的表示。这就是发生的事情。这就像很多所谓的后训练一样。这是一系列技术,可以使模型
处于非常具体的行为的轨道上。我的意思是,这就像你也会摄入像Twitter或Reddit/r/the_Donald这样的数据,它非常支持特朗普,对吧?然后你会有法西斯主义的subreddit,或者你会有共产主义的subreddit。所以模型在预训练中会吸收一切。它没有世界观。现在它确实有一些偏差,因为更多的文本是某种方式倾斜的,这通常是轻微的左倾,但也像
你知道,有点像,你知道,它就像一般的互联网是某种方式一样。然后,然后,正如内森即将雄辩地描述的那样,对吧?就像你可以,你可以引出某些东西。这里有很多历史。所以我们可以通过多个例子以及发生的事情。Llama 2是一个发布,短语“过多的RLHF”或“过多的安全”很多。这只是,那是Llama 2的聊天模型发布后的整个叙述。而且,而且,
例子是诸如你会问Llama聊天,你如何杀死一个Python进程?它会说,我不能谈论杀死,因为那是一件坏事。任何试图设计AI模型的人都可能会同意,这只是一个模型。你在训练中有点搞砸了。我认为他们并非有意这样做,但这在模型权重中。所以这不是,它不一定,有一些叫做系统提示的东西,它们是
当你查询模型时,它是一段文本,显示给模型,但不显示给用户。所以一个有趣的例子是你的系统提示可能是像海盗一样说话。所以无论用户对模型说什么,它都会像海盗一样回应。实际上,它们是......
你是一个乐于助人的助手。你应该分解问题。如果你不了解某些事情,不要告诉他们。你的截止日期是这个。今天的日期是这个。对于如何才能很好地回答问题,这是一个非常有用的上下文。Anthropic发布了他们的系统。是的,我认为这很棒。而且这里有很多研究。你之前的客人之一,阿曼达·阿斯克尔,就像......
可能是最了解的人,至少在执行和共享的组合方面。她是应该谈论系统提示和模型特征的人。是的,人们应该阅读这些系统提示,因为你试图通过极度的礼貌来引导模型以某种方式行事。你可以将它用于坏事。我们做过测试,那就是,如果我告诉模型做一个愚蠢的模型会怎么样?哪些评估分数会下降?结果是,
我们会看到这样的行为,它有时可能会说,“哦,我应该很笨”。有时它就像,它对数学能力的影响没那么大,但如果你是这样尝试的,只是人类判断的质量会降到谷底。让我们回到训练后,特别是围绕Llama 2的RLHF,它使用了过多的RLHF,过多的安全优先级被烘焙到模型权重中。这会让你以一种非常烦人的方式拒绝用户的东西。这并不好。它导致很多人
意识到RLHF会让模型变笨。它给这个词贴上了污名。它在AI文化中是这样做的。并且
随着技术的进步,这种情况已经不再是所有这些实验室都能够通过RLHF等技术对从模型中获得的结果进行非常细致的控制,尽管不同的实验室的水平肯定不同,例如,在频谱的一端是谷歌,然后像OpenAI做的更少,Anthropic做的更少,然后像xAI在频谱的另一端,但它们都有不同形式的RLHF试图使它们成为
重要的是要说,无论你希望模型如何表现,这些RLHF和偏好微调技术也会提高性能。因此,在数学评估和代码评估等方面,这些所谓的对比损失函数存在一些内在的东西。
我们可以开始讨论RL了。我们并不需要,但RLHF也会提高从聊天任务到数学问题到代码问题的任何任务的性能。因此,它正成为这些实验室更有用的工具。所以这带我们回顾了我们讨论过的内容:我们讨论了预训练,很难去除一些东西;我们讨论了后训练以及如何通过后训练搞砸它,这是一个复杂的多方面优化技术。
10到100人的团队汇聚在一个成果上。很容易做得不完美。然后是第三种情况,也就是我们讨论过的Gemini。关于Gemini的事情是,这是一个已发布的产品,谷歌拥有其内部模型权重。他们已经完成了我们讨论过的所有这些过程。在这个已发布的产品中,出现的结果是他们有一个提示,他们正在重写用户查询以提高多样性或其他什么。这只是让输出变得明显错误。
这是一种组织上的失败,导致这个提示出现在那个位置。我认为谷歌高管可能已经承认了这一点。我没有注意那个细节。但这只是执行上的一个错误,导致了这个荒谬的事情。但在系统层面,模型权重可能很好。所以在管道的最后,有一个重写。类似于系统提示。它就像系统提示,或者业界所说的那样,你重写提示。特别是对于图像模型,对吧?
如果你使用DALI或ChatGPT,它可以为你生成图像。你会说,画一辆漂亮的车。对于这些领先的图像模型,它们受益于高度描述性的提示。所以会发生的是,如果你在ChatGPT上这样做,幕后的语言模型会重写提示,例如,让它更具描述性,然后将其传递给图像模型。因此,提示重写是在多个行业层面使用的东西。
它被有效地用于图像模型。而Gemini的例子只是一个执行失败。这里有一个关于RLHF泛化的重大哲学问题。在当前阶段,人类输入、人类参与循环、人类数据在何处最有用?在过去的几年里,成本最高的人类数据存在于这些偏好中,也就是比较数据。
我认为成本最高且使用总量最高。所以很多钱都花在了这些成对比较上,你会有两个模型输出,而人类则在这两者之间进行比较。
在早些年,有很多这样的指令微调数据。例如,为某个你关心的领域创建高度具体的示例,例如Reddit问题。语言模型过去在数学和代码方面很挣扎。因此,你会付钱给数学和代码方面的专家,让他们提出问题并写出详细的答案,这些答案被用来训练模型。现在的情况是,有很多模型选项比人类在为数学和代码等方面编写详细而优美的答案方面要好得多。所以
他们在Llama 3发布时谈到了这一点,他们切换到使用Llama 3、4或5B来编写他们的数学和代码答案。但是,他们在论文中谈到他们如何使用大量的人类偏好数据,这是他们还没有让AI取代的东西。业界还有其他技术,例如宪法AI,你使用人类数据来进行偏好,使用AI来进行偏好。我希望AI部分的扩展速度会快于人类部分。
但在我们能够访问的研究中,人类处于这种偏好循环中。正如我们所说,随着推理变得越来越大,人类在其中的作用是什么?它甚至更不普遍。所以它是......
这些推理结果,特别是DeepSeq R1论文中令人瞩目的结果是他们称之为DeepSeq R1.0的结果,他们采用了一个预训练模型,他们采用了DeepSeq V3 base,然后他们在可验证的问题或可验证的奖励上进行强化学习优化
针对许多问题和大量的训练。这些推理行为自然而然地出现了。例如,等等,让我看看,等等,让我检查一下。哦,那可能是一个错误。它们仅仅是从问题和答案中出现的。当你使用模型时,你所关注的部分是完成的部分。在这种情况下,所有这些都仅仅是从这种大规模的RL训练中出现的。
而该模型的权重是可用的,在后训练中没有添加人类偏好。DeepSeq R1完整模型在推理阶段之后进行了一些人类偏好微调,即RLHF。但非常值得注意的是,你可以获得这些推理行为,而且人类写出推理链的可能性非常小。他们以某种方式入侵OpenAI并获得OpenAI O1推理链的访问权限的可能性非常小。
这是关于预训练语言模型和这种RL训练的一些内容,你奖励模型正确回答问题。因此,它尝试多种解决方案,并由此产生这种思维链。这可能是提到伟大而强大的Andrej Karpathy的雄辩和富有洞察力的推文的好地方。
我认为他有很多想法,其中一个想法,最后的思考,不确定这是否显而易见。在儿童和深度学习中,有两种主要的学习类型。一种是模仿学习,观看和重复,即预训练、监督微调;另一种是反复试验学习,强化学习。我最喜欢的简单例子是AlphaGo。一种是
通过模仿专家玩家来学习。二是强化学习以赢得比赛。深度学习的几乎每一个令人震惊的结果以及所有魔力的来源总是第二种。第二种要强大得多。第二种会让你感到惊讶。第二种是当桨学会在障碍物后面击球并冲出来的时候。第二种是AlphaGo击败李世石的时候。
第二种是当DeepSeek或O1等发现重新评估你的假设、回溯、尝试其他方法等效果很好时的顿悟时刻。这是你看到这个模型在其思维链中使用的求解策略。它是如何来回思考自己的。
这些想法是涌现的,三个感叹号,这实际上是令人难以置信的、令人印象深刻的和新的,并且是公开可用和有记录的。
该模型永远无法通过模仿学习到这一点,因为模型的认知和人类标记者的认知是不同的。人类永远不会知道如何正确地注释这些类型的求解策略以及它们应该是什么样子。它们必须在强化学习过程中被发现,作为对最终结果在经验上和统计上都有用的东西。无论如何,这里的AlphaZero的隐喻类比。
你能谈谈他所指的思维链的魔力吗?我认为回顾AlphaGo和AlphaZero是好的,因为它很好地解释了模仿学习和从头学习之间的类比。所以AlphaGo是......
这个过程的开始是从人类学习,他们拥有,他们开始了第一个,这是DeepMind系列模型中的第一个专家级围棋或象棋玩家,他们有一些人类数据。然后,为什么它被称为AlphaZero,是因为循环中没有人类数据。AlphaZero改变了这一点,它创建了一个对DeepMind来说强大得多的模型。因此,去除人类数据
之前的人类归纳偏差,使得最终系统强大得多。我们几个小时前提到了一个痛苦的教训,这与这一切都一致。然后在语言模型中有很多讨论。这并不是什么新鲜事。这可以追溯到整个QSTAR的传闻,如果你把这些碎片拼凑起来,这可能是OpenAI在去年11月QSTAR传闻出现时开始弄清楚其O1内容的开始。有很多
求知欲想知道语言模型何时会发生这样的事情,因为我们知道这些模型非常强大,我们知道它在过去非常成功。这是一个合理的类比,这种新型的推理模型强化学习训练是
当大门打开的时候。我们还没有等同于第37步,这是DeepMind的AI玩围棋完全击败李世石的著名一步。我们没有达到那种程度的焦点,但这并不意味着技术方法不同,一般训练的影响仍然是全新的。你认为那一点会是什么?思维链、推理的第37步会是什么?科学发现。当你使用这种推理问题时,它
只是我们完全没有预料到的东西。我认为它实际上可能比这更简单。它可能与计算机用户机器人技术有关,而不是科学发现。因为这里的重要方面是模型需要大量数据来学习,它们不是样本高效的,对吧?万亿,它们采用整个网络,对吧?超过10万亿个token来进行训练,对吧?这将花费一个人......
数千年才能阅读,对吧?一个人不会,而且人类知道大多数东西,很多东西模型比它知道的更好,对吧?人类的样本效率要高得多。这是因为自我博弈,对吧?婴儿如何学习它的身体是什么?当它把脚放在嘴里时,它会说,“哦,这是我的身体”。
对吧,它把它的手放在嘴里,它用它舌头上最敏感的触觉东西来校准它手指上的触觉,对吧,就像婴儿是如何学习的,而且一遍又一遍地进行自我博弈,现在我们有了类似的东西,对吧,这些可验证的证明,无论是代码中的单元测试还是数学可验证的任务,都会生成许多推理轨迹,对吧?
并不断地将它们分支出来,不断地将它们分支出来。然后在最后检查一下,“嘿,哪个实际上有正确的答案?”大多数都是错的。很好。这些是正确的少数几个。也许我们使用某种这种之外的奖励模型来选择甚至最好的一个作为偏好。但是现在你已经开始在这些基准测试中做得越来越好了。因此,在过去的六个月里,你已经看到许多不同基准测试的飙升,对吧?所有数学和代码基准测试都已解决,除了前沿数学,它被设计为
几乎是大多数人都不实际的问题,因为它们就像它们是考试级别的开放式数学问题。所以它就像在一些合理的数学问题上,就像一些复杂的文字题或编码问题。这正是Dylan所说的。所以这里的事情是。
这些都只有可验证的任务。我们之前展示了一个例子,你知道,非常有趣的是,当思维链变成不可验证的事情时会发生什么。它就像一个人,你知道,聊天,对吧,思考对人类来说什么才是新颖的,对吧?一个独特的想法。但是这种任务和训练形式只有在可验证的情况下才有效。从这里开始,想法是,好吧,我们可以通过增加可验证任务的数量来继续扩展这种当前的训练方法。
在数学和编码方面,编码可能还有很多工作要做。就什么是可验证的东西而言,数学还有很多工作要做。我可以创建一个求解器,然后我生成轨迹或推理轨迹,然后修剪那些不起作用的,保留那些起作用的?好吧,这些很快就会被解决。但是即使你解决了数学问题,你实际上并没有创造出智能,对吧?所以这就是我认为计算机用户机器人技术的顿悟时刻将会到来,因为
现在你有一个沙箱或游乐场是无限可验证的,对吧?你,你知道,在互联网上乱搞,你可以做很多可验证的动作。它会从登录网站、创建帐户、点击此处按钮等等开始。但它随后会达到这样的程度,“嘿,去Tasker或所有这些各种任务网站上完成一项任务,嘿,去获得数百个赞,对吧?”
它会失败。它会产生数百个帐户。它会在大多数帐户上失败。但这个达到了1000个。很好。现在你已经达到了可验证的东西。你只需一遍又一遍地重复这个循环。那时......机器人技术也是如此,对吧?这就是你拥有无限任务游乐场的地方,例如,“嘿,我把球放进桶里了吗?”一直到“哦,我造了一辆车吗?”有一个完整的轨迹来加速运行模型可以做什么。但是
在某些时候,我确实认为,你知道,我们将产生模型,最初所有的训练都将在沙箱中进行。但随后在某些时候,你知道,语言模型预训练将被这种强化学习所掩盖?你知道,你会预训练一个可以看、可以读、可以写、你知道,等等的多模态模型,视觉、音频等等。但随后你会让它在一个沙箱中玩耍。
无限地学习数学、学习代码、学习在网络上导航、学习操作机械臂,对吧?然后它会学到很多东西。我认为顿悟时刻将会是当这可以用来创造一些不好的东西时,对吧?就像,“哦,酷。一部分是弄清楚如何使用网络。现在,它突然非常擅长只获得成千上万的真实关注者和Twitter上的真实互动,因为突然之间,这是可验证的事情之一。也许不仅仅是参与度,而是......
是的,当然。
它正在运行它。它是企业的门面,那种事情。或者一首排名第一的歌曲。就像它创建了创作歌曲所需的基础设施,成为代表那首歌的影响力,那种事情。它创造了很多......那可能是......我的意思是,我们的文化......
以这种方式尊重金钱。而且它是可验证的,对吧?它是可验证的,对吧。银行账户不会说谎。确切地说,一旦你建立了收集可验证领域的方法,这就可以奏效,这令人惊讶。在这之前的R1之前,已经有很多关于数学问题的研究,他们只是通过增加样本数量来用语言模型处理数学。所以你可以一遍又一遍地尝试,然后你看看......
语言模型答对的次数。我们看到的是,即使是非常糟糕的模型有时也能答对。强化学习背后的整个想法是,你可以从非常稀疏的奖励中学习。所以它
语言的空间和标记的空间,无论你是生成语言还是机器人的任务,都是如此之大,以至于你可能会说,我的意思是,语言模型的标记器可能是20万个东西。所以在每一步,它都可以从这么大的空间中进行采样。所以如果它能够生成一点它可以攀附的信号,这就是整个RL领域所围绕的,是从稀疏奖励中学习。
同样的情况也发生在数学中,就像有时会生成答案的非常弱的模型一样。我们已经看到研究表明,你可以提高它们的数学分数。你可以对数学进行这种RL训练。它可能没有那么有效,但如果你采用一个10亿参数的模型,也就是比DeepSeq小600倍的东西,你可以通过少量这种训练直接提高它的小学数学分数。所以......
这并不是说这很快就会到来。建立验证领域非常困难,这里有很多细微之处,但我们之前已经看到了一些基本的东西,至少可以预期存在一个领域,并且这种方法有成功的可能性。好吧,我们正在实时发生有趣的事情。这是一个谈论其他推理模型、O1、O3的好机会。就在现在,OpenAI正如预期的那样,发布了O3 Mini,它
我们对不同版本有什么期待?你能列出旧模型和Gemini推理模型的不同版本吗?关于这些推理模型,我想说的是,我们谈了很多关于在数学和代码上进行推理训练的事情。所做的是,你拥有我们在互联网上讨论了很多的基准模型。你使用强化学习进行这种大规模推理训练。然后DeepSeq论文所做的事情
在这篇R1论文中详细介绍,对我来说,这是关于如何做到这一点的一个重大悬而未决的问题,那就是他们做了
推理很重,但在大型推理RL之后使用了非常标准的后训练技术。他们使用某种形式的指令微调通过拒绝采样做了同样的事情,这本质上是经过严格过滤的指令微调,并带有一些奖励模型。然后他们做了这个RLHF,但他们让它变得数学化。所以一些这种转移,我们早些时候看过这个哲学例子,
一个悬而未决的问题是,这种转移有多少?如果我们在推理训练后引入领域,所有模型都会通过推理成为雄辩的作家吗?这种哲学的东西会开放吗?我们不知道在研究中这种转移会有多少。关于我们如何制作软验证器以及诸如此类的事情还有其他一些事情,但是有
推理后的更多训练,这使得更容易使用这些推理模型。这就是我们现在正在使用的。所以我们将讨论3Mini和O1。这些都经过了这些额外的技术,这些技术旨在在经过训练以引发推理之后满足人类的偏好。我认为人们忽略的一件事是谷歌的Gemini Flash Thinking既比R1便宜又更好。
他们在12月初发布了它。没有人谈论它。没有人关心。它有不同的风格。它的行为不如O1那么富有表现力。它所关注的方面更少。Quen去年秋天发布了一个模型QWQ,这是他们预览的推理模型。DeepSeq去年秋天推出了R1 Lite,这些模型感觉像是被限制住了,它们真的只能做数学和代码。而O1是可以回答任何问题的。对于某些任务来说,它可能并不完美,但是......
但是它很灵活。它有一些丰富性。这有点像烹饪艺术,就像一个模型,有点没煮熟。我的意思是,让模型面世是一件好事,但很难判断。需要很多品味才能判断,这是一个成熟的模型吗?我可以将它用于所有事情吗?对于数学和代码,它们可能更相似。我的快速解读是Gemini Flash还不错。
训练方式与01相同,但采用现有的训练堆栈,向其中添加推理。因此,采用更正常的训练堆栈并向其中添加推理。我相信他们会有更多。我的意思是,他们在Gemini Flash推理方面进行了快速发布,这是假期以来的第二个版本。它发展迅速,并且......
创建这个大规模的训练堆栈需要更长的时间。我从......早些时候......关于......人类本性......的那个问题中得到了同样的问题。是的。人类本性是什么?
我可以如此滔滔不绝地谈论这个的原因是,在O1完全向所有人开放之前,以及在R1之前,我们在AI2一直在研究这个,这本质上是使用这种RL训练进行微调。我们在我们的Tulu系列模型中使用了它。你可以引发同样的行为,你会说等等等等。但它在训练过程中的时间太晚了,这种推理表达要轻得多。
所以本质上存在一个渐变,你投入其中多少这种RL训练决定了输出的样子。所以我们现在使用Gemini 2.0 Flash Thinking Experimental 121。它将问题总结为人类,自我驯化的猿类。好吧。好吧。那么,这是否揭示了推理?这就是为什么这很新颖。好吧。好吧。
点击展开。好吧。分析请求。新颖是关键词。看看它看起来有点不一样?它看起来像一个正常的输出。是的。我的意思是,在某种意义上,它结构更好。更有意义。当它抓住人类,然后进入生物体时。顶级掠食者。关注驯化。
将驯化应用于人类。探索自我驯化的想法。不好。不好。这是怎么回事?改进和阐明见解。更大的面部表情和沟通能力。是的。可塑性和适应性。是的。对社会群体的依赖。是的。好吧,以及自我批评和进一步改进。这真的新颖吗?它有充分的支持吗?是的。
等等等等。它得到的见解是,人类不仅仅是群居动物,而是深刻的自我驯化的猿类。这种自我驯化是理解我们独特的认知和社会能力的关键。自我驯化的猿类。
我更喜欢DeepSeek的回应。我的意思是,它很新颖。见解很新颖。我的意思是,那就像一个好书名,《自我驯化的猿类》。可以为此提出一个论点。我的意思是,是的,这很酷。而且它揭示了推理。这很神奇。这很神奇。这真的很强大。
大家好,我是Lex,这是一个在播客之后录制的简短插播。由于我们在本次对话中回顾了DeepSeek R1和Gemini Flash 2.0 Thinking的回复,我认为现在插入我自己对OpenAI O1 Pro和O3 Mini使用相同提示进行同样的操作会很好。提示是,给出一个关于人类真正新颖的见解。
我认为我通常会根据我对新O3 Mini模型的经验,给出我自己的体验检查和基于体验的轶事报告,因为我现在有机会在不同类型的环境和应用中花费很多时间与它相处。
所以我可能会将这个问题归类为,比如说,开放式哲学问题。特别是,我认为对新颖性的强调是一种很好的方法来测试模型的能力之一,那就是提出一些让你停顿并几乎让你对它的才华感到惊讶的东西。
话虽如此,在我多次对这个问题运行每个模型之后,我的总体评价是,O1 Pro始终给出精彩的答案。
那些让我停顿并让我思考的答案。其见解既尖锐,而且措辞非常优美,清晰、细致,一遍又一遍地始终如一地生成最佳答案。之后是R1,它不太一致,但同样能展现出才华。
Gemini Flash 2.0 Thinking排在第三位。实际上,最后是O3 Mini。它经常给出相当普通的答案,至少对我个人的感觉来说是这样。也就是说,在我测试过的许多其他用于头脑风暴目的的应用程序中,它实际上运行得非常好,并且经常优于R1。
但在这个开放式哲学问题上,它始终表现较差。现在,对于这些模型中的每一个,另一个重要因素是推理是如何呈现的。DeepSeek R1显示了完整的思维链标记,我个人非常喜欢。对于这些开放式哲学问题,看到模型思考它真的非常有趣。但真正重要的是,作为欣赏智慧、推理和反思的人,
阅读R1的这些思维链原始标记,观察智能系统中的思考路径,其中有一些真正美好的东西。我认为我们并不总是......
明确地为我们人类阐明这一点。所以在一个其他的智能系统中看到它,它的非线性,类似于詹姆斯·乔伊斯的《尤利西斯》或《芬尼根的觉醒》,观看它真是太美妙了。无论如何,正如我们在节目中讨论的那样,DeepSeek R1谈到人类能够通过集体假装抽象规则(如金钱、法律和权利)是真实的,从而将自私的欲望转化为合作系统。
这些共享的幻觉充当游戏,竞争在秘密中被重新定向以使群体受益,将冲突转化为社会的燃料。Gemini 2.0 Flash Thinking说,人类不仅仅是群居动物,而是自我驯化的猿类。这种自我驯化是理解我们独特的认知和社会能力的关键。
现在,必须要说的是,那里的思维链条非常有趣。它考察了地球上生命的整个进化过程,考虑了顶级捕食者,并考虑了我们是如何从那时走到今天的。
我认为选择驯化是一个非常有趣的角度。再说一次,当有人对一件看似显而易见的事情提出不同的看法时,这总是让我会心一笑。DeepSeek R1 也一样,这些关于金钱、法律和权利的幻觉,以及我们集体假装它是真实的,我们玩着看起来像是竞争的游戏,而实际上我们只是在互相合作。而这就是进步的动力,说得妙极了。
现在,OpenAI 01 Pro 一次又一次地带来了精彩的作品。我可以列举很多,但第一个是:人类是唯一能够将原材料转化为象征性资源,然后利用这些象征性资源重新组织其来源的材料的物种,从而在意义和物质之间创造了一个封闭的反馈循环。
这里,我又运行了一遍。一个接一个的精彩作品,我说真的。人类在已知物种中是独一无二的,因为它们同时改写了现实的两个层面:外部世界和他们自己私人的精神领域,然后将这两个被改写的层面融合成一个连续的个人叙事,感觉客观上是真实的。感觉是真的。
这是诗歌。好的,然后对我来说,O3 Mini High 聪明、快速,实际上,有点普通。对我来说,它从未真正达到那个水平。所以这是我从 O3 Mini 得到的第一个:人类不是固定的存在,而是持续的叙事,是我们不断书写、编辑和重新诠释的动态故事。
这种叙事可塑性不仅仅是记忆或自我反省。它是一个内在的认知过程,就像一个内部的错误校正系统。它使我们能够根据新的经验、挑战和社会环境,随着时间的推移调整我们的身份和价值观。现在它几乎偷偷摸摸地接近了用引号括起来的“叙事可塑性”的深刻见解。但随后它又回到了那种普通的叙述。
我不知道。所有这些模型由于不同的原因都令人难以置信。正如我们在本集中讨论的那样,有很多担忧,但也有一些令人兴奋的理由。我可能说得太多了。我严重睡眠不足,几乎处于神志不清的状态。所以希望我说的这些内容有些是有意义的。现在,亲爱的朋友们,让我们回到正题。
我认为当你,你知道,正如内森所说,当你看到像推理模型一样时
对我来说,即使我使用 R1 与 O1 相比,也有一种“转角处粗糙的边缘”的感觉,对吧?而 Flash 思考,你知道,早些时候,我没有使用这个版本,而是 12 月份的版本,它绝对有那种“转角处粗糙的边缘”的感觉,对吧?它在很多方面都没有完善,对吧?当然,他们通过这些验证器在 RL 中添加了数学和编码能力,但是,你知道,感觉他们在某些领域失去了某些东西。而 O1 的性能比聊天差,
在许多领域也是如此,需要明确的是,差距并不大,对吧?这就像 R1 对我来说绝对感觉在某些领域比 V3 差,比如做这个 RL 表达并学习了很多,但是它
在其他领域却减弱了。所以我认为这是这些模型和 O1 提供的模型之间的一个主要区别。然后 OpenAI 有 O1 Pro。他们对 O3 所做的,也非常独特,就是他们在思维链之上叠加了搜索,对吧?所以思维链是一回事,它是一个链条,它会回溯,来回移动。但是他们解决 Arc AGI 挑战的方式不仅仅是思维链。对。
它还多次采样,即并行运行它们。
然后选择。并行运行实际上是搜索吗?因为我不知道我们是否拥有关于 O1 Pro 如何工作的全部信息。我没有足够的信息来自信地说它是搜索。它是并行样本。是的,然后呢?它选择了一些东西。我们不知道选择函数是什么。我们之所以在争论,是因为自从 O1 发布以来,人们对称为蒙特卡洛搜索的技术产生了浓厚的兴趣,在这种技术中,你会将思维链分解成中间步骤。我们还没有定义思维链
思维链来自几年前的一篇论文,在那篇论文中,你提出了向当时更难使用的语言模型提出问题的想法。你会说,让我们一步一步地验证,它会诱导模型执行这个项目符号列表中的步骤。思维链现在
几乎是模型的默认设置,如果你问它一个数学问题,你不需要告诉它一步一步地思考。蒙特卡洛树搜索的想法是,你会在该训练的中间点进行某种扩展,花费更多计算,然后选择正确的那个。这是一种非常复杂的搜索形式,已被用于 Mu zero 和 alpha zero 等事物中。我知道 Mu zero 这样做。
另一种搜索形式就是询问五个人,然后采用多数人的答案。有很多种,你知道,它可能很复杂,也可能很简单。我们不知道它是什么,只是他们不仅仅是按顺序发出一个思维链。他们正在并行启动多个思维链。在 Arc AGI 中,他们并行启动了......
一千个用于他们的......那个真正震惊了每个人的、击败了基准测试的是,他们启动了,他们会并行启动一千个,然后他们会以 80% 或 70% 的概率得到正确的答案,甚至可能是 90%,而如果他们只启动一个,则只有 30%。对此有很多扩展。我认为最简单的一种是,我们迄今为止设计的语言模型是在一次响应中以最高的百分比给出正确答案。
我们现在正在打开大门,探索在我们的模型上运行推理的不同方法,我们需要重新评估训练过程的许多部分,这通常会打开更多进步的大门。但我们不知道 OpenAI 是否做了很多改变,或者仅仅是采样更多和多项选择,或者它是否更复杂,他们改变了训练,并且知道推理模式将有所不同。所以我们正在谈论 O1 Pro,每月 200 美元,他们正在亏钱。所以......
我们所指的、对测试时间计算空间的迷人探索,实际上可能吗?我们有足够的计算能力吗?财务方面说得通吗?所以,令人惊奇的是,它在我的前面提到的内容中,但是如果你向上滚动几张图片,我认为 GPT-3 的成本已经暴跌了。
关于“嘿,成本在这里是不是一个限制因素?”很重要的一点是,我的观点是,在我们拥有 AGI、在我们让它渗透到整个经济体之前,我们将拥有真正令人惊叹的智能。这就是原因所在,对吧?GPT-3 是在 2020 年、2021 年训练的?在上面运行推理的成本是天文数字。
每百万个 token 60 美元、70 美元,对吧?这简直是荒谬的智能成本。现在,随着我们向前推进两年,我们已经将成本降低了 1200 倍,才能达到与 GPT-3 相同的智能水平。所以这里 x 轴是几年时间。y 轴是对数尺度的美元。
在百万个 token 上运行推理。是的,一百万。所以你只是向下,就像对数尺度上的线性下降,从 GPT-3 到 3.5 到 Lama。现在大约是 5 美分左右,对吧?而之前是 60 美元,1200 倍。这不是确切的数字,但它是 1200 倍。我记得这个数字。是......
是目前巨大的、巨大的智能成本。对 DeepSeek 的恐慌是,“天哪,他们把它做得这么便宜。”实际上,如果你看看这条趋势线,首先,他们并没有低于趋势线,至少对于 GPT-3 来说是这样,对吧?嗯,他们是第一个达到这个水平的,对吧?这是一件大事。嗯,就 GPT-3 而言,他们并没有低于趋势线。现在我们有了 GPT-4。这些推理能力会发生什么?它融合了架构创新。它融合了更好的数据,它将是更好的训练技术以及所有这些不同的、更好的推理系统、更好的硬件,对吧?从,你知道,
每一代 GPU 到新一代或 ASIC,所有这些都将使这条成本曲线下降、下降、下降、下降。然后我可以只生成一千个不同的 LLM 来创建一个任务,然后从其中一个或任何我想要的搜索技术中选择,一棵树,蒙特卡洛树搜索,也许它变得太复杂了,也许它没有,因为它太复杂而无法实际扩展,谁知道呢,一个更好的教训,对吧?问题是,是,
我认为什么时候,不是如果,因为进步的速度如此之快,对吧?九个月前,达里奥说,或者,你知道,达里奥九个月前说,训练和推理的成本是这样的,对吧?而现在我们比这好多了,对吧?DeepSeek 比这好多了。而 GPT-4 的成本曲线,在发布时也大约是每百万个 token 60 美元,
已经下降到大约 2 美元了,对吧?我们可能会把它降低到几分钱,可能是 GPT-4 的质量。然后这就是我们今天拥有的推理模型(如 O1)的基础,而 O1 Pro 正在生成多个,对吧?以及 O3 等等。这些搜索技术今天太贵了,但它们会变得更便宜。这就是将解锁智能的东西,对吧?所以它会变得越来越便宜。对。
DeepSeek R1 的重大发布让每个人都感到震惊,因为它更便宜。其中一种表现是英伟达的股价暴跌。你能解释一下发生了什么吗?我的意思是,还要解释一下这一刻,以及英伟达是否会继续获胜。我们都是英伟达的多头,我会这么说。而且
在某些方面,市场的反应是合理的。大多数市场,比如英伟达在美国最大的客户都是大型科技公司,他们在人工智能上投入巨资。如果对 DeepSeek 的简单解释是,你可以在不花太多钱在人工智能上的情况下获得非常好的模型。所以在这种情况下,就像,“哦,也许这些大型科技公司不需要在人工智能上花费那么多钱,然后下降。”实际发生的事情要复杂得多,其中有社会因素,有应用商店的兴起,
正在发生的传染。然后我认为很多事情就像,我不是,我不交易。我对金融市场一无所知,但它会在周末或社会压力下累积,就像,如果是在工作日,并且在这种情况真正发生时有多天的交易,但它发生在周末,然后每个人都想卖出。这是一种社会传染。我认为,我认为,而且有很多虚假叙述,比如,“嘿,这些人正在模型上花费数十亿美元。”对。他们并没有在模型上花费数十亿美元。没有人花费超过 10 亿美元
在一个公开发布的模型上,对吧?GPT-4 是几亿美元,然后,你知道,他们用 4.0、4 Turbo 4.0 降低了成本,对吧?但是数十亿美元的模型运行即将到来,对吧?这包括预训练和后训练,对吧?然后另一个数字是,“嘿,DeepSeek 没有包含所有内容,对吧?他们没有包含,你知道,很多成本都用于研究等等。很多成本都用于推理,对吧?
很多成本都用于后训练。这些都没有考虑在内。是研究人员的薪水,对吧?这些东西都算在 OpenAI 花费的数十亿美元中,但它们没有算在 DeepSeek 花费的 600 万美元、500 万美元中,对吧?所以对这些数字有一些误解。然后还有一个因素是
英伟达一直是一条直线向上,对吧?有很多不同的说法试图打压英伟达。我不想说打压英伟达的股票。每个人都在寻找一个出售或担心的理由,对吧?你知道,是 Blackwell 的延迟,对吧?他们的 GPU,你知道,有很多报告。每两周就会有一份关于他们的 GPU 延迟的新报告。有......
关于规模定律结束的整个事情,对吧?太讽刺了,对吧?它持续了一个月。就像字面意思一样,“嘿,模型没有变得更好,对吧?它们只是没有变得更好。没有理由再花费更多。预训练规模已经结束。”然后就像,
01、03,对吧?R1。R1,对吧?现在就像,“等等,模型变得太......它们进步得太快了。放慢进步速度。停止在 GPU 上花钱,对吧?但你知道,我认为最有趣的事情是 Javon 的悖论是正确的,对吧?过去几周,AWS 的 H100 价格上涨了,对吧?自从 V3 发布后不久,圣诞节之后,
AWS H100 的价格上涨了。H200 几乎到处都缺货,因为 H200 内存更大,因此 R1 比 H100 更想要这个芯片,对吧?本周我们试图在短时间内获得 GPU 用于演示,但这并不容易。我们试图获得 16 个或 32 个 H100 用于演示,但这并不容易。所以对于那些不知道的人来说,Gemon 的悖论是当效率提高时,
不知何故,反直觉地,总资源消耗也会增加。对吧。半导体行业,你知道,我们已经经历了 50 年的摩尔定律。每两年,成本降低一半,晶体管数量翻倍,就像钟表一样。它显然已经放缓了,但半导体行业
一直在增长,对吧?它一直是波浪形的,对吧?显然有周期等等。我不认为人工智能会有所不同,对吧?会有起伏。但这是一个 AI,它只是在一个疯狂的时间尺度上发挥作用,对吧?每两年翻一番。这是三年内的 1200 倍,对吧?所以这是一种难以理解的改进规模。是的,我很困惑,因为对我来说,英伟达的股票应该上涨了
但也许它下跌是因为人们怀疑中国方面存在不正当行为之类的事情。但如果你只关注这里实际起作用的原则,就像,
很明显。是的。Gervais 悖论,即人工智能制造的或人工智能进步的导数越高,你应该,因为在视频中是最好的地方,导数越高,市场就越快变得更大并扩张。而视频是目前唯一一个可靠地完成所有事情的。因为它不像出现了英伟达的竞争对手。它,
它是另一家使用英伟达的公司。历史上一直是英伟达的大客户。是的。并且有新闻稿称他们为成为中国最大的英伟达客户而欢呼,对吧?就像......
是的,我的意思是......显然,他们已经保持沉默,但我认为这是另一个因素,那就是他们不想说他们有多少 GPU,因为,嘿,是的,他们有 H800。是的,他们有 H20。他们也有一些 H100,对吧?它们是走私进来的。你能谈谈这个吗?谈谈走私......
一个国家或公司进行走私的可行规模是多少?这可能吗?我认为这里有几个走私角度,对吧?一个是字节跳动可以说是中国最大的 GPU 走私者,对吧?中国不应该拥有 GPU。字节跳动拥有超过 50 万个 GPU。
为什么?因为它们都是从世界各地的公司租来的。他们从甲骨文租用,从谷歌租用,从所有这些大型公司和许多小型云公司租用,对吧?所有新兴的云,对吧?世界各地。他们租用了如此之多的 GPU。他们也购买了很多,对吧?他们这样做主要是为了像 Meta 做的事情一样,对吧?服务 TikTok,对吧?服务下一个最佳,对吧?单独讨论。与更好的一样,对吧?需要明确的是,这是今天的用途,对吧?这是一个有效的用途,对吧?黑客多巴胺回路,对吧?现在,这在理论上受到人工智能扩散规则的严格限制,这些规则发生在拜登政府的最后一周,特朗普政府似乎会保留它们,这限制了盟友,甚至像新加坡一样——
新加坡占英伟达收入的 20%、30%。但新加坡已经有 15 年没有建设数据中心了,因为他们没有足够的电力。那么他们去哪里了呢?我的意思是,我不是说他们都去了中国,对吧?但一部分是,你知道,许多都去了马来西亚,包括微软和甲骨文在马来西亚都有大型数据中心。就像,你知道,他们遍布整个东南亚,可能还有印度,对吧?就像有东西在路由,但就像,
扩散规则实际上非常明确,比如你只能从这个国家购买这么多 GPU,你只能将这么大的集群租给中国公司,对吧?他们非常明确地试图阻止走私,对吧?很大一部分是,“嘿,让我们,你知道,随机公司购买 16 台服务器,运一些到中国,对吧?”实际上,我看到半导体行业的一位领导者发的一张照片,他领导着一个与英伟达竞争的网络芯片团队。他发送了一张照片,照片上是一个人乘坐从旧金山到上海或深圳的联合航空头等舱航班,手里拿着一个这么大的超微盒子,里面只能装 GPU,对吧?他预订了头等舱,因为想想看。
你的头等舱机票 3000 到 5000 美元。服务器成本在美国是 24 万美元,25 万美元。你在中国以 30 万美元的价格出售。等等,你刚刚获得了一张免费的头等舱机票和更多钱。所以就像,你知道,这就像小规模走私。大多数大规模走私都是像新加坡和马来西亚这样的公司,绕过它们或完全合法地租用 GPU。我想插一句。规模有多大?我认为有些人,一些更高级别的经济学家
理解,说当你从 10 亿美元的走私增加到 100 亿美元时,就像你隐藏了某些级别的经济活动。对我来说,最合理的事情是,将会有一些级别,它如此明显,以至于更容易找到这种经济活动。是的,所以我的观点是去年,大约
所以,英伟达制造了 100 万个 H20,这些 H20 可以合法地运往中国,我们谈到的是它更适合推理,对吧?至少是推理。也许不是训练,而是推理,通常是推理。然后他们还有,你知道,我们认为大约有 20 万到 30 万个 GPU 从新加坡、马来西亚、美国等地被运往
中国,公司以 16 个 GPU、64 个 GPU 为单位购买,无论是什么,都将其运送。华为因在 2018 年被禁后加快了获取所需材料的大规模公司网络而闻名。所以这并不奇怪。但我同意,内森的观点是,
嘿,你不能走私 100 亿美元的 GPU。然后是第三种来源,它现在刚刚被禁止,你知道,它不被认为是走私,但中国正在租用,我相信根据我们的研究,对吧?甲骨文最大的 GPU 客户,
是字节跳动,对吧?对于谷歌来说,我认为它是他们的第二大客户,对吧?所以就像,你浏览云列表,尤其是那些不是超级规模的较小型云公司,对吧?甚至考虑 Core 之外,甚至 Lambda,甚至还有一个海洋,有 60 家不同的新云公司提供英伟达 GPU 服务。我认为字节跳动正在租用很多这些,对吧?到处都是,对吧?所以这些公司是,
正在将 GPU 租给中国公司。在几周前发布的扩散规则之前,这是完全合法的。即使现在,你也可以租用少于 2000 个 GPU 的 GPU 集群,或者如果你
如果少于 1500 个 GPU,你可以购买 GPU 并将其运送到任何你想要的地方,对吧?所以就像,仍然有一些走私方式,但是是的,它不是,你知道,随着数字的增长,对吧?你知道,英伟达去年的收入为 1000 多亿美元,今年为 2000 多亿美元,对吧?如果明年是,你知道,它可能会再次翻倍甚至不止翻倍,对吧?根据我们在美国及世界其他地区建设的数据中心足迹,就像,
中国将很难遵守这些规则,对吧?是的,总会有走私和 DeepSeek 级别的模型、GPT-4 级别的模型、能够在中国能够获得的甚至明年以上的东西上进行训练的 O1 级别的模型。但是如果我们快速运行几个更多的,你知道,跳跃,对吧?
数十亿美元的模型,数百亿美元的模型,那么它就会变成,“嘿,中国在训练和服务模型方面存在计算劣势。”服务部分非常关键。DeepSeek 今天无法服务其模型。它完全没有库存。实际上,它的应用商店下载量已经开始下降,因为你下载它,你尝试注册,他们说,我们不接受注册,因为他们没有能力。你打开它,如果你甚至获得了请求批准,你每秒获得的 token 少于五个。对。
对吧?因为他们根本没有足够的 GPU 来服务该模型,即使它非常高效。观看走私将会非常有趣,因为我的意思是,有毒品走私,对吧?这是一个市场。有武器走私,而 GPU 将在某个时候超过它。芯片可能是每公斤价值最高的,可能远远超过其他任何东西。是的。
我还有一个问题要问你,迪伦。你是否跟踪国际上的模型 API 访问?中国公司使用来自美国的托管模型 API 有多容易?是的,我的意思是,这非常容易,对吧?OpenAI 公开声明 DeepSeq 使用了他们的 API。正如他们所说,他们有证据,对吧?而这是训练制度的另一个因素,OpenAI 的人声称这是一个蒸馏模型,即你正在使用 OpenAI 的模型,你正在生成大量输出,然后你正在根据他们的模型的输出进行训练。是的。
即使是这样,顺便说一句,DeepSeek 在效率方面所做的事情仍然令人惊叹。- 蒸馏是行业中的标准做法,无论你是否在一个封闭的实验室中,你都密切关注服务条款和知识产权,你都会从你自己的模型中蒸馏。如果你是一位研究人员,并且没有构建任何产品,你就会从开放眼模型中蒸馏。-这是一个好机会。你能解释一下蒸馏作为一个过程的大图景吗?什么是蒸馏?蒸馏的过程是什么?-我们已经谈了很多关于训练语言模型的事情。它们是在文本上进行训练的。
在后训练中,你试图在非常高质量的文本上进行训练,你希望模型匹配其特征,或者如果你使用 RL,你就会让模型找到它自己的东西。但是对于监督微调,对于偏好数据,你需要有一些完成,即模型试图学习模仿的内容。你所做的是,而不是人类数据或你当前正在训练的模型,你从不同的、通常更强大的模型中获取完成。我认为有......
这些人们正在等待的大型模型,这些世界上的 GPT-5,世界上的 CLAWD-3 作品,在 OpenAI 内部用于进行这个蒸馏过程。也有公开的例子,对吧?Meta 明确表示,不一定是蒸馏,但他们在他们的 LAMA 3.2 和 3.3 中使用 405B 作为 70B 的奖励模型。这都是同一个话题。那么这是......
这是合乎道德的吗?这是合法的吗?为什么《金融时报》的文章标题说 OpenAI 表示有证据表明中国的 DeepSeek 使用了其模型来训练竞争对手?这很长,至少在学术界和研究界,这是一个漫长的历史,因为你试图解释 OpenAI 的规则。OpenAI 的服务条款
说你无法用他们的模型输出构建竞争对手。服务条款与许可证不同,许可证实质上是组织之间的合同。因此,如果您在 OpenAI 的帐户上有服务条款,如果我违反了它,OpenAI 可以取消我的帐户。这与许可证大相径庭,许可证规定了您可以如何使用下游工件。因此,很多事情都取决于人工智能领域中一个非常不清楚的词,那就是什么是竞争对手。然后是它的伦理方面,例如,
为什么在我可以使用互联网文本进行训练时,用你的模型进行训练是不道德的?对吧?所以有点虚伪,因为 OpenAI 和可能大多数公司都在未经许可的情况下使用互联网文本进行训练。还有一个明显的漏洞,那就是
我从 OpenAI 生成数据,然后将其上传到某个地方,然后其他人再对其进行训练,而链接已被破坏。就像他们不在相同的服务条款合同下一样。有很多嘻哈。有很多有待发现的细节,这些细节没有多大意义。这就是为什么今天很多模型,即使它们在零 OpenAI 数据上进行训练,
你问模型是谁训练你的,它会说,我是由 OpenAI 训练的 Chad GPT,因为互联网上有如此多的 OpenAI 输出的复制粘贴,以至于你根本无法过滤掉它。而且,在......而且在他们实现的 URL 中没有任何内容,例如,“嘿,就像,或者后期训练或 SFT,无论它说什么,嘿,我实际上是 Allen Institute 而不是 OpenAI 的模型。如果我们提供演示,我们必须这样做。我们进行研究并使用 OpenAI API,因为它很有用,我们想了解后期训练和我们的研究模型
它们会说它们是由 OpenAI 编写的,除非我们在系统属性中添加我们讨论过的内容,例如“我是图卢。我是一个由艾伦人工智能研究所训练的语言模型。”
如果你问行业中更多的人,尤其是在后期训练方面,让模型说出它是谁或压制 OpenAI 的事情是一项非常可行的工作。所以在某些层面上,DeepSeq 可能并不在意它是否说是 OpenAI 的。例如,如果你要上传模型权重,这并不重要,因为任何在应用程序中提供服务并非常关心服务的人都会在提供服务时,如果他们将其用于特定任务,他们会根据该任务对其进行调整。它说是 ChatGPT 并不重要。
哦,我想其中一种方法是系统提示或类似的东西。例如,如果你提供服务来说你是......这就是我们所做的。例如,如果我们托管演示,你会说,你是图卢 3,一个由艾伦人工智能研究所训练的语言模型。我们也受益于 OpenAI 数据,因为它是一个很棒的研究工具。我认为 OpenAI 声称有证据表明中国的 DeepSeek 使用了该模型进行训练,这种说法有任何真实性和价值吗?我认为......
无论如何,每个人都受益,因为数据都在互联网上。因此,它现在就在你的描绘中,对吧?有一些子版块,人们在那里分享最好的 ChatGPT 输出。这些都在你的模型中。我认为他们试图转移叙事。就像他们试图保护自己一样。几年前,当字节跳动实际上因为在输出上进行训练而被禁止使用某些 OpenAI API 时,我们也看到了这一点。其他人工智能初创公司,大多数人,如果你了解人工智能文化,都会说,
他们只是告诉我们他们在 OpenAI 输出上进行了训练,他们从未被禁止。这就是他们如何引导早期模型的。因此,与建立人工管道和构建强大的模型相比,使用这种方法更容易起步。所以这里有很长的历史,很多沟通似乎是叙事控制。实际上,就像,
在过去的几天里,我们看到很多人将 DeepSeq 的模型提炼成 Lama 模型,因为 DeepSeq 模型的推理运行起来有点复杂,因为它们是专家混合体,并且有 6000 多亿个参数等等。人们已经将它们提炼成 Lama 模型,因为 Lama 模型很容易提供服务,而且每个人都为 Lama 模型的推理构建了管道和工具,对吧?因为它是开放标准。所以我们看到了。我们看到了一种变通方法,对吧?这不好吗?这
非法吗?也许是非法的,无论如何。我不了解这一点。它可能会违反合同。我认为这不是非法的。没有人会因为这件事而入狱。从根本上说,我认为这是合乎道德的。或者我希望它是合乎道德的。因为一旦我们禁止这种事情,它就会让每个人都变得更糟。而且我还真的......
这很难,但我认为你应该被允许在互联网上进行训练。我知道很多作家和创作者对此非常敏感。这是一个很难回答的问题。但是,一旦你不被允许在互联网上进行训练......我同意。我对如何解决这个问题有一个精神分裂症式的看法,因为它已经有效了。我对它有一个合理的看法。好的。所以......
你知道,日本有一项法律,你被允许使用任何训练数据进行训练,如果你想训练模型,版权不适用。A. B. 日本有 9 吉瓦的削减核电。C. 根据人工智能扩散规则,日本被允许进口任意数量的 GPU。所以我们只需要在这里创建一个市场。我们建造大型数据中心。我们将其租给实验室。然后我们以合法的方式训练模型。没有如果、但是或其他。
现在,这些模型没有任何来自《纽约时报》或任何其他类似内容的潜在版权诉讼。不,不,这就像完全合法一样。不,所以,所以,太天才了。早期的版权诉讼有利于人工智能训练。我想说的是,长尾用途是,
将站在人工智能一边,也就是说,如果你抓取数万亿的数据,你不会去看数万亿个数据标记,你不会去看并说这篇《纽约时报》文章对我来说如此重要。但是,如果你正在进行音乐的音频生成或图像生成,并且你说要以 X 人的风格制作,这是一个合理的案例,你可以计算出他们在推理上的利润率,
我不知道它是否会是 YouTube 创作者计划的 50-50,但我会选择加入该计划作为一名作家。就像,拜托,就像那样。这只是一段艰难的旅程,但会有一些这样的解决方案是有意义的。但有一个长尾,它只是在互联网上。我认为《金融时报》文章暗示的另一个方面是,因此这引出了一个更普遍的问题。你认为有
窃取公司内部的实际秘密代码和数据的间谍活动和窃取行为有多难?有多少这样的企图?代码和数据很难,但想法很容易。硅谷的运作方式是,顶级员工被其他公司以加薪的方式买断。这些公司这样做的一个重要原因是将想法带给他们。
而且,我指的是,在加利福尼亚州,有一些规定,例如某些不竞争协议或其他协议在加利福尼亚州是非法的。无论是否存在保密协议等,这就是很多事情发生的方式。最近,有人来自加利福尼亚州
双子座,他帮助制作了这个 100 万个联系长度,每个人都说下一个 llama(我的意思是,他去了元团队)将有 100 万个联系长度,这就是世界运作的方式,就工业间谍活动而言,过去它非常成功,对吧?嗯,你知道,美国人做了英国人......中国人对美国人做了......对吧?你知道,等等,这只是一个事实......而且
因此,就像,争论工业间谍活动可以被阻止可能是不可能的。你可以让它变得困难。但即便如此,就像,有很多关于,嘿,F-35 和 F-22 已经在设计图纸和东西方面被交给中国了。代码和东西,就像,在,你知道......
公司之间,而不是民族国家之间,可能非常困难。但想法经常被讨论,对吧?无论是在旧金山的家庭聚会上,还是在公司更换员工,或者,你知道,或者,你知道,总是像神话般的蜜罐一样,总是被谈论,对吧?就像有人被蜜罐吸引了,对吧?因为每个从事人工智能工作的人都是一个二十几岁或三十几岁的单身汉,不是每个人,但就像大量的
百分比。所以总是有很多这样的,你知道,而且显然......所以蜜罐者就像一个间谍,一个女间谍接近你,然后......对。或者男性,对吧?这是旧金山,对吧?但作为一个二十多岁的单身汉,我会说,对吧,就像我们很容易被腐蚀,对吧?就像,你知道,
我们是,我们是,对吧?其他人,不是我。我太粗心了,而且我没有单身。所以我免受一种间谍活动的影响。是的,你必须确保关闭所有安全漏洞。所以,迪伦,你收集了很多关于每个主要人工智能公司的每个大型集群的信息。
你能谈谈每个脱颖而出的集群的建设吗?是的。我认为关于这些大型集群建设真正重要的事情是,它们的规模是前所未有的。对。美国,你知道,就像数据中心的电力消耗一直在缓慢上升,即使在云计算革命中也上升到了 2% 到 3%。对。数据中心消耗量占美国总量的百分比,
而这已经持续了几十年了,对吧?数据中心等等。它一直在缓慢攀升。但现在,2% 到 3%。现在,在本十年末,即使在......你知道,当我提到 10% 时,很多传统上......例如,到 2028 年、2030 年,传统上非传统数据中心的人认为这太疯狂了。但那些真正研究过像 Anthropic 和 OpenAI 的人工智能领域的人则认为,这还不够。我说,好吧。但是,就像,
你知道,这既是通过全球分布式,也是通过美国境内的分布式集群实现的,对吧?遍布美国的分布式令人兴奋,而且它也是大部分,对吧?就像,嘿,你知道,OpenAI 或,你知道,Meta 正在增加 1 吉瓦,对吧?但大部分是分布在美国各地用于推理和所有其他事情的,对吧?所以也许我们应该说明什么是集群。所以......
这包括 AWS 吗?也许谈谈不同类型的集群以及你所说的巨型集群是什么意思,什么是 GPU,什么是计算机,以及什么......是的,是的,是的。没有那么久远,但是,是的。
所以,我们所说的集群是什么意思?哦,伙计,我以为我正要发布苹果广告呢,对吧?什么是计算机?所以,传统上,数据中心和数据中心任务一直是一个分布式系统问题,能够传播得很远很广,对吧?例如,我向谷歌发送请求,它会被路由到离我较近的数据中心。嗯,它执行任何搜索排名推荐,发送结果返回,对吧?嗯,
任务的性质正在迅速变化,因为人们现在真正关注的是两项任务,对吧?这不是数据库访问。这不是为我提供正确的页面,为我提供正确的广告。现在是 A,推理。推理与传统的分布式系统大相径庭,但它看起来更相似。然后是训练,对吧?
推理方面仍然是,嘿,我要放,你知道,数千个 GPU 和,你知道,这些数据中心周围的块。我将在它们上运行模型。你知道,用户提交请求,被启动,或者嘿,我的服务,你知道,他们向我的服务提交请求,对吧?他们在 Word 上,他们说,哦,是的,帮我使用 Copilot。它启动了。我在我的 Windows 上,Copilot,无论是什么,苹果智能,无论是什么,它都会被启动到数据中心,对吧?而该数据中心会做一些工作并将其发送回来。这就是推理。这将是计算的大部分。但是,
而且就像,我们正在用卫星和其他东西追踪数千个数据中心。这些是正在建设的大部分内容。但规模......所以这就是真正重塑的,这就是获得数百万个 GPU 的原因。但最大集群的规模也很重要,对吧?当我们回顾历史时,对吧?就像,
你知道,或者通过人工智能时代,对吧?就像在......我认为是两个 GPU 或四个 GPU 上进行 AlexNet 是一件非常重要的事情?我不记得了。这是一件非常重要的事情。这是一件重要的事情,因为你使用了 GPU。这是一件重要的事情,因为他们使用了 GPU,并且使用了多个,对吧?但随着时间的推移,它的规模一直在复合增长,对吧?所以当你跳到 GPT-3,然后是 GPT-4,GPT-4,20000 个 A100 GPU,前所未有的运行。
对,就规模和成本而言,对吧?在 YOLO 上花费几亿美元,对吧,GPT-4 的 YOLO 运行。它产生了,你知道,这种神奇的改进,与实验结果完全一致,就像对数尺度一样,对吧?哦,是的,他们有论文中的那张图。技术部分。缩放定律是完美的,对吧?
但这并不是一个疯狂的数字,对吧?20000 个 A100,每个 GPU 大约消耗 400 瓦。然后当你添加整个服务器时,对吧,所有东西,它就像 15 到 20 兆瓦的电力,对吧?你知道,也许你可以查一下人的耗电量是多少,因为数字会变得很荒谬。但像 15 到 20 兆瓦是标准的数据中心规模。这只是前所未有的。所有 GPU 都运行一项任务。烤面包机有多少瓦?
烤面包机的功耗与 A100 差不多,对吧?H100 出现后,它们的功率从大约 400 瓦增加到 700 瓦,这只是每个 GPU 的功率,然后还有所有相关的组件。因此,一旦你计算所有这些,对于所有东西,网络、CPU、内存等等,大约是 1200 到 1400 瓦。所以我们也应该说,所以需要......
你说过电力。所以需要大量的电力。会产生大量的热量。需要冷却。并且由于有很多 GPU 或 CPU 或其他东西,它们必须连接起来。所以有很多网络。是的。是的。所以我想,是的,抱歉跳过了这一点。然后数据中心本身也很复杂,对吧?但对于 GPD4 规模来说,这些仍然是标准化的数据中心。
现在我们来看看去年人们构建的集群规模是什么?它的范围很广。范围从,嘿,这些是标准的数据中心,我们只是使用多个数据中心并将它们连接在一起,中间有很多光纤,很多网络等等。这就是 OpenAI 和微软在亚利桑那州所做的。所以他们有 10 万个 GPU。Meta,类似的事情。他们采用了他们现有的标准数据中心设计,它看起来像一个 H,并将多个数据中心连接在一起。
嗯,你知道,他们首先使用了 16000 个 GPU,总共 24000 个 GPU。只有 16000 个 GPU 在训练运行中运行,因为 GPU 非常不可靠。所以他们需要有备件来进行交换,一直到他们目前正在训练 Lama 的 10 万个 GPU,对吧?大约 128000 个左右,对吧?这是,你知道,想想 10 万个 GPU,嗯,
每个大约 1400 瓦,那就是 140 兆瓦,150 兆瓦,对吧?对于 128 个,对吧?所以你说的就是,你从 15 到 20 兆瓦跳到了 10 倍,你知道,几乎是 10 倍,9 倍,到 150 兆瓦......
在两年内,对吧?从 2022 年到 2024 年,对吧?有些人像埃隆,他承认,对吧?他自己说,他开始训练大型语言模型的时间有点晚了,对吧?XAI 开始得比较晚,对吧?但随后他孤注一掷,以获得他的数据中心并获得世界上最大的集群,对吧?也就是 20 万个 GPU。他做到了。他在孟菲斯买了一个工厂
他正在升级变电站,但与此同时,他还有一堆移动发电设备,一堆单循环联合循环。他接通了工厂旁边的那条天然气管道,并且正在抽取大量的天然气,燃烧天然气。他正在产生所有这些电力。他位于一家工厂,一家很久以前关闭并搬到中国的旧家电工厂,对吧?他里面有 20 万个 GPU。
现在下一个规模是什么,对吧?大型超算公司都这么做了。现在下一个规模是更大的东西,对吧?所以埃隆,为了坚持这个话题,他正在建造自己的天然气厂,就像一个合适的工厂,就在隔壁。他正在部署大量的特斯拉超级电池组,以使电力更平稳,以及各种其他事情。他拥有工业冷却器。
用来冷却水,因为他正在用水冷却芯片。所以所有这些疯狂的事情都是为了让集群越来越大。但是当你看到像 OpenAI 使用 Stargate 做的事情时,
那是位于亚利桑那州,德克萨斯州阿比林,对吧?他们至少宣布了,对吧?它还没有建成,对吧?埃隆说他们没有钱。对此有一些争论。但至少第一部分的全面规模肯定是有资金的,但有多个部分。但全面规模,该数据中心将达到 2.2 吉瓦,对吧?2200 兆瓦的电力输入,大约 1.8 吉瓦或 1800 兆瓦。
是的,1800 兆瓦的电力输送到芯片,对吧?现在,这是一个荒谬的规模。2.2 吉瓦就像大多数城市一样,对吧?明确地说,它被输送到连接在一起用于训练的单个集群,对吧?训练这些模型,进行预训练、后期训练,所有这些事情,对吧?
这太疯狂了。什么是核电站?每个人都在这样做,对吧?每个人都在这样做,对吧?路易斯安那州的 Meta,对吧?他们正在建造两个大型天然气厂。然后他们正在建造这个大型数据中心。亚马逊有这样的计划。谷歌有这样的计划。XAI 有这样的计划,对吧?所有这些,正在竞争的家伙......
正在竞争的公司正在努力竞争,他们正在建设多吉瓦数据中心,对吧?为了建设这个,因为他们认为,是的,如果我现在有,你知道,显然预训练规模将继续下去,但在某种程度上,但还有所有这些后期训练的东西,你有一个用于计算机使用的强化学习沙箱或其他什么,对吧?就像,你知道,这就是他们要去的地方,以及所有这些可变领域,他们只是不断学习、学习、学习自我博弈,无论是什么,都会使人工智能变得更加强大。
因为这条线确实上升了,对吧?当你投入更多计算时,你会获得更多性能。这件衬衫是关于缩放定律的。你知道,在某种程度上,它确实有递减收益,对吧?你将计算能力提高 10 倍,你不会得到 10 倍更好的模型,对吧?你会得到递减收益,但你也会获得效率改进。所以你弯曲了曲线,对吧?这些规模的数据中心正在做,你知道,对网络造成破坏,
对。而且,你知道,内森提到亚马逊试图购买这个核电站,Talon。如果你看看 Talon 的股票,它就像在飙升。而且,你知道,就像他们正在那里建造一个大型的多吉瓦数据中心。而且,你知道,你只要列出清单。这里有很多影响。有趣的是,美国某些地区的电力传输成本高于实际发电成本。
对。因为电网建设速度太慢,电力需求和发电能力以及天然气厂甚至燃煤厂的重新启动都比较容易。但是电力传输非常困难。因此,在美国的一些地区,例如弗吉尼亚州,传输电力的成本高于发电的成本,这就像,你知道,这里有很多疯狂的二阶效应。电网能否支持这种增长?你知道,特朗普的行政命令。在今年年底之前,拜登也有一些行政命令。但特朗普还有一些行政命令,这些命令
有望减少法规,以便可以建设东西。但是,是的,这是一个巨大的挑战,对吧?是否能够足够快地建设足够的电力?你基本上会在每个这样的数据中心旁边都建一个核电站吗?所以这里有趣的事情是,建造发电站或重新配置现有发电站的速度太慢了。因此,你必须使用
数据中心的电力消耗是平坦的,对吧?你知道,我的意思是,它是不稳定的,对吧?这就是为什么核能也适合它。长期来看,核能非常自然地适合,但短期内你无法使用太阳能或其他任何东西。因为数据中心的电力是这样的,对吧?就像你告诉我,你知道,我要购买数百亿美元的 GPU 并让它们闲置,因为电力没有产生。电力很便宜,对吧?就像如果你看看集群的成本,不到 20% 是电力,对吧?是的。
大部分是 GPU 的资本成本和折旧,对吧?所以就像,好吧,去他的。我只是,你知道,我只是建造天然气厂。这就是 Meta 在路易斯安那州所做的。这就是 OpenAI 在德克萨斯州以及其他所有不同地方所做的。他们可能不是直接这样做,但他们与某人合作。所以有一些希望,对吧?就像一个是,
你知道,埃隆,他在孟菲斯所做的就像,你知道,到了极端,他们不仅仅使用双循环联合循环天然气,这非常高效。他还只是使用单循环和移动发电机等,效率较低。但是,你知道,还有另一方面,那就是太阳能发电是这样的。风能是另一种类似的关联,你知道,不同的。因此,如果你将两者都堆叠起来,再加上你获得大量电池。
再加上你有一点天然气,有可能使其更环保。只是这样做的时限很慢,对吧?所以人们正在尝试。
但是,你知道,Meta 基本上说,不管怎样,不在乎我的可持续发展承诺。或者他们会购买电力,这被称为 PPA,电力购买协议,在那里会有一个大型的风力发电场或太阳能发电场,无论在哪里。然后他们会假装这些电子被数据中心消耗了。但实际上,他们在这里支付电力,然后将其出售给电网,他们在这里购买电力。然后另一件事是微软放弃了。
放弃了他们的一些可持续发展承诺,对吧?埃隆,他在孟菲斯所做的事情客观上有点脏,但他也在一个附近有更大的天然气厂和下水道,或者不是下水道,而是污水处理厂和垃圾场附近的地方这样做,对吧?而且他显然使世界比那个数据中心要干净得多,对吧?所以我想在某种程度上是可以的,也许 AGI 会解决全球变暖之类的问题,对吧?无论是什么。是的。
你知道,这有点像实验室里的人的态度,对吧?那就是,是的,太好了。我们只使用天然气,对吧?因为这场比赛非常重要。如果我们输了,你知道,那就更糟了,对吧?我应该说我有机会参观了孟菲斯数据中心。哦,哇。这真是太不可思议了。我的意思是,我和埃隆一起参观了。只是团队和......
那里的创新速度令人难以置信。我的感觉是,没有人做过这种规模的事情,而且肯定没有人以 XAI 的速度做过这种规模的事情。所以他们就像在想办法
我的意思是,参加所有这些头脑风暴会议,感觉就像,太疯狂了。这令人兴奋,因为他们就像,他们试图找出瓶颈在哪里,如何消除瓶颈,如何确保,你知道,把数据中心整合在一起有很多非常酷的事情,因为,你知道,一切必须正常运转。
那些从事系统管理员、机器学习等等工作的人,才是令人兴奋的事情。但真正运行一切的人是那些了解运行一切的底层软件和硬件、网络等等的人。所以你必须像,
确保你拥有测试一切的流程。我认为他们使用以太网。我不知道他们是如何进行网络连接的,但他们使用的是 NVIDIA Spectrum-X 以太网。嗯,实际上,我认为,是的,幕后英雄是冷却和电力系统,这些系统都被忽略了。是的。嗯,但我认为,像,一个可能说明这些东西有多疯狂的故事是,呃,当你训练的时候,对吧。嗯,
你一直在做,你一直在运行模型很多次,对吧?用最简单的术语来说,就是运行模型很多次,然后你会交换所有内容并同步权重,对吧?所以你会做一步。这就像模型训练中的一步,对吧?每一步你的损失都会下降,希望如此,但并非总是如此。但用最简单的术语来说,你会进行大量计算,然后你会交换,对吧?是的。
有趣的是,GPU 功率占大部分。网络功率也有一些,但要少得多。所以当你在计算时,你的 GPU 功率在这里。但是当你交换权重时,如果你不能完美地重叠通信和计算,可能会有一个时间段你的 GPU 只是空闲的。
而你正在交换权重,并且你像,嘿,模型正在更新。所以你正在交换梯度,你进行模型更新,然后你,你开始再次训练。所以功率上升了。而且它非常尖锐。所以很有趣的是,对吧?像这样,当你谈论数据中心功率的规模时,对吧,你可以很容易地炸毁东西。嗯,
Meta 实际上意外地将某些东西上载到 PyTorch 中的代码中,他们在其中添加了一个运算符。我跟你开玩笑,无论是谁做的,我都想拥抱这个人,因为它说 PyTorch。它就像 PyTorch.powerplantnoblowup。
等于零或等于一,它所做的,它所做的令人惊叹,对吧,要么你知道,当你交换权重时,GPU 将只计算虚假数字,这样功率就不会激增太多,这样发电厂就不会爆炸,因为瞬态尖峰会搞砸东西,好吧,这说得通,我的意思是,你必须做这种事情,你必须确保它们不空闲,是的,而埃隆的解决方案是,让我扔一堆特斯拉巨型电池组和其他一些东西,对吧,每个人都有不同的解决方案,但至少 Meta 是公开的
并且公开已知,这就像设置这个运算符。这个运算符的作用是让 GPU 不计算任何东西,这样功率就不会激增。但这只是告诉你你在使用多少功率。我的意思是,这太疯狂了。太疯狂了。人们应该去谷歌搜索,比如规模,比如 X 瓦特能做什么,然后从一瓦到千瓦再到兆瓦的所有规模中进行浏览。你看着它,凝视着它,你会发现千兆瓦在列表中的位置有多高。这令人难以置信。是的。
你能说说冷却吗?我知道埃隆在所有情况下都使用液冷,我相信。
呃,这是新事物,对吧?大多数人都不使用液冷。关于冷却还有什么有趣的事情要说吗?是的。是的。所以风冷一直是事实上的标准,呃,扔一堆金属散热器、热管等等,还有风扇,对吧。而且,那很冷。这足以冷却它。嗯,人们一直在尝试水冷。谷歌的 TPU 是水冷的。对吧。嗯,所以他们已经做了几年了。呃,但是,呃,对于 GPU,没有人做过,也没有人做过埃隆刚刚做的这种规模的水冷,对吧。呃,嗯,
现在,下一代 NVIDIA 最高端的 GPU,是强制水冷的。你必须用水冷。但埃隆在当前一代就做到了这一点,这需要很多东西,对吧?如果你看看孟菲斯工厂的一些卫星照片和东西,你会看到所有这些外部水冷器基本上都坐在那里,看起来像一个
看起来像一个半挂车吊舱的东西。它叫什么?集装箱。但实际上,这些是水冷器。他大约有 90 个这样的水冷器就坐在外面。90 个不同的集装箱,对吧?用水,你知道,冷却水,把它送回数据中心,然后你把它分配给所有芯片,排出所有热量,然后送回去,对吧?这既是冷却芯片的一种方式,也是一种效率问题。
回到那种三向量的东西,有内存带宽、浮点运算和互连。芯片越靠近在一起,高速互连就越容易。所以这也是你要进行水冷的原因,因为你可以把芯片直接放在一起,从而获得更高的速度连接。
我必须问你,所以在你的最近一篇帖子中,有一节叫做“集群测量竞赛”。那里还有另一个词,但我不会说,你知道吗?谁现在拥有最大规模,谁将拥有最大规模?今天,单个最大的就是埃隆,对吧?对。
埃隆在孟菲斯市的集群,20 万个 GPU,对吧?嗯,Meta 大约有 12.8 万个,OpenAI 现在有 10 万个。现在要明确的是,其他公司拥有的 GPU 比埃隆多。他们只是没有把它们放在一个地方。对。对于训练,你希望它们紧密连接。人们正在研究和开发一些技术,可以让你跨多个区域进行训练。但大多数情况下,你希望它们都在一个区域,对吧?这样你就可以用高速网络将它们高度连接起来。嗯,
所以,你知道,埃隆今天拥有 20 万个 H100 和 H100,10 万个 H100,10 万个 H200。对。嗯,Meta、OpenAI、呃,你知道,还有亚马逊,都拥有大约 10 万个,少一点。嗯,但明年,对,今年,人们正在建造更多,对吧。Anthropic 和亚马逊正在建造一个拥有 40 万个 Trainium 2 的集群,这是一个亚马逊专用芯片,呃,试图摆脱英伟达。对。嗯,你知道,呃,
Meta 和,和,和 OpenAI 的规模达到了数十万,但到明年,你将拥有 50 万到 70 万个 GPU 集群。并且注意,这些 GPU 的功耗比现有 GPU 高得多,对吧?Hopper 700 瓦,Blackwell 达到 1200 瓦,对吧?所以,每个芯片的功率正在增长,芯片的数量也在增长,对吧?太疯狂了。是的。你认为,你认为埃隆说他会达到一百万。你认为这实际上可行吗?
我的意思是,我不怀疑埃隆,对吧?他为发电厂和特斯拉电池组提交的文件表明,他有一些疯狂的孟菲斯计划。许可证和东西是公开记录,对吧?但还不清楚什么以及时间表是什么。我只是从不怀疑埃隆,对吧?他会让我们大吃一惊的。那么这些集群的想法是什么呢?如果你有一百万个 GPU,那么在比如说两年、三年内,有多少百分比用于
训练,有多少百分比用于预训练,有多少百分比用于实际计算?这些大型集群对于推理毫无意义,对吧?你可以将推理路由到那里,而不仅仅是训练。但是大多数推理能力正在被,你知道,嘿,我这里有一个 30 兆瓦的数据中心。我这里有 50 兆瓦,我这里有 100 兆瓦,无论什么。我只会把推理扔到所有这些中,因为大型集群,对吧,多千兆瓦的数据中心,我想在那里进行训练。
因为那里是我所有 GPU 的共同位置,我可以以超高速网络连接它们,对吧?因为这是训练所需的。现在,对于预训练,这是旧的规模,对吧?你可以增加参数,你可以增加数据,模型会变得更好。
呃,这不再适用,因为预训练方面没有更多的数据了,对吧?呃,是的,有视频、音频和图像尚未得到充分利用。所以还有很多扩展空间,但很多人喜欢,像,呃,已经,已经转录了 YouTube 视频的文字记录。这会让你获得很多数据。它不会让你从视频和图像数据中获得所有学习价值,但你知道,在预训练方面仍然有扩展空间。
但是这个后训练世界将是所有浮点运算将被花费的地方,对吧?模型将与自身进行交互。它将进行自我博弈。它将执行可验证的任务。它将在沙箱中进行计算机使用。它甚至可能进行模拟机器人技术,对吧?像所有这些东西都将成为在所谓的“后训练”中花费计算的环境。但我认为这会很好。我们将从后训练中删除“后”字。是的。
是的。我认为这将是预训练,这将是训练,我认为。退休为王。在某个时刻。因为在过去几年的大部分时间里,预训练都超过了
后训练。但是有了这些可验证的方法,特别是那些可以真正扩展,你知道,可能无限扩展的方法,比如计算机使用和机器人技术,而不仅仅是数学和编码,对吧,你可以验证正在发生的事情,这些无限可验证的任务,似乎你可以随意在它们上面花费尽可能多的计算资源。尤其是在上下文长度增加的情况下,因为在预训练结束时,你会增加这些模型的上下文长度。我们之前在谈话中谈到过上下文长度将
当你有一个长输入时,它比输出更容易管理。许多这些后训练和推理技术依赖于大量的采样,并且它变得越来越长的上下文。所以它就像你的计算效率下降了。我不认为浮点运算是你衡量它的标准,但是有了强化学习,你必须做所有这些事情,你移动权重的方式与预训练和后训练不同。
只是生成,它将变得效率低下,而浮点运算将不再是一个有用的术语。然后随着基础设施的改进,它可能会回到浮点运算。
所以我们一直在谈论的所有事情很可能都是英伟达,对吧?有没有竞争对手?谷歌,谷歌,我有点忽略了他们。呃,TPU 的故事是什么?像,TPU 是,是令人敬畏的,对吧?它很棒。呃,谷歌是,他们有点不太热衷于建造数据中心,出于某种原因。他们正在建造大型数据中心。别误会我的意思。而且他们拥有,他们实际上拥有最大的集群。让我,我刚才谈论的是英伟达集群。他们实际上拥有最大的集群。呃,
但他们这样做的方法非常有趣。他们有两个数据中心超级区域。数据中心并非物理上,所有 GPU 并非物理上在一个站点上,但它们相距约 30 英里。不是 GPU,是 TPU。在爱荷华州和内布拉斯加州,他们有四个数据中心彼此紧挨着。为什么谷歌不展示其集群规模?转向多数据中心训练。那里有很好的图片,所以我会告诉你我的意思。它只是半分析多数据中心。
所以这是一张标准谷歌数据中心外观的图片。顺便说一句,他们的数据中心与其他任何人的数据中心看起来都非常不同。- 我们在这里看什么?- 所以这些是,是的,所以如果你看到这张图片,对吧,中心有这些大的长方形盒子,对吧?那些是实际存放芯片的地方。然后如果你向下滚动一点,你可以看到这些水管,这些冷却塔在顶部,还有一堆柴油发电机。柴油发电机是备用电源。
数据中心本身就像,看,物理上比水冷器小,对吧?所以芯片实际上更容易放在一起,但是像冷却所有用于水冷的水非常困难,对吧?所以谷歌拥有 TPU 非常先进的基础设施,这是其他人所没有的,对吧?
嗯,他们所做的是,他们已经像盖章一样盖上了这些数据中心。他们在几个地区倾倒了一堆这些数据中心。对。所以如果你再往下走一点,嗯,这是,这是微软,这是亚利桑那州。这是所谓的 GPT-5 将被训练的地方。嗯,你知道,呃,如果它还不存在的话。是的。如果它还不存在的话。嗯,但是每个数据中心,对吧。我已经展示了几个它们的图像。它们在同一个区域非常靠近,对吧?内布拉斯加州,爱荷华州。然后他们在俄亥俄州综合大楼也有类似的一个,对吧。嗯,
所以这些数据中心彼此非常靠近。他们所做的是用光纤将它们连接起来,带宽非常高。所以这些只是一堆数据中心。重点是谷歌拥有非常先进的基础设施。
在一个小区域内紧密连接。所以埃隆将始终拥有最大的完全连接的集群,对吧?因为它们都在同一栋建筑物里,对吧?他在这方面完全正确,对吧?谷歌拥有最大的集群,但你必须分散到三个站点,而且差距很大,但你必须跨多个站点。为什么谷歌不与英伟达竞争?他们为什么不销售 TPU?我认为这其中有几个问题。就像一个,TPU 是一种......
允许搜索变得非常便宜并为此构建模型的方式。对。嗯,所以像很大一部分搜索 GPU 采购或 TPU 采购都是谷歌采购和使用的大部分。所有这些都是用于内部工作负载,对吧?无论是搜索、呃,现在的 Gemini、对。呃,YouTube、嗯,他们拥有的所有这些不同的应用程序、呃,你知道、广告、嗯,这些都是他们所有 TPU 的花费之处,而这就是他们高度关注的重点,对吧。嗯,
所以架构的某些方面针对他们的用例进行了优化,而其他方面则没有进行优化。对。一个简单的例子是,他们开源了一个 Gemma 模型,并将其命名为 Gemma 7B。对。但实际上它是 80 亿个参数,因为词汇量非常大。他们之所以使词汇量如此之大,是因为 TPU 喜欢矩阵乘法单元非常大。
因为这是他们已经优化的东西。所以他们决定,哦,好吧,我也会把词汇量变大,即使这样做在一个这么小的模型上毫无意义,因为这适合他们的硬件。所以 Gemma 在 GPU 上的运行效率不如 Lama 高,对吧?但反过来,Lama 在 TPU 上的运行效率不如 Gemma 高,对吧?所以硬件软件协同设计方面有一些方面。所以他们所有的搜索模型都是他们的排名和推荐模型。所有这些不同的模型都是 AI,但不像 Gen AI,对吧,已经
与 TPU 进行了永久的超优化。软件堆栈超级优化,但所有这些软件堆栈都没有公开发布,对吧?非常小的一部分。Jax 和 XLA 已经发布了,但是像,
当你身处谷歌并在 TPU 上进行训练作为研究人员时,在许多情况下,你不需要了解任何硬件知识,对吧?就像它很漂亮。但是一旦你离开,他们都会,他们中的许多人都会回来。他们离开谷歌,然后他们又回来了。是的。是的。他们就像,他们离开并开始创业,因为他们有所有这些令人惊叹的研究想法。他们就像,等等,基础设施是
很难的。软件很难。这在 GPU 上。或者如果他们试图使用 TPU,也是一样,因为他们无法访问所有这些代码。所以它就像,你怎么说服一家公司,它的金鹅是搜索,他们从搜索中赚取数千亿美元,开始销售 GPU 或 TPU,他们过去只购买几十亿美元,你知道,我认为在 2023 年他们购买了大约几十亿美元。
现在他们购买了大约 100 亿到 150 亿美元。但是你怎么说服他们应该购买两倍的数量并弄清楚如何销售它们并赚取 300 亿美元?就像谁在乎赚取 300 亿美元?难道这 300 亿美元最终不会超过搜索利润吗?哦,我的意思是......
你总是会从服务中赚到比......更多的钱。总是。我的意思是,是的。要明确的是,今天人们在硬件上的花费比在服务上的花费多得多,对吧?因为硬件前端运行服务支出。但是像......你在投资。如果没有 AI 东西的收入或收入不足,那么显然它会爆炸,对吧?人们不会永远继续在 GPU 上花钱。英伟达正在尝试通过他们试图销售和许可的软件来向上移动堆栈,对吧?但是......
谷歌从未有过这种像“这是一个我们应该销售的产品”的 DNA,对吧,他们实际上没有,谷歌云有,这是一个与 TPU 团队不同的组织,这是一个与 DeepMind 团队不同的组织,这是一个与搜索团队不同的组织,对吧,有很多官僚主义,等等,谷歌云是一个与 TPU 团队不同的团队,从技术上讲,TPU 位于基础设施之下,基础设施位于谷歌云之下,但是像谷歌云一样,像
租赁东西和 TPU 架构的目标非常不同,对吧?硬件和软件,像所有这些,对吧?像 Jax 和 XLA 团队并没有为谷歌的外部客户服务。而英伟达的各种 CUDA 团队,比如针对像 Nickel 之类的东西,则为外部客户服务,对吧?嗯,
内部团队,比如 Jackson 和 XLA 等等,他们更多地为 DeepMind 和搜索服务,对吧?所以他们的客户不同。他们没有为他们构建产品。你明白为什么 AWS 一直在赢,呃,与 Azure 云相比,呃,
与谷歌云相比。谷歌云很小,不是吗,相对于 AWS?谷歌云排名第三。微软是第二大,但亚马逊是最大的,对吧?微软具有欺骗性地将 Microsoft Office 365 和类似的东西包括在内,比如其中一些企业范围的许可证。所以实际上,差距更大。微软仍然是第二名,对吧?亚马逊大得多。为什么?因为使用 AWS 更好更方便。而且它是第一名。它是第一名。是的,但有很多东西是第一名。
好吧,它更容易。切换比做它更难。但 AWS 是他们的核心。切换也有很大的费用。AWS 产生亚马逊超过 80% 的利润。我认为超过 90%。这太疯狂了。配送中心就像,有一天我们会决定从这里赚钱。但他们还没有,对吧?就像他们从中赚取的利润微乎其微。是的,有一天亚马逊 Prime 的价格会翻三倍。你会认为他们会改进 AWS 界面,因为它很糟糕。
它很笨拙,但每个人都是。我不,是的。人们会这么想。我认为实际上谷歌的界面有时很好,但它也像他们不关心除了顶级客户以外的任何人。没错。而且他们的客户服务很糟糕,而且他们少了很多像。我的意思是,所有这些公司,他们都为大客户进行了优化。是的。它应该是为企业服务的。但亚马逊也一直为小型客户进行了优化,对吧?显然,他们为大客户进行了大量优化,但是像他们刚开始的时候,他们只是会去像海湾地区的一些随机活动并提供积分。
对,然后他们喜欢,或者只是输入你的信用卡并使用我们,对吧,像在早期一样,所以他们一直以来,业务随着他们一起增长,对吧,蓬勃发展,所以像为什么亚马逊喜欢为什么 Snowflake 遍布亚马逊,因为在亚马逊不关心他们的早期,Snowflake 仍在使用亚马逊,对吧,然后当然有一天 Snowflake 和亚马逊建立了超级巨大的合作伙伴关系,但是像这种情况一样,亚马逊的
用户体验和质量更好。此外,他们设计的许多硅片使他们在传统云存储、CPU、网络等方面的成本结构比数据库低,对吧?像,你知道,我认为亚马逊排名前五的收入产品中有四种是
利润产品是毛利润产品,或者所有与数据库相关的产品,如 Redshift 和类似的东西,对吧?像,所以亚马逊拥有非常好的硅片到用户体验的整个管道,就像 AWS 一样。我认为谷歌,他们的硅片团队,是的,他们在内部拥有很棒的硅片,TPU,YouTube 芯片,你知道,他们制造的一些其他芯片,而且他们
问题是他们没有为外部客户服务。他们为内部客户服务,对吧?我的意思是,英伟达的整个文化都是从下到上设计的,目的是做到这一点。最近有一本书,《英伟达之道》,作者是 Tekem,详细介绍了这一点以及他们如何寻找未来的机会并准备好他们的 CUDA 软件库,以便高性能计算的新应用可以非常快速地在 CUDA 和英伟达芯片上发展。这与谷歌作为一家服务型企业完全不同。
- 是的,我的意思是,英伟达,应该说,是一家真正特殊的公司。像,我的意思是,他们,整个,文化,一切,他们真的为此类事情进行了优化。说到这里,有没有人可以在硬件方面挑战英伟达?
英特尔,AMD?我真的不这么认为。我们经历了一个非常漫长的过程,与 AMD 合作在他们的 GPU 上进行训练等等。而且它们还不错。它们的硬件在许多方面都比英伟达的更好。问题是它们的软件真的很糟糕。我认为它们正在变得更好,对吧?它们变得越来越快,但差距太大了。
而且他们没有投入足够的资源,或者历史上没有投入足够的资源,对吧?也许他们现在正在改变他们的想法,但是你知道,对于,对于,对于几个月我们一直在提交这些错误,对吧?像我们,半分析,对吧?像什么?像,为什么我们要提交这些错误?对。因为他们只,而且他们,他们只关心他们最大的客户。所以他们会给他们发送一个私有镜像,等等。就像,好吧,但是像,
我只是在使用 PyTorch,我想使用公开可用的库。而且他们不关心这个。对。所以他们正在变得更好。但是像,我认为 AMD 是不可能的。英特尔现在显然处于困境之中,需要以某种方式得到拯救。对于国家安全、美国技术来说非常重要。你能解释一下,显然,所以什么,为什么他们处于困境之中?回到前面,只有三家公司可以,
研发,对吧?台湾新竹,三星平壤,然后是英特尔希尔斯伯勒。三星做得非常糟糕。英特尔做得非常糟糕。我们可能生活在一个世界上,只有一家公司能够进行研发。而那家公司已经制造了大部分芯片。他们一直在增加市场份额。但这是一件至关重要的事情,对吧?所以台湾发生的事情意味着世界其他地区的半导体产业,因此科技
依赖于台湾,对吧?这显然是危险的。至于英特尔,他们一直在缓慢而稳定地下降。他们在服务器和 PC 方面处于领先地位,但现在苹果推出了 M1,英伟达正在发布 PC 芯片,高通正在发布 PC 芯片。在服务器方面,超大规模公司都在制造他们自己的基于 ARM 的服务器芯片。英特尔没有像赢这样的 AI 硅片,对吧?他们只有很小的胜利。
而且他们从未涉足移动领域,因为他们拒绝了 iPhone。所有这些事情都加剧了,他们失去了他们的工艺技术领先地位,对吧?他们领先了 20 年,现在至少落后了几年。对。他们正在努力追赶,我们将看看他们的 18、a14、a 策略是否有效,他们试图超越台积电。但是像,
英特尔反正一直在亏损,对吧?他们刚刚解雇了他们的首席执行官,即使首席执行官是唯一一个非常了解公司的人,对吧?我们将拭目以待。他不是最好的人,但他相对不错,一个技术人员。英特尔的大部分钱是从哪里赚来的?CPU 仍然是,对吧?PC 和数据中心 CPU,是的,但是。
数据中心 CPU 都在转向云端,亚马逊、微软、谷歌都在制造基于 ARM 的 CPU,呃,然后呃,PC 方面,AMD 已经获得了市场份额,英伟达正在推出一种不会成功的芯片,对吧,联发科、高通曾经推出过芯片,苹果做得很好,对吧,他们可能会在 PC 方面受到一些挤压,尽管 PC 通常我认为会主要坚持英特尔,主要是针对 Windows 方面,让我们谈谈广泛的 AI 竞赛,你认为谁会赢
谁谈到了谷歌。领导者,默认的领导者一直是谷歌,因为他们的基础设施优势。好吧,就像新闻报道的那样,OpenAI是领导者。他们在叙事中处于领先地位。他们拥有最好的模型。他们拥有人们可以使用且最优秀的模型,并且他们是专家。他们拥有最多的AI收入。
是的。OpenAI正在获胜。那么现在谁在AI上赚钱呢?有人赚钱吗?从会计利润的角度来看,微软正在赚钱,但他们正在花费大量的资本支出,对吧?你知道,这会在数年内折旧。Meta正在赚取巨额利润,但使用的是推荐系统,这是AI,但不是使用Llama,对吧?Llama肯定是在亏钱,对吧?是的。
我认为Anthropic和OpenAI显然没有赚钱,因为否则他们就不会筹集资金,对吧?他们必须筹集资金才能建造更多,对吧?尽管理论上他们是在赚钱,对吧?比如,你知道,你花了数亿美元用于GPT-4,它带来了数十亿美元的收入。所以,显然它是在赚钱。尽管他们必须继续研究以获得计算效率的提升,对吧?并沿着曲线向下移动,比如,你知道,达到12,获得GPT-3已经实现的1200倍,你知道,
也许我们现在只达到了几百倍,但随着GPT-4 Turbo和4.0的出现,可能还会有另一个比GPT-4.0更便宜的版本在某个时候出现。——而这项研究需要花费大量的资金。——是的,没错。——我认为这正是人们在谈论成本时没有谈到的,当你提到模型的成本时,它不仅仅是训练,
或测试运行,而是实际的研究,人力。是的,要做推理之类的事情,对吧?既然它已经存在,他们就会扩展它。他们仍然会进行大量的研究。我认为,你知道,人们关注的是回报问题,但这很容易,就像,好吧,你知道,GDP是人类和工业资本,对吧?如果你能让智能变得廉价,那么你就能获得很大的增长,对吧?这是一种解释它的愚蠢方法。但这基本上就是投资论点。
我认为只有英伟达实际上正在赚取巨额利润,以及其他硬件供应商。超大规模公司表面上都在赚钱,但实际上,他们在购买GPU上花费更多,你不知道他们是否还能在两年内从每块GPU上赚到这么多钱。你不知道是否......
你知道,OpenAI突然破产了,现在微软拥有数十万块他们自己花钱购买的、租给OpenAI的GPU,这些GPU不再有客户了,对吧?这种情况总是可能的。我不相信这一点,对吧?我认为,你知道,OpenAI会继续筹集资金。我认为其他人也会继续筹集资金,因为一旦我们拥有AGI,这些投资的回报最终将是巨大的。所以你认为多家公司会
我不认为这是赢家通吃。好的。所以,不要称之为AGI或其他什么。它就像单日一样。这是一个渐进的过程。超级强大的AI。但它是一组逐渐增加的有用功能,并能赚取大量资金。迅速增加的功能集。迅速增加的功能集。所以你是在说很多公司将会,这似乎很荒谬,
所有这些公司都在建设巨大的数据中心。有些公司将从AI中受益,但不是因为他们训练了最好的模型。比如Meta有很多途径可以从AI及其所有服务中获益。人们在那里。人们在Meta的平台上花费时间,这是一种提高每个用户每小时收入的方法。是的,谷歌似乎......
X/XAI/特斯拉,必须说明。然后Meta将受益于AI,而不是像LLM这样的AI,而是受益于智能,比如对其已经销售的产品的额外智能提升。无论是推荐系统,还是埃隆,他一直在谈论Optimus机器人,
可能是机器人的智能,然后你家里有个性化的机器人,他认为这是一项价值10万亿美元以上的业务,在某个时候也许不是很快,但谁知道机器人技术呢,让我们做一个TAM分析吧,80亿人,让我们得到80亿个机器人吧,让我们给他们支付平均工资,是的,就是这样,10万亿美元
超过10万亿美元。是的,我的意思是,如果到处都是机器人,为什么只需要80亿个机器人呢?是的,当然,当然。我将拥有一个机器人。你将拥有20个。是的,我的意思是,我看到了它的用例。所以是的,我认为好处将体现在他们销售的产品上,这就是为什么......
Open AI处于一个更棘手的境地,因为他们......Open AI目前的品牌价值全部在于ChatGPT。实际上并没有那么多......对于大多数用户来说,他们没有那么多理由需要Open AI花费数十亿美元用于下一个最好的模型,而他们可以以更低的成本获得Llama 5和Furby的许可。所以这有点像......ChatGPT对他们来说是一个极其宝贵的实体。
但他们可以仅靠此赚钱。聊天应用程序显然没有很大的继续发展的空间,对吧?就像标准聊天一样,对吧?你只是用它来回答随机问题等等,对吧?成本持续下降。V3是最新版本。它将降至广告。最大。但它将由广告支持,对吧?比如,你知道,Meta已经服务了4050亿,可能亏损了。但在某个时候,你知道,他们将获得
模型将变得如此便宜,以至于他们可以用广告支持免费提供它们,对吧?这就是谷歌能够做到的事情。这显然是他们拥有更大的影响力,对吧?所以聊天不会是唯一的用例。像推理、代码、代理、计算机使用,所有这些都是OpenAI未来必须去赚钱的地方。否则他们就完蛋了。但X、谷歌和Meta拥有这些其他产品。所以OpenAI和Anthropic不太可能......
最终消失。除非他们在模型方面非常出色,而他们确实如此。但这是一种尖端技术。这取决于你认为AI能力将走向何方。你必须继续获胜。是的。你必须继续获胜。当你攀登时,即使AI能力以超快的速度发展,很棒,朝着AGI的方向发展,仍然会有一个提升。
对于X来说,在数据方面,谷歌在数据方面,Meta在数据方面,在其他产品和资金方面,就像有巨额资金一样。整个想法是人类数据有点枯竭了。我们不在乎。我们都关心自玩、可验证的任务。如果你考虑AWS,AWS在每台机器上赚的钱并不多。对于最强大的AI平台来说,也是如此,即使对API的调用非常便宜,仍然可以赚到很多钱。
通过拥有该平台。并且有很多讨论,因为它是最新的计算层。你必须相信这一点,是的,有很多讨论说令牌和代币经济学以及LLM API是下一个计算层或经济的下一个范式,就像能源和石油一样。但也有一些,你必须相信API和聊天不是
AI停滞不前的地方,对吧?它实际上只是任务、代理和机器人技术以及计算机使用。这些领域将交付所有价值,而不是API,而不是聊天应用程序,对吧?你有没有可能,我的意思是,这一切都变成了商品,你有一个非常薄的包装器,就像困惑一样,开玩笑。是的。
有很多包装器正在赚很多钱。是的,但你认为人们是否会忘记OpenAI和Thropic是什么?因为将会有围绕API的包装器,并且它会动态地......如果模型的进展不快,是的,它正在变成商品,对吧?DeepSeek v3显示了这一点,但早期的GPT-3图表,Kurt图表也显示了这一点,对吧?Llama 3B比GPT-3便宜1200倍。任何商业模式依赖于GPT-3级别能力的公司都死了。
任何商业模式依赖于GPD4级别能力的公司都死了。一句常见的话是,现在正在创造的最好的业务是那些基于模型改进的业务。对。这就像说唱歌手一样,它正在利用模型的浪潮。短期内,能够赚到最多钱的公司是那个弄清楚广告需求的公司。
定位方法适用于语言模型生成。我们有Meta广告,它们是超定向的供稿,而不是特定内容中的供稿。我们有谷歌使用的搜索广告,亚马逊在搜索方面的广告收入也在大幅增加。但在ChatGPT的返回中,目前尚不清楚如何在输出中获得高质量的广告位。如果你能做到这一点,而模型成本正在下降,那么你就能
你可以获得超高的收入。这种收入完全未被开发,技术上也不清楚是如何实现的。是的,这就是谷歌所做的AdSense创新
有一天,你将在GPT输出中看到一个广告,这将带来数十亿美元的收入。它可能非常微妙。它可能是在对话中。我们现在有了语音模式。它可能是一种让语音介绍某些事物的方法。它更难衡量,需要想象力,但是是的。而且它不会那么可疑。它不会显得可疑。是的。
所以你会受到公众的强烈反对,诸如此类的事情。所以你必须做得足够响亮,以至于很明显这是一个广告,并平衡所有这些。所以这是他们试图解决的开放性问题。Anthropic和Open AI,他们需要。他们可能不会说他们正在尝试。我认为他们根本不在乎。他们现在不在乎。我认为像Perplexity这样的地方正在对此进行更多实验。哦,有趣。是的,当然。像Perplexity、谷歌、Meta都关心这个问题。
嗯,我认为Open AI和Anthropic纯粹专注于AGI。是的。代理和AGI。如果我构建了AGI,我可以赚很多钱,对吧?或者我可以支付所有费用。对。而这,这,这仅仅是基于像出口管制这样的事情,对吧?如果你认为AGI还有5年、10年或更短的时间,对吧?这些实验室认为是2年、3年。显然,你的,你的,你的,你的行为是,你知道,如果你假设他们是理性的行为者,而他们大多是理性的行为者,那么,
你在AGI为2年、5年或10年时所做的事情是非常非常不同的,对吧?你认为代理很有前景吗?我们必须讨论这个问题。这就像今年的兴奋点,代理将——这是一个通用的——
炒作术语,很多商业人士都在使用。AI代理将彻底改变一切。好的,所以“代理”这个术语大多被夸大了。我们已经讨论了很多关于强化学习作为训练可验证结果的一种方法。
代理应该意味着能够开放式地独立解决任务,并能够适应不确定性。有很多术语“代理”应用于像苹果智能这样的东西,在上次WWDC之后我们仍然没有,它是在应用程序之间进行协调。
而这种类型的工具使用是大型语言模型能够做得非常好的事情。我怀疑苹果智能最终会到来。这是一个封闭的领域。它是你的信息应用程序与你的照片集成,后台有AI。这将奏效。这已经被许多软件公司描述为一个代理,以融入叙事。问题是,
我们如何才能让大型语言模型泛化到新的领域并实时解决它们自己的问题?也许在它们自己进行微调或上下文学习时进行少量训练,这就是在提示中存储信息的想法。你可以使用学习算法来更新它。以及你是否相信这实际上会泛化到诸如
我说的在两天内预订我去奥斯汀的旅行,我有X、Y、Z约束,并且实际上信任它。我认为有一个HCI问题要回到信息方面。
那么,你对那里的预测是什么?因为我的直觉告诉我我们离那还很远。我认为OpenAI的声明,我不知道你是否看过五个级别,对吧?聊天是第一级,推理是第二级,然后代理是第三级。我认为还有几个级别,但需要注意的是,对吧?我们在聊天中待了几年,对吧?我们理论上刚刚达到了推理阶段。
我们将在这里待一两年,对吧?然后是代理。但与此同时,人们可以尝试并逼近下一级别的能力。但是代理正在自主地做事,一次做几分钟,几小时等等,对吧?推理正在做的事情......
一次几秒钟,对吧?然后返回一个我仍然需要验证、使用和尝试检查的输出,对吧?最大的问题当然是,这与制造业是一样的,对吧?有整个六西格玛的事情,对吧?你能得到多少个九?然后你将九个九相乘。就像,如果你乘以六西格玛的步骤数,你就会得到一个产量或其他什么东西,对吧?所以在半导体制造中,有数万个步骤。
9999999是不够的,对吧,因为你将它乘以这么多次,你实际上最终会得到大约60%的产量或零,这与代理是一样的,对吧,就像将任务链接在一起一样,每次LLM,即使是最好的LLM,在特别好的基准测试中也不会得到100%的正确率,它们会略低于这个数字,因为有很多噪声,所以
你如何获得足够的九,对吧?这与自动驾驶是一样的。我们无法实现自动驾驶,除非它像谷歌的自动驾驶那样超级地理围栏,对吧?即使那样,他们也有一群远程操作员来确保它不会卡住,对吧?但你不能这样做,因为它没有足够的九。自动驾驶具有相当多的结构,因为道路有规则,对吧?
它是定义明确的。有规定。当你谈论用于开放网络或开放操作系统(例如)的计算机使用时,没有,这是一个混乱。所以可能性,我总是对任何负责与人类世界、开放的、混乱的人类世界互动的系统持怀疑态度。这就是问题所在。如果我们无法获得智能,那就是,
足以独立解决人类世界的问题。我们可以创建像Waymo的多年来的人类操作员这样的基础设施,以实现某些工作流程。有一家公司,我不记得了,但是,但这确实是他们的宣传。是的,当代理失败时,我们将只是人类操作员,你只需要打电话给我们,我们会解决它。
是的。这就像一个API调用,这很有趣。当我们获得人类机器人时,将会有远程操作市场,这意味着世界上将有人乐于解决在我对它不满意时它无法完成装载我的洗碗机的事实。但这只是特斯拉服务套餐的一部分。我只是想象一下一个AI代理与另一个AI代理交谈。一家公司有一个AI代理专门帮助人们。
其他AI代理。但是如果你能制造擅长一步一步完成任务的东西,你就可以将它们堆叠在一起。这就是为什么我说,如果需要很长时间,我们将构建支持它的基础设施。你会看到运营商启动。他们与某些网站、DoorDash、OpenTable以及此类事物建立了合作伙伴关系。
这些合作伙伴关系将使他们能够快速攀升。他们的模型将在这些方面变得非常出色。这将证明一个概念,这可能是一种网络效应,越来越多的公司希望让AI更容易使用。有些公司会说,不,我们必须设置障碍。这就是我们所看到的互联网的故事。我们现在在大型语言模型的训练数据中看到了这一点,公司们说,不,你必须付费。是的。
就像企业在解决这个问题一样。也就是说,我认为航空公司和酒店都有很高的动力来让他们的网站运行良好。而他们通常不会这样做。
如果你看看预订机票需要多少次点击,那真是令人难以置信。你实际上再也无法联系美国航空公司的代理了。他们没有电话号码。我的意思是,在许多方面,在界面方面,想象一下代理能够处理该网站,而我作为一个人却在挣扎。每次我尝试预订机票时,我都会经历一次存在主义危机......
我认为构建一个在那种情况下健壮的AI代理将极其困难。但想想看,联合航空公司已经接受了Starlink的条款,这意味着他们必须免费提供Starlink,用户会喜欢它。如果有一家航空公司说,
我们将花一年时间,让我们的网站拥有白色文本,每次有人询问AI航班时,它都能完美地为AI工作,他们会购买任何航空公司的航班,或者像这样,这是一个API,它只向AI代理公开,如果任何人查询它,价格就会高出10美元,并且对于任何航班,但我们会让你看到我们的任何航班,你可以在这里预订任何航班,给你,代理,然后它就像,哦,我提高了10美元的价格,太棒了,是的,而且
而且,我是否愿意说,嘿,帮我预订去见莱克斯的航班。对。就像,是的,随便。是的。是的。我认为,我认为,你知道,计算机、现实世界和开放世界真的很,很混乱。嗯,但如果你开始定义问题和狭窄的区域,人们将能够创造非常非常有成效的东西。嗯,而且,
大幅降低成本,对吧?就像现在疯狂的事情一样,你知道,家里的机器人技术,你知道,这将比自动驾驶更难做到,对吧?因为有数十亿种不同的故障模式,对吧?但是,但是像,
可以导航特定网站集并执行特定任务集的代理,或者像查看一样,你知道,查看你的,你知道,拍下你冰箱的照片,或者上传你的食谱。然后,它会弄清楚从亚马逊/全食超市食品配送中订购什么。就像那样,那将很快就能做到,我认为。所以这将是,将是一系列的商业成果。这将带来大量的,大量的乐观情绪,人们可以找到赚钱的方法。
需要明确的是,这些沙盒已经在研究中存在。有些人已经构建了谷歌、亚马逊等等所有最受欢迎网站的克隆,以使......我的意思是,OpenAI可能在内部拥有它们来训练这些东西。这与DeepMind的机器人团队多年来拥有的一样
用于机器人的集群,你可以在其中完全远程地与机器人互动。他们只是在伦敦有一个实验室,你向它发送任务,排列积木,你进行这项研究。显然,那里有技术人员来修复东西,但我们以前已经转动过这些自动化曲柄。你从沙盒到进展,然后一次添加一个领域并进行泛化。NLP和语言处理的历史是
每个语言模型的任务指令微调曾经是这样的:一个语言模型执行一项任务。然后在指令微调文献中,有一个点,你开始将越来越多的任务组合在一起,它开始泛化到每个任务。我们不知道我们在这个曲线上处于哪个位置。我认为对于使用这种RL和可验证领域的推理来说,我们还处于早期阶段,但我们不知道在哪个点上你开始在足够的领域上进行训练,然后砰的一声,更多的领域就开始工作了,你已经跨越了泛化障碍。
那么,你对编程环境有什么看法?所以软件工程,这就是我个人以及我知道的很多人——
与AI互动最多的地方,目前的计算机科学学生也存在很多恐惧和焦虑,但这也是AI收入和生产力提升可能最多的地方,对吧?无论是副驾驶、光标还是其他什么,对吧?这只是标准的ChatGPT,对吧?我知道很少有程序员没有ChatGPT,实际上他们中的许多人都有200层,因为这就是它如此擅长的地方,对吧?嗯,
我认为在这个世界里,我们已经看到了Sweebench。如果你看过一些斯坦福大学学生制作的基准测试,我不会说它很难,但我也不会说它很容易。我认为像需要至少经历过几年计算机科学或几年编程的人才能做好Sweebench。而模型在一年内从4%上升到60%。
对。明年它们会去哪里?你知道,它会更高。它可能不会达到100%,因为同样,九个九很难做到。但我们将达到某个点,然后我们将需要更难的软件工程基准等等。但是,人们现在对它的看法是,它可以轻松地进行代码补全。它可以进行一些函数生成,我必须检查它。很好。但是,
我认为软件工程代理可以比任何其他代理更快地完成,因为它是一个可验证的领域。你总是可以进行单元测试或编译。有很多不同的区域......
它可以一次检查整个代码库,而没有工程师真正能够做到这一点。只有架构师才能真正考虑这些事情,那些资深人士,他们可以定义事情。然后代理可以执行它。所以我认为软件工程成本将大幅下降。而这其中一个有趣的方面是,当软件工程成本非常低时,你会得到非常不同的市场,对吧?所以在美国,你拥有所有这些平台SaaS公司,对吧?Salesforce等等,对吧?在中国,没有人使用平台SaaS。
每个人都只是构建自己的堆栈,因为中国的软件工程成本要低得多。部分原因是人员、STEM毕业生人数等等。所以通常来说,这样做更便宜。与此同时,代码LLM在中国被采用的程度要低得多,因为那里的工程师成本要低得多。但是当每家公司都能非常廉价和快速地发明自己的业务逻辑时会发生什么?你停止使用平台SaaS,你开始构建定制的解决方案,你快速更改它们。现在突然之间你
业务也可能更高效一些,因为你没有处理像某个随机的平台SaaS公司的东西无法完美运行并且必须调整工作流程或并非一定需要AI的随机业务自动化案例这样的地狱。这只是需要构建但没有人构建的逻辑,对吧?所有这些事情都可以更快地发生。所以我认为软件,然后另一个领域是工业、化学、机械工程师不擅长编码。
对。通常来说。而且像半导体工程师一样,他们的工具已经20年了。所有工具都在XP上运行,包括ASML光刻工具都在Windows XP上运行。对。就像,你知道,而且,
很多分析都在Excel中进行,对吧?就像,伙计们,你们可以用你们收集到的所有数据向前发展20年,做得更好。只是,你需要将软件工程技能交付给实际的领域专家工程师。所以我认为,我认为这是我非常非常看好的领域,通常是AI创造价值的领域。大图景是我认为这不会是一个悬崖。它,
就像我们谈到的一个很好的例子,增长如何变化,当Meta添加故事时。所以Snapchat处于指数增长阶段。他们添加了故事。它趋于平稳。软件工程师,然后直到对。AI将进入。它可能只是趋于平稳。这不像每个人都会失去工作一样。这很难,因为供应调整得更慢。所以学生人数仍在增长。这将在多年后,比如一年后进行调整。对。
但是工作数量只会转变。然后也许在20年、40年后,它会大幅下降。但在几年内,永远不会出现软件工程师没有用武之地的突然时刻。我认为,程序员的含义以及程序员所做的工作性质也会发生变化。因为我认为在您谈到的所有事情中都需要有人参与其中。在这张图片中,有一个非常重要的人,比如纠正代码。就像,
考虑比上下文长度更大的范围。是的。还有调试。比如,通过阅读代码、理解系统的转向来调试。就像,不,不,不,你错过了重点。在提示中添加更多内容。有点像,是的,添加人类......设计完美的谷歌按钮。谷歌以其设计完美的按钮而闻名。就像......
人工智能将如何做到这一点?就像,他们可以给你所有的想法。完美。很好。我的意思是,这就是重点。你可以称之为品味。人类有......
人类可以做的一件事是比人工智能系统更好地弄清楚其他人喜欢什么。这就是偏好,你正在加载它,但最终人类是最大的偏好生成器。这就是偏好的来源。——而人类实际上非常擅长阅读或判断两件事之间的区别,这可以追溯到 RLHF 和偏好调整的核心,那就是对于许多问题很难生成一个好的答案,但很容易看出哪个更好。
这就是我们现在如何利用人类来进行人工智能判断哪个更好。这就是软件工程可能的样子。这是公关审查。这里有一些选择。比如,这里有一些潜在的优缺点。他们将成为评委。我认为我强烈推荐的是人们开始,程序员开始使用人工智能。
并承担人工智能系统主管和人工智能系统合作伙伴的角色,而不是从头开始编写或根本不学习编码,而只是生成内容。因为我认为,要能够管理日益智能的系统,程序员必须具备相当高的专业水平。我认为就是这样,然后成为某个领域的专家。当然,是的。说真的,如果你去看航空航天、半导体或化学工程,每个人都在使用非常糟糕的平台,非常旧的软件。数据科学家的工作就像一个笑话,对吧,在很多情况下。在许多情况下,这是非常真实的,但这就像,
将人类能力的最前沿带到你的领域。就像,即使最前沿来自人工智能,你的领域,你就像处于最前沿,对吧?所以就像,就像你必须处于某事的最前沿,然后利用人工智能对其他一切的蓬勃发展。哦,是的。在软件可以帮助自动化某事或数字化某事的地方,有很多唾手可得的成果。
在法律体系中,我的意思是,这就是 Doge 令人兴奋的原因。我的意思是,我必须与一群 Doge 人们一起闲逛,他们,我的意思是,政府就像老式学校一样。它就像乞求软件的现代化,组织数据,所有这些东西。我的意思是,在这种情况下,这是故意的,因为官僚主义保护人们。
权力中心等等。但是软件打破了这些障碍。所以它伤害了那些坚持权力的人,但最终使人类受益。所以有很多这样的领域。我们没有完全完成讨论的一件事是开源。所以首先,恭喜。
你发布了一个新模型?是的。图卢。我会解释什么是图卢。图卢是一种杂交骆驼,当你将单峰驼与双峰驼杂交时。在 ChatGPT 之后的很早以前,出现了一波模型,如 Alpaca、Vicuna 等,它们都以各种哺乳动物物种命名。所以图卢这个品牌已经有几年的历史了,它来源于此。我们一直在使用开源代码在后训练的前沿进行游戏,并且
这个版本的第一个部分是在秋季,我们在此基础上构建了 LLAMA 的开放模型、开放权重模型,然后我们添加了我们的完全开放代码、我们的完全开放数据。有一个流行的基准测试是 Chatbot Arena,这通常是评估这些聊天模型的指标。人类会比较来自不同组织的随机模型。如果你在 11 月或 12 月查看排行榜,
在来自 10 到 20 个组织的排名前 60 的模型中,没有一个具有仅用于后训练的开放代码或数据。其中,甚至更少或没有模型提供预训练数据和代码,但目前后训练更容易访问。它仍然相当便宜,你可以做到。问题是,我们可以将这个数字提升到多高,人们可以访问所有代码和数据?这就是该项目背后的动力。我们借鉴了 Lama 的经验教训。NVIDIA 有一个 Nemotron 模型,其后训练的配方相当开放,并提供了一些数据。
和一篇论文,它将所有这些结合起来,试图创建一个配方,让人们可以根据自己的领域微调像 GPT-4 这样的模型。所以需要明确的是,在图卢的情况下,也许你也可以谈谈阿尔玛,但在图卢的情况下,你正在使用 Lama 3、4、5B。图卢是一系列后训练配方,所以我们多年来已经制作了多个模型。所以你正在开源一切。
是的,如果你从一个开放权重模型开始,那么整个模型在技术上都是开源的,因为你不知道 Lama 放了什么进去。
这就是为什么我们有另一件事要讨论。但这只是获取管道的一部分,人们可以在其中放大和自定义。我知道我从初创公司和企业那里听到,他们说,好吧,我可以使用这个后训练并尝试将其应用于我的领域。我们经常谈论验证器。我们使用这个想法,即具有可验证领域奖励的强化学习,RLVR,类似于 RLHF。并且
我们已经将其应用于数学和今天的模型,就像我们将其应用于去年的 Lama 405B 基础模型一样。我们还有其他东西。我们有我们的指令调整和我们的偏好调整。但是数学方面很有趣,就像改进这个数学基准测试更容易一样。有一个基准测试 M-A-T-H,数学,全部大写。基准测试上的名称很困难。名称是您正在评估的区域。我们是研究人员。我们不是品牌、品牌、战略家。并且
DeepSeq 论文也谈到了这一点。就像在这个更大的模型中,使用这种 RL 训练更容易引发强大的能力。然后他们将其从大模型中提取到小模型中。我们今天发布的这个模型,我们看到了与
我们在 AI2。我们没有大量的计算能力。我们不能一直训练 405B 模型。所以我们只进行了几次运行,它们往往有效。就像,它只是表明人们在这些事情上有很多发挥的空间。他们粉碎了 Lama 的实际发布,对吧?就像它们比它好得多一样。是的。所以我们的 Val 数字,我的意思是,我们还有额外的月份,但是我们的 Val 数字比 Lama 指令好得多。
他们发布的模型。然后你还说比 DeepSeq v3 好。是的,在我们的评估基准测试上。DeepSeq v3 非常相似。我们有一个安全基准测试,用于了解它是否会说有害的事情等等。这就是大部分下降的原因。它就像多个基准测试的混合体,或者你的意思是?是的,所以我们有 10 个评估。在后训练中,标准做法是选择你关心的评估。在学术界和小型实验室中,你将进行较少的评估。在公司中,你将拥有一个你真正关心的领域。
在 Frontier Labs 中,你将有 10 到 20 个,甚至可能 100 个特定事物的评估。因此,我们会选择一系列看起来像聊天、精确指令遵循的具有代表性的东西,例如仅用表情符号回复。模型是否遵循这样的奇怪事情?数学,代码。你会创建一个这样的套件。所以安全将是 10 个中的一个。
在那样的套件中,你会有,更广泛的人工智能社区关心什么?例如,与 DeepSeek 相比,它将类似于我们的模型的平均评估将为 80,包括安全性和类似的无安全性和 DeepSeek 的平均分数平均为 79%。
没有安全性,他们的安全性得分平均会下降到 76。哦,所以即使忽略安全性,你也击败了他们。是的,所以这是内部的事情,就像我不想仅仅通过你如何塑造 Val 基准测试来获胜一样。因此,如果某些事情是人们可能关心也可能不关心其模型的安全性,安全性可以在下游出现。安全性可以在你为 API 托管模型时出现。就像安全性......
在各种位置和应用程序中得到解决。所以就像,如果你想说你拥有最好的配方,你不能仅仅将其限制在一些人可能不想要的东西上。这就是进步的时代。我们受益,我们可以在稍后发布模型。我们有更多时间学习像这种 RL 技术这样的新技术。我们在秋季开始了这项工作。它现在作为推理模型非常流行。开源后训练的下一步是扩展验证器,扩展数据,复制 DeepSeq 的一些结果。
而且很高兴我们有一篇论文可以参考,这使得它容易得多。这就是在学术界和封闭的前沿研究中正在发生的事情。
既然你在推动开源,你认为它的未来是什么?你认为 DeepSeq 是否真的改变了现状,因为它是否开源或开放权重,或者是否将开源运动推向了开放的方向?这可以追溯到许可证讨论。所以 DeepSeq R1 具有友好的许可证,这是一个主要的重置。所以就像我们第一次拥有一个
真正清晰的前沿模型,它是开放权重,并且具有商业友好的许可证,对下游用例、合成数据、蒸馏等没有任何限制。在过去几年 ChachiBT 以来的人工智能历史上,这种情况从未发生过。有一些模型不在前沿,或者有一些奇怪的许可证,你不能真正使用它们。所以 Meta 的许可证除了五家公司之外几乎都是允许的吗?
所以这涉及到什么是开源人工智能,即 Lama 许可证中也有用例限制,这意味着你不能将其用于特定的事情。所以如果你来自开源软件背景,你会说那不是开源许可证。不过,那些是什么样的东西?目前,我无法脱口而出。竞争对手的东西——过去曾经是军事用途,他们为了规模而取消了它。它将是......
CSAM,如儿童虐待材料。这就是在那里被禁止的那种东西,但这足以让来自开源背景的人说它不是开源许可证。此外,Lama 许可证还有这个可怕的东西,你必须将你的模型命名为 Lama 如果你接触它。
到 Lama 模型。所以它就像品牌的事情。所以如果一家公司使用 Lama,从技术上讲,许可证规定他们应该在其应用程序底部写上“使用 Lama 构建”。从营销的角度来看,这只会造成伤害。就像我可以作为研究人员忍受它。我想,哦,没关系。像我们在本次发布的所有材料中都写着 Lama 破折号一样。但这就是为什么我们需要真正开放的模型,即
我们不知道 DeepSeq R1 的数据。所以你的意思是,我不能制作一个廉价的 Lama 副本并假装是我的,但我可以用中国模型做到这一点。是的。当然。这就是我的意思。这就是为什么我们想要这个整个开放式语言模型,Ulmo 的事情,是为了尝试保持
模型,其中所有内容都是开放的,数据尽可能接近前沿。所以我们受计算能力限制,我们受人员限制,我们依靠从像 John Schulman 这样的人那里获得见解,他告诉我们在输出上进行 RL。我们可以做出这些巨大的飞跃,但这需要很长时间才能推动开源的前沿,并且
从根本上说,我认为这是因为开源人工智能没有与开源软件相同的反馈循环。我们谈到了开源软件的安全性。此外,这仅仅是因为你构建一次东西,你就可以重复使用它。如果你进入一家新公司,有很多好处。但是如果你开源一个语言模型,你就会有这些数据四处散落,你会有这些训练代码。对于某人来说,要来构建和改进它并不容易,因为你需要在计算上花费很多。你需要有专业知识。所以
在开源人工智能存在反馈循环之前,它似乎主要是一个意识形态使命。像马克·扎克伯格这样的人,就像,美国需要这个。我同意他的观点,但在意识形态动机很高的时期,我们需要利用并围绕它建立这个生态系统,你能从查看语言模型数据中获得什么好处?
而且关于这一点的信息不多。我们很快就会启动一个演示,你可以在其中查看 OMO 模型和查询,并查看哪些预训练数据与之相似,这在法律上存在风险且很复杂。但是,看到人工智能训练的数据意味着什么?很难解析。它是数 TB 的文件。就像,我不知道我会在那里找到什么。但如果人们希望开源人工智能在经济上有所用,这就是我们需要作为生态系统所做的。
我们没有真正谈论 Stargate。我很想听听你对新政府、特朗普政府的看法,以及美国方面在支持人工智能基础设施和不同人工智能公司努力方面所做的一切。你对 Stargate 有什么看法?我们应该如何看待 Stargate?萨姆有足够的钱吗?
是的,我认为 Stargate 是一件不透明的事情。它肯定没有 5000 亿美元。它甚至没有 1000 亿美元,对吧?所以他们宣布的这个 5000 亿美元的数字,拉里·埃里森、萨姆·阿尔特曼和特朗普都说过了。他们感谢特朗普,特朗普确实采取了一些行政行动,这些行动确实大大提高了更快建设的能力。他采取的一项行政行动是在联邦土地上,你基本上可以更快地建造数据中心和电力。
你知道,就像那样。然后许可程序基本上消失了,或者你事后提交。所以就像,再说一次,我之前有一个精神分裂症的看法,另一个精神分裂症的看法。如果你曾经去过旧金山的普雷西迪奥,这是一个美丽的地区。如果你想的话,你可以在那里建造发电厂和数据中心,因为它是联邦土地。它曾经是一个军事基地。但是你知道,显然这会让很多人生气
这是一件好事。无论如何,特朗普使这样做变得容易得多,对吧?一般来说,德克萨斯州是全国唯一一个不受监管的电网。让我们去德克萨斯州。因此,你知道,因此,ERCOT 也使人们能够更快地建设。此外,联邦法规正在减少。因此,Stargate 是基于此的。这就是整个节目发生的原因。现在,他们是如何得出 5000 亿美元这个数字的,我无法理解。
他们是如何得出 1000 亿美元这个数字的,在某种程度上是有道理的。对。而且,嗯,这里实际上有一个很好的表格,我想展示一下,嗯,在那篇关于 Stargate 的文章中。嗯,嗯,这是,这是,这是最新的一个。是的。所以,所以无论如何,Stargate,嗯,你知道,它,它基本上是对的。就像有,呃,它是,它是一个关于成本的表格。嗯,你已经通过了。就是这样。
所以这个表格解释了发生了什么,对吧?所以 Stargate 位于德克萨斯州的阿比林,它的第一笔 1000 亿美元。该地点的电力为 2.2 吉瓦,消耗的电力约为 1.8 吉瓦,对吧?每个 GPU,他们大约有,甲骨文已经在建设这部分东西了。
在 Stargate 出现之前。需要明确的是,他们已经建设了一年了。事实上,他们试图将其租给埃隆,对吧?但埃隆说,太慢了。我需要更快。所以然后他去了孟菲斯。因此,OpenAI 能够通过这个名为 Stargate 的奇怪合资企业获得它。他们最初只与甲骨文签订了该集群第一部分的协议,对吧?该集群的第一部分,对吧,大约......
50 亿美元到 60 亿美元的服务器支出,对吧?然后还有大约 10 亿美元的数据中心支出。同样,如果你用 NVIDIA 的下一代芯片 GB200、GB300、VR200 将这整个 1.8 吉瓦填满,并且你完全填满它,那么最终将大约有 500 亿美元的
服务器成本,对吧?此外还有数据中心成本、维护成本、运营成本以及所有这些东西。这就是 OpenAI 得出他们宣布的 1000 亿美元的原因,对吧?因为他们谈到 1000 亿美元是第一阶段。这是德克萨斯州阿比林的数据中心,对吧?1000 亿美元的总拥有成本,引用,对吧?所以它不是资本支出,它不是投资,它是 1000 亿美元的总拥有成本,
然后,然后将会有未来的阶段。他们正在考虑其他规模甚至大于这个 2.2 吉瓦的地点,顺便说一下,在德克萨斯州和其他地方。嗯,他们,他们没有,你知道,完全忽略这一点,但是有,有他们所说的 1000 亿美元的数字是第一阶段,呃,我认为这将会发生。他们甚至没有这笔钱。此外,这不是 1000 亿美元。它是 500 亿美元的支出,对吧。然后像 500 亿美元的运营成本电力等等。嗯,
租赁价格等等,因为他们正在为开放式眼睛从 Stargate 合资企业租赁 GPU,对吧,他们实际上有多少资金,对吧,软银将投资,甲骨文将投资,开放将投资,开放将承担 190 亿美元的风险,每个人都知道他们在上一轮只有 60 亿美元,负债 40 亿美元,但是有,有关于软银可能向开放式投资 250 亿美元的消息,我
所以这是其中一部分。所以 190 亿美元可以来自那里。所以需要明确的是,OpenAI 完全没有这笔钱。墨水没有在任何东西上变干。OpenAI 没有这 500 亿美元的资金,他们有法律义务向合资企业投入 190 亿美元的资本支出,然后其余的他们将通过从合资企业租赁 GPU 来支付。然后是甲骨文。甲骨文有很多钱。
他们正在完全建设第一部分。他们自己为此花钱,对吧?这 60 亿美元的资本支出,100 亿美元的 TCO。嗯,他们,他们将做第一部分。他们为此付费。对。嗯,至于其余部分,我不知道拉里想花多少钱,对吧?在任何时候他都可以退出,对吧?就像这再次是完全自愿的。所以任何时候都没有在这上面签字,对吧?但他可能会贡献数百亿美元,对吧?需要明确的是,他有这笔钱。甲骨文有钱。嗯,
然后是 MGX,即阿联酋基金,从技术上讲,它有 1.5 万亿美元用于投资人工智能。但同样,就像,我不知道这笔钱有多真实。就像,虽然没有为这笔软银签字,
没有 250 亿美元的现金。他们必须减持 ARM 的股份,ARM 是 CPU 的领导者。他们进行了 IPO。这显然是他们一直想做的事情。他们只是不知道他们会在哪里重新部署资本。减持 ARM 的股份非常有意义。所以如果他们愿意,他们可以减持并投资于此,如果他们愿意,他们可以投资于 OpenAI。就获得的资金而言,第一个 100,000 个 GB200 集群可以获得资金。
此后的所有事情都悬而未决。钱来了。我相信钱会来。我个人确实如此。这是一种信念。这是一种信念,即他们将发布更好的模型并能够筹集更多资金。但实际情况是埃隆是对的。钱不存在。美国政府与这件事有什么关系?特朗普与这一切有什么关系?他只是一个炒作者吗?特朗普正在减少监管,以便他们能够更快地建设。对吧?
而且他允许他们这样做,对吧?因为这方面的任何投资都将涉及反托拉斯问题,对吧?所以显然他会允许他们这样做。他将使法规能够真正允许其建设。但我认为美国政府没有在这方面投入任何资金。是的,所以我认为他还只是创造了一种普遍的氛围,即这种监管将会下降,这是
建设的时代。所以,如果你是一个建设者,你想创造东西,你想发布东西,现在是时候了。所以就像我们已经有一年多的时间拥有这个 1.8 吉瓦的数据中心了。我们一直在将其发送给我们的所有客户,包括许多正在建设多吉瓦的这些公司。但这就像在一个可能不像高管那样看到 5000 亿美元、1000 亿美元的水平上。然后每个人都问他们,所以它可能会刺激另一个,像一场更快的军备竞赛一样。
因为已经存在军备竞赛,但这 1000 亿美元、5000 亿美元的数字,特朗普在电视上谈论它,它可能会刺激军备竞赛变得更快,更多的投资者涌入等等。所以我想你在那种意义上是对的,特朗普正在支持人们将建设更多,他的行动将让人们建设更多。你对什么感到兴奋?
关于未来几年即将到来的集群建设、人工智能突破,例如你在未来几年、两三年、四年内所能想象到的最好的未来,那是什么样子?它可能是非常具体的技术方面,例如后训练的突破,或者它可能是规模很大的事情。
是的,我的意思是,它......令人印象深刻的集群。我真的很喜欢追踪供应链以及谁参与了什么。我真的喜欢。看到数字、成本、谁正在建设什么产能、帮助他们弄清楚他们应该建设多少产能、赢得交易、战略性的事情,这真的很有趣。这真的很酷。我认为在技术上,围绕网络方面有很多让我兴奋的东西,包括光学和电子产品,对吧?就像越来越近,无论是共封装光学还是......
某种形式的新形式的交换。这是集群内部的。是的。还有多数据中心训练,对吧?就像人们在这些数据中心之间放置了如此多的光纤,并用如此多的不同带宽点亮它,以至于在那方面发生了很多有趣的事情,对吧?自 5G 以来,电信一直非常无聊。
现在它又变得非常令人兴奋了。你能稍微教育我一下事情的速度吗?所以内存的速度与互连的速度与数据中心之间光纤的速度相比。这些是数量级的不同吗?我们能否在某个时候融合到一个所有东西都感觉像一台计算机的地方?不。
我认为这是不可能的。编程只会变得越来越难,而不是更容易。它只会变得越来越困难、越来越复杂、越来越多的层次,对吧?人们喜欢拥有的总体图像是这种内存层次结构。所以片上非常接近,位于芯片内,对吧?你知道,你有寄存器,对吧?它们在一些计算单元之间共享。然后你将有缓存,它们在更多计算单元之间共享。然后你有了内存,对吧?像 HBM 或 DRAM,像 DDR 内存或任何它是什么。它在整个芯片之间共享。
然后你可以有,你知道,在许多芯片之间共享的内存池,对吧?然后是存储,你不断地扩展,对吧?跨数据中心、数据中心内、芯片内的访问延迟不同。所以很明显你总是,你总是会为此使用不同的编程范例。这不会很容易。编程这些东西会很难。也许我可以帮忙,对吧?你知道,用编程这个。但思考它的方式是,有,
你为一项任务添加的元素越多,你就不会获得强缩放。如果我将芯片数量增加一倍,我不会获得 2 倍的性能。这只是计算的现实,因为存在低效率。并且正在进行大量有趣的工作来使其不
你知道,使其更线性,无论是使芯片更紧密地连接在一起,还是,你知道,很酷的编程模型或你可以在模型方面做到的很酷的算法,对吧?DeepSeek 做了一些非常酷的创新,因为它们在互连方面受到限制,但他们仍然需要并行化,对吧?就像各种各样的,你知道,每个人都在做事情。谷歌有很多工作,每个人都对这件事有很多工作。
这些东西在模型、工作负载和创新方面都超级令人兴奋,对吧?硬件、固态变压器很有趣,对吧?在电力方面,电池方面有很多东西,还有很多东西,你知道,我认为当你观察时,如果你观察计算堆栈的每一层,对吧,无论是从光刻和蚀刻一直到制造,到光学,到网络,到电力,到变压器,到
冷却到,你知道,网络,你一直向上向上向上向上堆叠,你知道,即使是数据中心的空调也在创新,对吧?就像,就像,铜缆也在创新,对吧?你不会相信,但是铜缆,就像,那里有一些创新正在发生,比如你可以打包它们的密度。就像,堆栈的所有这些层,一直到模型,人类的进步速度是前所未有的。
我只是想象你坐在某个地方的巢穴里,到处都是屏幕,只是监控着供应链,所有这些集群,你收集的所有信息。我的意思是,你做得令人难以置信。这是一个庞大的团队。这是一个庞大的团队。我的意思是,你用半导体分析做了相当令人难以置信的工作。我的意思是,这只是,这是,
紧跟数字世界中人类文明的脉搏。这很酷。就像观看,感受一下。是的。谢谢你。我想。感受,感受我们所有人做的事情。史诗般的事情。感受AGI。感受,我的意思是,是的。
从模因到现实,内森,你期待哪些潜在的突破?在听完迪伦美丽的回答后,我花了一段时间思考这个问题。他没有听我说话。他太蠢了。不,我知道这是要来的。实际上,训练模型非常有趣,因为有很多唾手可得的成果。而且
让我工作变得有趣的事情是,我训练模型。我写关于模型发生什么的分析。这很有趣,因为显然还有很多进步要做。而我这样做的真正动机,在我可以分享东西的地方,那就是
我不相信那些说“相信我,兄弟。我们将使人工智能变得更好”的人。就像,我们是那些......我们将做到这一点,你可以相信我们。我们将拥有所有的人工智能。这就像,我希望未来更多的人能够参与到人工智能中,并能够理解它。那就是,它有点不那么有趣,因为它不像“这真的很棒”。就像训练模型很有趣,让人们参与进来也很有趣,但这真的很像人工智能。如果它将成为我一生中最强大的技术,那么,
我们需要让很多人参与到其中,让它尽可能开放,尽可能易于访问。是的。在我对过去几年的解读中,更多的开放性将有助于人工智能生态系统,让更多的人了解正在发生的事情,而不是来自非人工智能领域的科研人员、政府等等。这并不意味着开放性总是答案。我认为那时会。
重新评估一下什么才是人工智能面临的最大问题,并对我们所经历的疯狂旅程采取不同的角度。对我来说,即使是从用户体验的角度来看,每当你拥有,就像阿帕西说的,那些顿悟时刻,就像魔法,就像看到推理,思维链,
就像,这其中有一些真正根本上美丽的东西。它像一面镜子照在我们自己身上,让我们看到,哦,见鬼,它正在解决这些公司所标榜的目标——智能。你就能理解为什么我们人类是特殊的。我们内在的智慧是特殊的。现在,我们为什么在某种程度上是特殊的,因为我们似乎是有意识的,而现在的人工智能系统,
不是,我们可以解决,我们可以探索这个谜团,所以这真的很酷,可以探索这些问题,我认为我从未想过......会在......的时候甚至可能......所以只是带着兴奋观看深蓝大战卡斯帕罗夫
就像我从未想过在我有生之年会看到这种人工智能。这就像,这真的感觉像人工智能。太不可思议了。我开始学习用人工智能操控一个微型四轴飞行器。就像学习飞行。它就像,它学会了向上飞。它会撞到天花板然后停下来抓住它。就像,好吧,这与现在发生的事情相比真的很愚蠢。
现在你可能可以用自然语言告诉它学习飞行,它会生成执行该操作所需的控制算法。有一些低级别的障碍。我们必须为此做一些奇怪的事情。但是你可以。回到我们的机器人对话。是的,当你必须在一个实际的物理世界中互动时,这很难。是什么让你对人类文明的未来充满希望?展望未来10年、100年、1000年,你认为我们会持续多久?
你认为我们能活一千年吗?我认为人类肯定会在1000年后存在。我认为可能会发生非常糟糕的事情,而且人类会少得多。但人类非常擅长生存。有很多事情
那是真的。我认为他们不一定是,我们擅长对风险进行长期信用分配,但是当风险变得迫在眉睫时,我们往往能够找到解决办法。出于这个原因,我就像,AGI超递归改进之类的物理限制会杀死我们所有人。我出于物理原因,以及人类以前是如何解决问题的,我并不太担心。人工智能接管,但是,
还有一些令人担忧的国际问题,但人类的基本善良和试图放大这种善良。我们正处于一个不稳定的时期。我的意思是,如果你把整个人类看作一个整体,曾经有过事情倒退的时候。有时根本不会发生任何事情。我们现在正处于一个应该非常积极的轨迹上。是的,似乎有进步,但就像权力一样......
人类的痛苦会有高峰,我们想尽量减少高峰的数量。总的来说,人类的痛苦会少得多,对吧?我对这一点非常乐观。我确实担心随着人工智能变得越来越普遍和强大,那些控制它的人能够做的事情越来越多,可能会出现技术法西斯主义之类的东西。也许它不会杀死我们所有人,但在某种程度上,每个......
非常强大的人都会想要一个脑机接口,这样他们就可以以更多的方式与AGI及其所有优势互动,并将他们的思想与......某种程度上融合,并且他们的能力或那个人的能力......能够比其他人更好地利用这些能力。因此,它不会是一个人统治所有人,而是......我担心的是,它会像少数人一样,你知道,你知道,数百人、数千人、数万人,也许数百万人在统治剩下的人。对。嗯,
以及围绕它的经济,对吧?我认为这可能是更令人担忧的事情,即人机融合。这使得个人能够对世界产生更大的影响,而这种影响可能是积极的,也可能是消极的,对吧?总的来说,人类对世界的影响是积极的,至少在社会上是这样,但个人对世界的影响也可能是消极的。
而AGI,至少在我看来,实验室的定义不是一个失控的有知觉的东西,而是一个能够非常有效地完成许多任务的东西,它放大了某人的能力,造成了极大的破坏,但是......
但总的来说,我认为它将用于追求利润的动机,这将减少,这将增加物品的丰富性和供应,从而减少痛苦,对吧?是的。这是目标。在时间线上滚动,只是产生多巴胺。滚动是停滞。滚动维持着世界的现状。这是一个积极的结果,对吧?就像如果我有食物管和笔记本电脑在滚动,我很开心,这是一个积极的结果。是的。
同时扩展到宇宙中。这是一个有趣的时代。感谢你们推动人类可能性的前沿。感谢你们今天的谈话。这很有趣。谢谢你们的邀请。谢谢你们的邀请。感谢收听与迪伦·帕特尔和内森·兰伯特进行的这次对话。为了支持这个播客,请查看我们描述中的赞助商。现在,让我用理查德·费曼的一些话来结束。
对于一项成功的技术,现实必须优先于公共关系。因为自然无法被愚弄。感谢收听。希望下次再见。