We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 55: Head of Amazon AGI Lab David Luan on DeepSeek’s Significance, What’s Next for Agents & Lessons from OpenAI

2025/2/19

Unsupervised Learning

AI Deep Dive AI Chapters Transcript

People

David Luan

Topics

David Luan: DeepSeek 的成功并非偶然，而是模型效率提升和智能提升同步进行的结果。降低成本并不意味着减少智能应用，反而会促进更多智能应用的出现。未来大型模型的训练会继续追求更高的智能，而效率的提升则会通过内部优化来实现，最终以更低成本提供给客户。仅仅依靠下一个token预测不足以实现AGI，需要结合强化学习和搜索等其他机器学习范式来实现知识的发现和利用。当前模型的泛化能力比人们想象的要强，虽然在某些特定任务上的表现可能略有差异，但这只是模型发展过程中的小问题。构建可靠的AI模型需要建立一个可靠的模型生产工厂，而不是仅仅关注算法本身。AlphaGo 等案例已经证明了模型具备原创性思维的能力，LLM 的局限性被夸大了。当前的AI代理模型虽然潜力巨大，但在可靠性和实用性方面仍有很大的提升空间。构建有用的AI代理的关键在于可靠性，而不是仅仅追求炫酷的演示效果。当前AI代理模型最大的挑战在于端到端可靠性不足，需要大量人工干预。将基础多模态模型转化为大型行动模型需要解决两个问题：一是工程问题，即如何以模型可理解的方式向模型展示其能力；二是研究问题，即如何教会模型进行规划、推理、重新规划和遵循用户指令。当前AI模型与浏览器和程序的交互方式缺乏创意，未来需要更具创造性的交互方式来提升效率。 AI代理领域的关键里程碑是能够在训练阶段赋予代理任何任务，并在几天后达到100%的完成率。AGI 的定义是：能够完成人类在电脑上完成的任何有用任务，并且学习速度与人类相当。AGI 的普及速度可能会受到社会因素的限制，例如人们对新技术的接受程度和适应能力。未来会出现专业化模型，这并非出于技术原因，而是出于政策原因，例如数据安全和隐私保护等。仅仅依靠简单的规模扩大并不能解决所有问题，还需要解决其他关键的技术挑战。高质量的数据标注在模型训练中仍然至关重要，但其作用会逐渐被强化学习所取代。过去一年，我对团队文化建设的重要性有了更深刻的认识。我改变了对AI技术长期差异化竞争的看法，认为不同领域的突破并非必然具有累积效应。数字代理的可靠性问题的解决可以为物理代理的研发提供借鉴和经验。世界建模可以解决在没有明确验证器或模拟器的情况下，如何训练AI模型的问题。

Deep Dive

Chapters

This chapter analyzes the market's reaction to DeepSeek, highlighting the initial panic and subsequent recovery. It discusses the model's efficiency and its implications for the future of AI development, including the increased consumption of intelligence despite cost reduction. The discussion touches upon the commoditization of previous levels of intelligence as newer, more complex models emerge.

Initial market reaction to DeepSeek involved panic and a stock market crash.
The market initially misunderstood the implications of increased efficiency in AI models.
Increased efficiency leads to increased consumption of intelligence, not decreased consumption.
AI use cases are categorized in concentric circles of complexity, with each circle requiring increasingly smarter models but commoditizing previous levels of intelligence.

Shownotes Transcript

戴维·卢安是亚马逊AGISF实验室的负责人。他之前是Adept的联合创始人兼首席执行官，该公司筹集了超过4亿美元用于构建AI代理，并且在OpenAI取得许多关键突破期间，他担任OpenAI的工程副总裁。我是雅各布·埃弗隆，今天在《无监督学习》中，我和戴维讨论了许多不同的有趣话题。

包括他对DeepSeq的反应以及他对模型未来发展的预测。我们讨论了当今代理的状态，以及使它们可靠并使其无处不在所需的内容，以及何时才能实现。他还分享了一些来自OpenAI早期的非常有趣的故事，以及是什么让那里的文化如此特别。这是一个非常有趣的节目，因为我和戴维已经认识很久了。我认为大家都会非常喜欢它。事不宜迟，让我们听听戴维的分享。

戴维，非常感谢你来到播客节目。是的，感谢你的邀请。这将非常有趣，因为我们认识多久了，超过10年了吧。你知道，我记得你最初加入OpenAI的时候，我想，这看起来很有趣，但我很好奇，你知道，一个很酷的职业转变。然后很明显，你像往常一样，比其他人早得多就预见到了这一点。我很幸运，你知道，我一直对机器人技术很感兴趣，而机器人技术最大的限制是底层算法的智能程度。所以我开始从事人工智能工作，而且……

看到这些东西在我们有生之年就能实现，真是太酷了。好吧，今天我想和你讨论很多事情。我认为我先从一个主题开始。你知道，显然在过去几周里，DeepSeek引起了巨大的反响。英伟达的股票暴跌，人们说这对OpenAI和Anthropic来说是不利的。我觉得现在已经有点回归了，你知道，

不那么恐慌了。但我很好奇，人们对这一影响的哪些方面理解正确了，也许在更广泛的讨论中，他们又有哪些方面理解错了。是的。所以，嗯，我仍然记得那天早上，呃，每个人都开始了解DeepSeek新闻的时候。嗯，我醒来，看了看我的手机，有五个未接来电。我想，发生了什么事？上次发生类似的事情是在SBB倒闭的时候。因为我所有的投资者都打电话让我把我们的资金从SBB和呃，以及第一共和国等等地方撤出来。

所以我当时想，一定发生了非常糟糕的事情。我查看了新闻，上面写着股票暴跌是因为DeepSeek R1发布了，所有这些事情。我立刻就明白了，哇，人们真的错过了这里真正发生的事情。

我认为DeepSeek是来自……我对团队文化和构成等等都有很多想法，我们稍后再谈。但这真的是一项非常了不起的工作，但它是我们更广泛的故事的一部分，即我们首先弄清楚如何使新的ML系统更智能，然后我们弄清楚如何使它们更高效。所以这就像01的谈话到滴答声一样。是的。

每个人都弄错了的是，仅仅因为你可以以更低的价格获得更多智能，并不意味着你停止消耗更多智能。如果有什么不同的话，那就是你会消耗更多。所以，我认为一旦市场意识到这一点，我们就会恢复理智。鉴于显然一些至少基础模型似乎是在Open AI的输出上训练的。你知道，我想你可以让基本的DeepSeek模型以各种方式说它是ChatGPT。

你认为，鉴于蒸馏技术的发展，OpenAI Anthropic可能会停止更公开地发布这些模型吗？我认为将会发生的是，人们想要构建最智能的模型，但这有时并不总是推理效率高的。所以我认为我们将开始越来越多地看到的是，无论人们是否明确谈论这一点，人们都将利用他们能够获得的所有计算资源来训练这些庞大的教师模型，然后他们将在自己的实验室内部

弄清楚如何将其简化为运行速度非常快且对客户高效的东西。我现在看到的最重要的事情是，我倾向于将AI用例视为同心圆的复杂性。因此，在最内层的复杂性中，可能只是与基础LLM进行良好的旧式聊天对话。

我们在GPT-2中就能相当胜任地做到这一点。每一个增量的智能圆圈，也许是能够进行心算或编码，或者以后是代理，或者以后是药物发现等等，都需要越来越智能的模型。但是每一个之前的智能环都变得如此廉价，以至于变成了商品。它有点进入，显然，我觉得已经出现了一波巨大的测试时间计算浪潮。对于编码、数学以及这些易于验证的领域来说，这似乎是一条非常令人兴奋的道路。是的。

嗯，这种范式能让我们走多远呢？嗯，实际上有一条关于我谈论构建AGI方法的有趣论文和播客记录，现在已经有几年了。嗯，让我们为这条记录做出贡献吧。是的，所以，所以现在我们得到了，这就像呃，这是一个呃，这是一个证明，我们在这个时间点讨论了这个话题，但是像，但是

早在2020年，对吧？我们总是说，你知道，当时我们开始看到GPT-2已经发布了，GPT-3我想那时正在开发中，或者已经完成了。我们开始考虑4。我们生活在一个这样的世界里，你知道，

人们不确定是否只需要下一个标记预测就能解决所有AGI问题，而我的观点和我周围一些人的观点实际上是，答案是否定的，答案是否定的原因是，一个训练进行下一个标记预测的LLM，根据定义，会因为发现新知识而受到惩罚，因为新知识不是训练集的一部分，并且

因此，我们需要做的是，我们需要去看看我们知道的哪些其他ML范式实际上可以发现新知识。我们知道强化学习和搜索可以做到这一点，对吧？这是一条漫长的道路，但即使是AlphaGo，也许也是第一次让公众意识到我们可以使用强化学习发现新知识。而问题总是，当我们将LLM与强化学习结合起来，得到既拥有全人类已知知识，又能够在其基础上进行构建的系统时。

它。像为什么最初的DeepMind仅仅使用强化学习的路径行不通的原因是，它是随机初始化的。那些玩游戏、你知道，Atari令人难以置信的结果等等的模型，如果纯粹在强化学习环境中进行，那么一个对世界一无所知的东西重新发现人类语言，重新发现如何协调，以及学习如何申报税务的细节，将需要永远的时间。

所以现在我认为这种理念已经被看到这些结合这两种范式的模型的成功所证实了。你认为，我的意思是，对于那些不容易验证的领域，比如医疗保健或法律，这些，你知道，遵循这种测试时间计算范式能让我们得到能够做到这一点的模型吗？或者说，我们会在编码和数学方面变得非常擅长，但仍然无法讲笑话之类的事情吗？

这是一个很好的辩论话题。我有一个非常强烈的观点。强烈的观点是什么？答案是这些模型比你想象的更擅长泛化。

嗯，每个人都像，啊，你知道，像我玩过一个，它在数学方面似乎好一点，但它思考的方式，而且它有点像，也许它在聊天方面差一点等等。我认为这些只是这些东西构建过程中通往辉煌道路上的小瑕疵。嗯，今天，嗯，像我们已经有了迹象表明，呃，通过呃，呃，

那些你可以明确地测试模型是否正确解决了的问题，这就是我们从DeepSeek中看到的，确实会导致在一些稍微模糊的问题上进行迁移，这些问题似乎在相似的领域。而且，嗯，我认为这个领域正在努力工作，像我的团队，其他人，他们都在非常努力地想办法学习，嗯，

围绕这些更复杂的任务的人类偏好，然后只做强化学习来满足这些偏好。对。你是否总是能够构建一个模型来基本上验证，比如，嘿，那个输出是好的法律，或者那个输出是好的医疗诊断。显然，这比验证数学证明或代码是否运行要困难得多。我认为我们正在套利的根本问题是，同一组神经网络权重，它们在确定自己是否做得好的方面有多好，以及在生成正确答案方面有多好之间的差距。我们总是看到这些模型在确定自己是否做得好的方面比生成答案要好。

在某种程度上，我们使用强化学习所做的事情就是利用这一点，迫使它一次又一次地尝试，以满足它自己对是否做得好的感觉。跟我谈谈一下为了真正推出这样的模型而需要解决的研究问题。太多了。但是，你知道，我们甚至从哪里开始？我认为没有特别的顺序，而且我可能只会列举我们要解决的三个问题。我认为第一个问题是弄清楚

你甚至如何建立一个组织和一个流程来可靠地推出模型。像我总是对我团队和我合作的人说的一件事是，今天，如果你经营一个现代人工智能实验室，你的工作不是构建模型。你的工作是建立一个可靠地生产模型的工厂。如果你考虑一下……

你如何看待这一点会完全改变你的投资方向。对。所以在我的观点看来，在可重复性出现之前，没有很多前进的动力。像我们在过去几年中经历了从炼金术到工业化这样的过程，就这些东西是如何构建的而言。如果没有这个，这些东西就没有发展的基础。

我认为接下来是所有这些推论，对吧？再次强调，这是一个你必须慢下来才能走得快的领域。但我认为这是第一部分。我一直相信，人们总是被算法所吸引，因为他们认为它很酷很性感。但是

如果我们看看真正推动这一切的是什么，那就是解决工程问题。你如何做巨大的、大规模的集群，你可以可靠地保持足够长的时间？如果一个节点宕机，你不会浪费很多时间在你的工作中，才能推动规模的极限。现在有了这个强化学习，我们将很快进入一个世界，那里将有许多数据中心，每个数据中心实际上都将在基础模型上进行大量的推理，并可能在新的环境中对其进行测试，也许是

客户带来的，以学习如何改进模型，然后将这些新知识发送回一个中心位置，模型可以在那里学习如何变得更智能。实际上还有很多非常棘手的工程问题。是的。像Yann LeCun这样的人对LLM的局限性提出了一些有趣的最新和反复出现的批评。我想知道你是否可以为我们的听众总结一下这种批评，然后，你知道，你对那些说，看，这些，的人有什么想法，

LLM永远难以进行真正的原创性思考？我认为我们只是有反例。我认为AlphaGo就是原创性思维。我们观察，如果你回到OpenAI的早期工作，当时我们使用强化学习来玩Flash游戏，对吧？如果你有一定的年龄，你可能还记得迷你剪辑之类的东西。中学时代浪费时间的绝佳去处。但看到它成为人工智能的基础，真是太有趣了。我们正在研究

我们正在研究只使用我们的算法来尝试同时解决许多这些游戏。你会发现它们很快就会学会发现，通常情况下，通过穿过墙壁等等来解决平台游戏关卡的加速技巧。这是人类从未做过的事情。在验证方面，它主要只是，你知道，显然只是找到巧妙的方法，我想，来找出这些不同领域的一些验证方法。是的。

我认为你使用了这个模型。我喜欢它。我想，你知道，我想转向代理的世界。显然，你知道，你在Adept从事计算机使用模型的工作。你将如何描述我们今天在这些模型上的现状？好吧，我对代理非常兴奋，我仍然非常兴奋。我仍然回到2020年、2021年，当时第一波真正强大的LLM，如GPT-4，正在出现。

你去玩它们，你会发现，哇，太有希望了。它让我创作了一首很棒的说唱歌曲。嗯，它像，呃，它做得很好。有时它可以令人满意地进行三位数的加法。你会说，请帮我点个披萨。它只是因为扮演像必胜客披萨代表的角色。它就是做不到。这显然是一个主要的，这是一个主要的差距，对吧。在这些系统的效用中。

所以即使从那时起，我也很确定我们必须解决代理问题。所以当我还在谷歌的时候，我们就开始研究实际上仍然被称为工具使用的问题，对吧？比如，你如何以模型可读的方式向LLM展示能力，以决定它何时应该去做某事？

那时，我认为，好吧，口头文献总是称之为代理，但我认为公众还没有一个词来形容它。所以我们试图想出一个新的术语，叫做大型动作模型，而不是大型语言模型。这有点吸引力。然后世界决定将其称为代理。现在一切都是代理，不再有任何意义了。是的。

这非常令人难过。但成为第一家现代代理公司真的很酷。当我们开始Adept时，最好的开源LLM并不好。所以我们想，我们必须训练我们自己的模型，因为也没有多模态LLM。像GPT-4V这样的图像输入LLM来得晚得多。所以我们必须从头开始做所有事情。

这有点像在2000年创办一家互联网公司，并且必须打电话给台积电来制造你自己的芯片。这简直是疯狂的。所以在这一过程中，我们学到的是，很早就学到的是，LLM开箱即用，没有任何我们今天正在做的新的强化学习，它们是

它们是行为克隆器，对吧？它们有点像在训练数据中看到的那样。这意味着它们很容易偏离轨道，因为一旦它们处于从未见过的境地，泛化往往很糟糕，它会做一些不可预测的事情。所以在Adept，我们一直专注于有用的智能。那么效用意味着什么？这不是在Twitter上发布一个很酷的演示视频。而是把它交给某人，这样他们就不必做

像在你的电脑上整理东西之类的苦力活，大多数知识工作者都必须做。

所以这些知识工作者关心可靠性。所以我们早期的用例之一是，我们能否为人们做发票处理，对吧？每个人都喜欢为这些生成模型进行发票处理。这似乎是一个自然的地方开始。这是一个很好的入门程序。所以当时，你知道，没有人真正做过这些事情。所以，让我们选择一个明显的入门程序。所以我们选择了，就像，那是其中之一。我们做了Excel，还有一些其他的。但是，你知道，如果这个东西……

七次中有一次会删除你QuickBooks条目中的三分之一，你将永远不会再使用它。可靠性仍然是一个问题。即使是今天，像Operator一样令人印象深刻，对吧？并且似乎比云计算使用要好得多。但是，像你看看这两样东西已经出来了，最大的挑战是它们都专注于端到端的安全性。

任务性能，对吧？像进去，然后你输入，嘿，我想让你帮我找到五个我这个周末可以去的度假地点，对吧？我们会去做一个近似值。但是它的端到端可靠性

非常非常低，需要大量的干预，对吧？我们还没有达到这种技术的真正价值，那就是企业能够真正以一种“发射后不管”的方式信任它。这就是我们必须解决的问题。也许为我们的听众解释一下，如果你使用现有的基础多模态模型，将其变成大型动作模型，你实际上必须做什么？幕后正在发生什么工作才能做到这一点？

所以我可以高层次地谈论它，但基本上你要做两件事。一个是工程问题。工程问题是如何向人们展示？

以模型可读的方式，它能做什么。所以这里是你能调用的API，这里是你能调用的UI元素，让我们来教你一些关于Expedia.com或SAP是如何工作的知识。这有点像，这是一点研究工程，这是第一步，是让它了解它能做什么和不能做什么，以及做一些事情的基本能力。

有趣的部分发生在第二个组成部分，即如何教会它规划和推理，以及重新规划和遵循用户指令并引领方向？

稍后实际上甚至能够推断用户真正想要什么，并为他们做到这一点，对吧？这是一个巨大的、巨大的研究问题，它与普通的旧LLM工作大不相同，因为普通的LLM工作是，让我们来生成一段文本。即使是今天我们看到的用数学问题进行的推理工作，对吧？最后有一个答案。所以这就像一步。即使它像思考数百万个思想链一样，像

它实际上为你做了一步，那就是，嘿，我已经给你答案了。有了这个，这是一个完整的、多步骤的决策过程，包括回溯，包括试图预测你为未来采取的行动的后果，并意识到，嘿，删除按钮可能很危险。你必须做所有的工作来教会模型在一个基本的环境中做到这一点。对。

然后你把它放在沙箱中，让它在自己的条件下学习。对。顺便说一句，我最好的比喻，我忘了。我认为我认为是Andrej Karpathy在互联网上写了这个东西，或者类似的东西，就像现代人工智能训练有点像教科书的组织方式一样。对。所以首先你有了所有的解释。我只是从他那里抄袭的，但是所有的解释

一些物理过程。然后你有一些示例问题。所以第一部分是预训练监督微调的示例问题。然后，当你有了教科书后面的开放式问题时，强化学习步骤就会发生，这些问题可能在教科书的后面有答案。这就像我们只是遵循这个过程一样。我想你显然已经考虑了很多关于这些代理将如何真正进入世界的问题。所以我想问几个关于这方面的问题。首先，你提到了显然这部分是让模型知道它们可以访问什么的工程挑战。你认为随着时间的推移，模型将如何与浏览器和程序交互？它会类似于人类的方式吗？它只是通过代码吗？你见过其他方法吗？如果我现在要批评这个领域的一件事，那就是人们与这些越来越智能的LLM和代理交互的方式缺乏创造力。

像我们现在处于，嗯，你知道，像，你记得iPhone发布的时候，App Store发布的时候，嗯，人们开始制作所有这些应用程序，像，嗯，点击这个按钮发出打嗝的声音。这里有一杯啤酒，你可以通过倾斜手机来倒进嘴里。嗯，

像我们今天的界面就是这样。这太令人难过了，因为聊天是一种非常有限的、低带宽的做事方式。在某些方面它很容易，但在许多其他方面，对吧？像我不想进行七轮对话来决定我的披萨上要放什么配料。对。像那样。我认为那里的缺乏创造力一直让我很困扰。我认为部分原因是，

令人惊叹的产品设计师可以帮助我们弄清楚这些事情。他们中的许多人还没有深入了解人们工作模型的局限性。这种情况正在迅速改变，对吧？但是，

相反，到目前为止，能够推进技术的人总是把它看作是，我来交付一个黑盒子，而不是我来交付一个端到端的体验。所以当这种情况改变时，我很高兴看到这样的系统，当你与代理交互时，它实际上本身正在合成这个多模态用户界面，以便最好地从你那里获得它需要的东西，对吧？并与人类和人工智能共享上下文

在人类和人工智能之间。像，而不是像目前的模式一样，你们在互相聊天。这就像你们正在一起在电脑上做一些事情，更像平行而不是垂直地看屏幕。我想你提到了显然Operator有时有效，有时无效，你知道。什么，像，你认为我们什么时候才能真正获得可靠的代理？我的意思是，顺便说一句，我认为Operator非常令人印象深刻。只是现在整个领域都缺少最后一部分，对吧？它，

就像自动驾驶一样，对吧？我忘了有多少。那一定是在十多年前，甚至可能是15年前，我们有令人惊叹的演示视频。好吧，昨天做了一个自动驾驶播客，我认为是95，他们进行了试驾。他们驾车穿越了全国，当然有99%。是的，是的，是的。所以我们是否必须等待30年才能实现？不，不，我不这么认为，因为我认为我们现在实际上已经拥有了工具箱中正确的工具。我认为……

是的，我认为这种构建AGI级代理的方法会非常有效。我想知道在代理领域哪些里程碑对你来说是有意义的？你认为你接下来关注的是什么？好吧，我在代理领域寻找的主要里程碑是，我可以……在训练时间，对吧？我在这些主要的实验室之一工作，并且……

我可以，我有像我正在寻找的里程碑是，我有一个方法，我可以在这个代理的训练中交给它任何任务，几天后回来，它就100%完成了。

是的。

你认为如果有人今天开始创建一家像Adept这样的公司，一家初创公司能否在这里取得成功？或者最终推动这一进程的是基础模型公司和超级巨头？所以我对这个问题实际上有很多不确定性。但我目前的观点是……

我个人认为AGI并没有那么遥远。当你提到AGI时，你是如何定义它的？一个可以完成人类在电脑上做的任何有用的事情的模型。这是定义的一部分。我喜欢的另一部分是，它是一个可以像人类一样快地学习如何做这件事的模型。像一个通才人类一样。我认为……

我认为这两者都不远了，但我也不认为它会，我认为它将具有深刻的变革意义，但我认为它不会很快在社会中传播，因为我，

正如我们通过阿姆达尔定律所知，一旦你真正加快了一件特定的事情，另一件事就会成为瓶颈，你的整体加速程度就会低于你想象的。所以我认为将会发生的是，我们将拥有这项技术，但将会有那些巨大的，我的许多同事称之为能力过剩，对吧？巨大的能力过剩，社会实际有效地使用这些东西的能力将滞后相当长一段时间。

一旦我们拥有了这些能力，你对制约因素有什么初步的想法吗？我认为是人。我认为是人员流程。这是弄清楚如何将界面与初创公司在如何使用模型方面做出的决策共同设计。这将是社会接受度。想象一下，你明天有一个模型跳出来说，嘿，我有一个

我发明了一种全新的X方法。每个人都应该去使用这个东西。人类必须与它和平相处，并决定，嘿，这实际上是一个更好的解决方案吗？这不会像我们想象的那么快。对。我想根据你的观点，即使实验室是第一个获得能够做到这一点的模型的地方，对于初创公司来说，也可能存在一个机会，实际上是那些弥合这些模型能力与最终用户实际想要交互的东西之间的差距的人。我实际上非常确定会发生这种情况。

我显然有偏见。我希望那样发生。这是一个很好的观点。好吧，我认为这是一个不错的选择，因为归根结底，我仍然非常相信，在一个拥有AGI的世界里，人际关系非常重要。了解和拥有你的客户，并更多地关注他们的需求，将比仅仅控制这个实际上很重要的工件更重要。

许多其他实验室也会拥有。你认为对于，比如，10年后我将如何使用我的电脑会是什么样子？当所有这些模型都，你知道，我们已经达到了你对AGI的定义。比如，我还会坐在电脑前吗？或者，你对人类与这些事物互动的方式有什么样的愿景？我认为我们将获得新的箭袋，

而不是我们与计算机交互方式的工具箱中的工具。我认为今天，我的意思是，我们有，人们仍然使用命令行，对吧？比如人们，这是人们生产力中非常重要的一部分。人们仍然使用GUI。将来，人们仍然会使用语音界面。但是，我认为人们也会使用更多环境计算。

而且，他们还将拥有我们之前讨论过的这种生成式UI。但我认为我们应该关注的指标是人类在计算上花费的每单位能量的杠杆率是多少？我认为随着这些系统的出现，这将继续向上和向右发展。也许可以详细讨论一下未来模型的世界，以及我们最终是否会得到任何特定领域的模型。让我们以假设的法律专家为例。

你可能希望假设的法律专家了解一些关于世界基本的事实。-是的，所以在法学院之前，我们让人们去读一个普通大学学位。-没错，没错。所以我认为，我认为会有专门的模型，

但我不想只是说会有专门的模型来掩盖重点。我认为会有专门的模型，不是因为技术原因，而是因为政策原因。这很有趣。这是什么意思？哦，是的。就像，你知道，你有一些公司真的永远不想让他们的数据混合在一起。或者你有一些，比如，想象一下你是一家大银行，对吧？你有你的销售和交易部门。你有你的投资银行部门，对吧？

为这些东西提供动力的AI员工或LLM，就像今天的那些员工不能共享信息一样，即使通过其权重，也不应该能够远程共享信息，对吧？当你考虑仍然需要在模型中解决的关键问题时，我的意思是，你似乎非常有信心，如果我们只是按这些方法扩大计算规模，那么我们就会非常接近于解决我们需要解决的问题。但是

但是你是否看到了在继续扩大模型智商方面面临的任何重大技术挑战？所以我实际上……

我实际上不相信我们会采用我们今天拥有的东西，然后我们只是将集群提前两年，然后一切都会神奇地奏效。我确实认为规模将是一个主要因素，但我对这个问题的信心实际上来自于观察主要剩余的开放性问题，并试图估计它们的难度。

我认为如果一个超级困难的事情，比如我们需要去替换梯度下降，或者我们只能用量子计算机做AGI之类的事情。

我认为这不在计划中。当新的模型出现时，你会怎么做？比如，你怎么，你知道，你会查看评估吗？你会用一些常用的问题来检查一下它们吗？比如，你怎么判断这些新模型有多好？所以我做了两件事。其中一件是

我学到的是，这就是这个领域如此酷的地方。有时你只需要查看一个结果，尤其是在有发布方法的情况下，现在这种情况很少见，你只需要看看他们是怎么做的。你会想，哇，这实际上比我们以前做的方法更简单。结果也更好。当这种情况发生时，它几乎总是成为深度学习规范的一部分。然后你就会有这么一刻，你会想，这实际上真的很漂亮。是的。

我认为这是主要的。然后其他的，比如，基准测试是该领域炒作的一部分，许多好的基准测试，但实际上，与人们对这些模型的需求并不那么一致，在人们的开发过程中变得如此重要。所以他们都被操纵了。我实际上认为，比如，

评估是如此困难。测量是如此困难。应该比我们现在正在做的许多其他事情给予它更多的声望和关注。是的。而且似乎每个人都有他们自己不公开发布的内部评估。他们更信任。就像，你可以看到像OpenAI模型在许多编码基准测试中表现更好，但每个人仍然使用Anthropic模型，因为他们知道它们更好。所以看到这个景象不断发展很有趣。

-好吧，我很想知道你能谈论到什么程度。我喜欢听听你最近在亚马逊的工作，以及你如何看待亚马逊在更广泛的生态系统中的作用。-是的，亚马逊实际上是一个非常有趣的地方。我觉得我在那里短时间内学到了很多东西。亚马逊非常重视构建通用智能系统，尤其是通用智能代理。

我认为真正酷的是，我认为亚马逊的每个人都明白，计算本身正在从我们都了解和喜爱的基元转变为对大型模型或大型代理的调用，这可能是未来最重要的计算基元。

所以人们真的很关心，这太棒了。我认为有趣的是，我现在在亚马逊负责代理。真正酷的是，你能够看到代理在一个像亚马逊一样大的公司中所触及的一切的广度。好的。

同样令人敬佩的是，Peter Abile和我一起在旧金山为亚马逊启动了这个新的研究实验室。这在很大程度上是因为亚马逊最高层的人们，我认为，真的相信我们必须取得新的研究突破，才能解决我们之前在AGI道路上讨论过的那些剩余问题。是的。

你会关注人们正在尝试的任何这些替代架构吗？或者你还会关注哪些其他可能更超前的研究领域？让我们看看。所以我总是关注那些

看起来可能有助于我们更好地将模型学习映射到计算的东西。我们可以更有效地使用更多计算，对吧？它只是让我们能够做的事情有了巨大的倍增器。但我老实说，我花更多的时间来研究数据中心和芯片，因为我发现它太迷人了。太酷了。太酷了。现在那里有一些有趣的策略正在实施。是的。

似乎推动模型最近进展的一个重要因素是数据标记。显然，所有实验室都在为此花费巨资。在这次测试时间计算范例中，这仍然相关吗？你如何看待这个问题？我认为有两个不同的工作需要从数据标记中解决。可能还有更多，但我首先想到的两个是教模型……

教模型如何通过克隆人类行为来完成任务的最基本方法。如果你有超高质量的数据，那么你可以用它来更好地引出你在预训练过程中已经松散地看到的东西。

然后我认为第二个工作是教模型什么是好什么是坏的任务是模糊的。我认为这两个方面都将保持非常重要。但我认为，仅仅为了略微改进已经能够做某事的模型而随意使用人类数据标签的这个中间部分，这将是强化学习的工作。你显然在这个领域的前沿工作了几十年。

在过去一年中，你在人工智能领域改变了哪些想法？我实际上一直在反复思考的是构建的重要性

以正确的方式构建团队文化。比如，嗯，我认为我们一直都知道这一点，但我越来越相信，在职业生涯早期聘用真正聪明、精力充沛、具有内在动机的员工，实际上是……是产品最好的引擎之一。我觉得在这个领域，比如每隔几年，嗯，

哦，是的。每隔几年，最佳策略就会发生变化。因此，如果人们对之前的最佳策略过度拟合，他们实际上会减慢你的速度。所以我认为最好是押注于新来的人，这比我以前想的要好。

但我实际上改变了想法的另一个问题是，我过去认为构建人工智能实际上会有真正的长期技术差异，你可以利用它来积累优势。

我过去认为，如果你在文本建模方面做得非常好，你显然应该成为多模式领域的赢家。如果你擅长多模式，你显然应该成为推理和代理领域的赢家。这些事情应该会积累起来。实际上，我看到很少有积累。我认为人们都在尝试……

相对类似的想法。我想你所说的隐含意思是，仅仅因为你是第一个突破A，并不一定意味着这会让你处于如此有利的地位来实现，你知道，突破B。就像基本上，如果你在LLM方面领先，然后我们谈论推理方面，我的意思是，OpenAI碰巧在这两方面都领先，但这就像推理突破可能来自任何实验室一样。仅仅因为他们是第一个，你知道，达到GPT-4级别的模型并不一定意味着他们必然会成为拥有下一个……的人

我的意思是，这肯定相关，但这并不像你必然会赢得下一个变化那样确定无疑。好吧，我想谈谈你，你知道，你显然最初是因为对机器人的热爱而进入这个领域的。所以我很想知道，你认为我们今天在人工智能机器人领域处于什么位置？与我对数字代理的信念类似，是的。

我认为我们拥有许多原材料，而且有趣的是，数字代理使我们有机会在必须进行所有昂贵的事情之前，降低物理代理中一些难题的风险，比如现实世界中的物品。详细说说。所以基本上，在数字代理方面解决可靠性问题，好吧，你知道，这实际上是如何最终渗透到物理代理方面的？一个简单的例子，一个玩具例子。假设你有一个你想要重新安排的仓库。

你有一个物理代理，你问它，嘿，比如找出重新安排这个仓库的最佳计划，对吧？如果你是在物理世界中学习，甚至是在机器人模拟中学习，这有点困难。但是，如果你已经可以在数字空间中做到这一点，并且你拥有所有训练方法和诀窍，你已经调整了算法，使其能够从模拟数据中学习，那么它只是，你已经完成了这个的训练轮版本。

所以很有趣。我觉得当人们考虑机器人技术时，存在着这些极端的两极。有些人看着它，他们说，哦，我们在LLM中发现的同样的缩放规律，我们也会在机器人方面发现，我们正处于这种巨大变化的边缘。你经常听到Jensen谈论它。然后还有一些人说，我们处于95年自动驾驶汽车的水平，这是一个很好的演示，但实际上要让它工作还需要相当长的时间

你站在这个范围的哪个位置？我只是回到会让我最自信的事情，那就是我们构建训练方法的能力，让我们100%完成任务。

如果我们可以在数字空间中做到这一点，我认为这将是一个挑战，但最终也会转移到物理空间。你认为我们什么时候会在家里有机器人？哦，天哪。好吧，我认为这实际上，它回到了我之前所说的内容。我认为有些问题，实际上很多问题，瓶颈不是建模。它是建模的传播。视频模型怎么样？嗯，

显然，已经有很多人进入这个领域了。似乎围绕这个领域的下一个前沿是真正的一种世界模型和对物理学的理解，以允许在那里进行更开放式的探索。也许只是评论一下你在这里看到的东西和你对这个领域的看法。是的，我对此非常兴奋。我认为它解决了一个主要问题

剩余的问题是，你知道，我们之前谈到过，今天我们能够让强化学习在你有验证器的问题上发挥作用，对吧？比如定理证明或类似的东西。然后我们讨论了如何将其推广到数字代理空间，在这个空间中，你遇到的问题没有验证器，但你可能有一个可靠的模拟器，因为我可以启动我的暂存环境来插入应用程序，并教代理如何尝试使用它。

但我认为剩下的一个主要问题是，当你没有明确的验证器或明确的模拟器时会发生什么。我认为世界建模就是我们回答这个问题的方式。太棒了。我想稍微改变一下话题，谈谈OpenAI和你当时在那里工作的情况。显然，你参与了公司这个非常特殊的时期，

并在那里取得了许多进步中发挥了重要的作用。你知道，我觉得在某个时候，我们将迎来大量关于是什么让OpenAI文化在这个时代如此特别的想法，这个时代发展了，你知道，GPT 1到4。你怎么认为？

你认为这些文章会怎么说？是什么让这个组织运作起来？哦，我的意思是，我不确定这些文章是否能正确理解，因为我已经看到各种关于OpenAI在那个时期取得成功的糟糕的热门评论。我认为这是，你知道，当我加入的时候，因为研究社区在2017年真的很小。我认为OpenAI成立了一年多一点。

我认识创始团队和一些早期员工中的很多人，他们正在寻找某人……OpenAI从一开始就做对的一件事，我非常喜欢，那就是模糊了研究和工程之间的界限。他们正在寻找某人来管理它。

所以这是非常幸运的。我加入的时候只有35个人，团队中有令人难以置信的人，比如John Shulman和Chris Berner，他们做了我们很多超级计算的工作，还有Vojcek。还有很多我可以提名的人，他们当时都是令人难以置信的人。好的。

而且，你知道，有趣的是，一开始，它帮助OpenAI构建了许多基础设施，这些基础设施是如何扩展到一个所有成员都适合在一个房间里的微型团队之外的，对吧？所以很多基本的工程管理方面的事情。但随后它开始转变为，我们如何定义一种差异化的研究策略，这将使我们能够基本上为这个ML时期做出正确的选择？而且……

我认为这真正归结为我认为我们比其他人更早意识到

以前的研究方式，比如你和你的三个最好的朋友写一篇改变世界的研究论文，那个时代已经过去了，我们真的需要考虑这个新时代，在这个时代，我们考虑的是主要的科学目标，并试图用更大的研究人员和工程师团队来解决这些问题，无论解决方案是否被学术界定义为“新颖”，我们有时会为此承担责任，比如当GPT-2第一次出现时，人们说，好吧，这看起来像一个转换器，是的，它是一个转换器

这是一件值得骄傲的事情。你加入OpenAI时认为自己是在做什么？哦，我的意思是，我太兴奋了，因为我想站在研究的前沿。当时，是OpenAI或DeepMind。或者我想也是谷歌大脑，但我认为我想做一些更具推测性的事情。与我之前所说的关于押注真正具有内在动机的人的教训相同

那些可能在职业生涯早期的人是一个如此成功的秘诀，对吧？像Alec Radford这样令人难以置信的人，像发明Dali的Aditya Ramesh一样。同样，我可以列出一长串令人难以置信的人，他们在那个时期做出了定义领域的事情，他们没有博士学位，也没有多年的经验。

你注意到哪些共同特征，是什么让这些人如此优秀？我的意思是，你是一位伟大的AI研究员。你与许多伟大的AI研究员合作过。是什么样的特质使这些人如此优秀？然后你学到了什么关于将他们聚集到团队中以完成他们能够完成的事情？其中很大一部分是内在的动力和智力的灵活性。

我不会透露这个人的名字，但这个人对他们在我的团队中所做的研究非常有动力和兴奋，大约在一个半月后，我记得和他进行了一次一对一的谈话。他只是说他从未费心为他的公寓安装Wi-Fi或电力。他刚搬到海湾加入我们。它……

我当时想，这怎么会完全没问题呢？结果他只是把所有时间都花在办公室里做实验，这并不重要。这是一种相当高的热情水平。我的意思是，我以前听你谈论过，谷歌没有取得GPT突破有点令人震惊，因为转换器是在那里发明的。当时有多明显？

当时，你知道，这项技术的变革性有多大。而且，你知道，我认为你基本上谈到，就像，谷歌很难作为一个完整的组织来团结起来应对这个问题，而不是其他研究。也许只是评论一下这方面的情况。我的意思是，要感谢Ilya。我记得Ilya说，我们必须去……

所以Ilya是我们的科学领导者，特别是对于基础研究部分，这最终催生了GPT-CLIP和DALI。我只是记得他去上班，说，伙计，我认为这篇论文非常重要。并促使人们尝试使用Transformer与其他架构一起运行的实验。我的意思是，你认为是否存在这样的风险，即现在基础模型公司同时做这么多不同的事情，这几乎感觉像是某个时候可能会有另一种方法？

我认为失去焦点非常危险。你可能是英伟达和Jensen最忠实的粉丝之一，在我认识的人中。所以我很想知道，现在生态系统中对Jensen和团队所取得的一切都充满了如此多的热爱。英伟达做的一些事情你认为没有被广泛谈论，但实际上是让这家公司如此令人印象深刻的重要组成部分是什么？

我喜欢Jensen。嗯，一个传奇人物。嗯，是的，我觉得他，他在这么长的时间里做出了很多正确的选择。嗯，我认为人们现在已经知道了这一点，但是，嗯，嗯，我觉得，嗯，尤其是在过去几年里，我认为这对他们来说真的很有回报，但是，嗯，但是将互连集成到内部，并且，嗯，

选择将他们的业务导向系统是一个非常好的举动，我认为。好吧，我们总是喜欢在采访结束时进行快速问答。所以请说说你对一些问题的看法。我觉得我知道你会怎么回答这个问题，但你认为今年的模型进展会比去年多、少还是一样？我认为从表面上看，它看起来可能差不多，但我认为实际上会更多。你认为人工智能领域中有什么东西被过度炒作了，有什么东西被低估了？被过度炒作的是……

规模已经死了。我们完全完蛋了。让我们不要再购买任何芯片了。被低估的是，我认为……

我认为被低估的是我们如何为这些模型学习实际解决极大规模的模拟？David，这是一次引人入胜的谈话。我相信人们会想要更多地了解你以及你在亚马逊所做的一些令人兴奋的工作。人们可以在哪里了解更多关于这些信息？是的，对于亚马逊，我会查找亚马逊SFAI实验室。我实际上不怎么用Twitter，但我计划重新开始使用它，所以你可以在JLuan上关注我。

谢谢。

感谢收听，我们下期再见。

Ep 55: Head of Amazon AGI Lab David Luan on DeepSeek’s Significance, What’s Next for Agents & Lessons from OpenAI 43:49 Share

Unsupervised Learning

Deep Dive

Shownotes Transcript

Ep 55: Head of Amazon AGI Lab David Luan on DeepSeek’s Significance, What’s Next for Agents & Lessons from OpenAI