We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Eiso Kant (CTO poolside) - Superhuman Coding Is Coming!

2025/4/2

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Eiso Kant

Topics

Eiso Kant: 我认为仅仅依靠扩大模型规模和数据量无法实现AGI，强化学习是提升AI能力的关键。Poolside AI专注于利用代码执行反馈进行强化学习，目标是在未来18-36个月内实现知识工作领域的人类水平AI。我们从头构建基础模型，而非依赖微调，并专注于软件开发领域，这使得我们可以更有效地利用计算资源，并满足企业对数据安全和隐私的需求。我们相信，随着模型能力的提升，软件开发生命周期将发生变化，更多的人将参与到软件开发中，并采用模块化和微服务架构。同时，我们也重视模型的可解释性和安全性，并致力于构建可信赖的企业级AI解决方案。未来，多模态AI技术将发挥重要作用，代码可能仍然会在一些关键领域发挥作用，但最终可能会被更高级的模型所取代。

Deep Dive

Chapters

Eiso Kant, CTO of Poolside AI, discusses the company's unique approach to scaling AI using reinforcement learning from code execution feedback. This contrasts with simply increasing model size or data volume. Kant predicts human-level AI in knowledge work within 18-36 months.

Reinforcement learning from code execution feedback is a key scaling axis.
Poolside AI aims to achieve human-level AI in knowledge work within 18-36 months.
Scaling next token prediction is imitation learning; scaling reinforcement learning is trial and error learning.

Shownotes Transcript

你永远不会听到我反对规模。当时的全球叙事是，我们将扩大下一个GPT模型，使其规模扩大10倍。这是一个如此强烈的叙事，坦率地说，当时世界上许多人都相信这一点。我们没有。

有一个缺失的扩展轴没有被讨论，坦率地说，这就是我们创立这家公司的原因。它是强化学习使用规模的轴线。下一个标记预测的规模相当于模仿学习。强化学习的规模相当于反复试验学习。我们创建这家公司的原因是，我们看到了一个未来，我个人认为现在距离这个未来只有18到36个月，在这个未来，绝大多数知识工作的水平将达到人类水平的智能。除非你从头开始构建，否则你无法做到这一点。

你无法通过微调来实现通用人工智能。我刚刚与Eiso Kant进行了最精彩的对话。他是Poolside AI的联合创始人兼首席技术官。现在，他们正在构建前沿语言模型。他们是世界上大约七到八家拥有从头开始构建基础模型的技术能力的公司之一。

他们有一个非常酷的解决方案来进行生成式AI编码。老实说，现在编写软件的速度比以前快了大约10倍。现在，这些人所做的是，他们使用来自代码执行反馈的强化学习，这意味着他们在堆栈中更进一步

以使他们构建的语言模型与您正在编写的代码和软件保持一致。目前，这个领域有很多唾手可得的成果。我们什么时候才能拥有能够观察你的屏幕、多模式的代码解决方案，这些解决方案可以帮助你更好地与开发人员协作？Eiso有一个非常有趣的故事要讲述这一切。我们还就如何训练基础模型、测试时间计算以及思考和推理进行了一些非常酷的“Galaxy Brain”对话。

我认为这次对话对很多人来说有很多值得深入探讨的地方。

MLST由2forAI Labs赞助。现在他们是位于瑞士的DeepSeek。他们有一个很棒的团队。你已经见过团队中的许多人。他们当然收购了Minds AI。他们在Arc上做了很多伟大的工作。他们现在正在研究O1风格的模型以及推理、思考和测试时间计算。你想要为他们工作的原因是，你可以获得大量的自主权，你可以获得可见性，你可以发表你的研究成果。而且他们也在招聘，除了机器学习工程师，他们还在招聘首席科学家。

他们真的、真的想要为这个职位找到最合适的人选，他们准备支付高额的签约奖金。因此，如果您有兴趣作为机器学习工程师或他们的首席科学家为他们工作，请联系Benjamin Kruse，访问twoforlabs.ai，看看会发生什么。Eiso，很荣幸邀请你参加MLSD。非常感谢你今天加入我们。不，非常感谢你邀请我。我很感激。你能告诉我们一些关于你自己和Poolside的信息吗？

就我个人而言，我是一个电脑极客。我从小就开始编程。2016年，我发现自己正在创建我认为是世界上第一家专注于使人工智能能够编写代码的公司。实际上，我也遇到了我的联合创始人。这是一个比较长的故事。在23年4月，我们创立了Poolside。Poolside的创立实际上是基于我们对世界将实现人类水平的人工智能的观点。

我们对如何实现这一目标提出了自己的观点。从现在开始的近两年时间里，这都是我们的根本出发点。你的联合创始人叫Jason，对吗？是的，Jason是我在2017年认识的，当时他是GitHub的首席技术官。我不确定我是否公开说过这个，或者至少没有在镜头前说过，他实际上为我创建的那家名为Sourced的公司提出了收购要约。

我们当时拥有世界上第一个能够完成代码以及类似工作的模型。我拒绝了收购要约，但尽管如此，我们成为了非常好的朋友。所以，多告诉我们一些关于Poolside的信息。主要目标是什么？Poolside的主要目标归结为希望构建一个拥有我们可以通过计算扩展的人类水平智能的世界。

我们认为这基本上将通过两种方式产生影响。一种是，我们越能使有能力的智能可扩展，我们就能开始将商品和服务的成本降低到零。另一方面，在我们面前还有整个技术和科学进步的前沿。根据定义，它是无限的。

我们将永远继续发现更多。因此，能够将这一时间拉近一直是我们的使命。但我们采取了与其他人略有不同的路径。我们专注于使人工智能能够极其熟练地构建软件。我们在网站上第一天就制定了这个三步计划，如果你点击“愿景”，它仍然在页脚底部。它说，第一步，使人工智能能够协助开发人员构建软件。

第二步，允许世界上任何人都可以构建软件。第三步，将其推广到所有其他领域和领域。因此，目前该领域存在一种赢家通吃的动态。那里有一些令人惊叹的前沿模型。我的意思是，我一直在玩Sonnet 3.7的思考等等。而且总是有差异化的疑问。我的意思是，Anthropic发布了这个Claude CLI的东西。而且，你知道，

你可以把它放在你的仓库里，我的上帝，它真的、真的很好。那么，你如何在它的基础上进行差异化呢？我认为我们所有处于前沿的人都在不断地为了模型能力而相互竞争。我认为，随着时间的推移，在软件开发等能力方面，我们最终甚至可能会走到同一条道路上。但是，如果你看看现在世界上的情况，实际上只有极少数公司在这个领域竞争。我认为我们有……

老牌公司，比如谷歌，我们有第一代人工智能公司，OpenAI和Anthropic。你还有第二代，XAI、Poolside、Mistral。我们都在23年4月、5月左右成立。我认为我们所有人都在同一条赛道上。现在，我们决定不专注于使我们的模型新颖。

通常情况下，对于每种可能的用例都可用，而是真正地使它们可用于软件开发。这让我们在关注的领域和不关注的领域方面拥有了一定的自由。但不要误解，我们为构建真正强大的基础模型所做的工作仍然有助于构建真正强大的模型。因为软件开发不仅仅是编写代码。你需要了解世界。你需要能够进行多步骤的复杂推理。你需要能够规划长期目标。

所以我对Anthropic使用CLAW 3.7所做的事情感到非常兴奋。我认为这是一个了不起的模型，SONNET模型。当然，对我们来说，确保我们没有超越它是很重要的。因此，我们一直在与彼此竞争，但我们对我们的研究和方法采取了某些观点，我认为这将使我们能够随着时间的推移更快地朝着这些目标前进。

所以我试图理解这一点，因为在拥有能够做很多事情的真正通用的基础模型与来自该领域许多人的说法之间似乎存在着一种二分法，他们说我们需要定制、个性化和本地部署等等。这两个世界是如何融合在一起的？我认为这是一个频谱。我认为，在模型训练的第一阶段，你绝对希望嵌入尽可能多的世界多样性和知识。

软件开发不仅仅是编写代码。它能够与现实世界互动并将现实世界转化为数字形式。因此，掌握这部分内容至关重要。我可能不太关心我的模型有多幽默，以及它在处理喜剧细微之处方面有多好，但我绝对关心它在许多不同领域的知识。

然而，最终发生的事情是，我们所有人都有一个固定的参数空间。归根结底，推理是有成本的，所以我只能加载这么多参数，然后才能实际运行。通过拥有一个固定的参数空间，这意味着你必须选择你想用这些参数做什么。因此，我们试图将模型能力的分布更多地转向软件开发，就它们的能力而言，但也意味着我们愿意权衡

你知道，可能不如写一个有创意的睡前故事，或者写喜剧，或者你可能在其他人的消费级AI中找到的领域那么好。但是你提到了第二点，那就是定制的概念以及你部署在哪里？我认为这实际上取决于你如何看待未来几年模型的发展方向？

因此，我认为我们所有处于前沿的人都有责任构建世界上最强大的模型，这些模型能够与所有科学、技术和知识工作互动。即使我们专注于它们构建软件的能力，我们仍然关心所有这些。随着时间的推移，在我们的第三步中，我们也希望扩展到其他领域。但是，如果你看看未来会发生什么，有一个很大的问题。一个问题是我们是否拥有一个功能强大的静态模型？

这是一个模型，我们都使用它来完成具有经济价值的工作。或者我们是否拥有能够真正成为自身版本并在环境中部署的强大模型，从该环境中的数据中学习？

所以问题是，我们是否有一个能够编写所有软件的软件开发人员，或者我们是否有一个部署在银行环境中并且真正能够访问所有信息并从中学习的软件开发人员？所以这有点像，我们是否将它拟人化了？它会像人类一样吗？我可以成为一个非常有能力的软件开发人员，但是你把我部署在银行里。突然之间，我将不得不随着时间的推移从那家银行学习一切，以及那些嵌入式知识。或者我是一个被应用于它的通用事物？

我认为诚实的答案是，我们在这个领域还不知道。我所知道的是，今天，当模型还没有达到人类水平的能力，甚至还没有达到超人类水平的能力时，让模型访问尽可能多的数据、尽可能多的上下文以及在环境中学习的能力是非常有价值的。因此，我们只是寻找实现这一目标的最短路径。与企业实现这一目标的最短路径是

是愿意在他们的防火墙后面部署模型、上下文智能层和应用程序，靠近数据。这是一个战术性的及时决策。我认为随着时间的推移，这种形式因素可能会发生变化，但这是我们已经看到与我们现有客户产生良好共鸣的事情。

这很有趣，因为我试图引出你对扩展的看法，因为许多人认为我们应该扩大模型的规模。GPT 4.5刚刚发布。很有趣的是，你知道，Gwen和Karpathy，你知道，他们在推特上说，好吧，你知道，高情商的人，这意味着聪明的人，他们可以看到这是一个进步，它在非常细微的事情上做得很好，但是基准测试并没有捕捉到这一点。我们需要更好的基准测试。

但是不可否认的是，目前存在能力差距，对吧？因此，我们需要定制，例如，现场思考，与领域垂直领域进行表面接触才能做得很好。但我认为你是在说，你可以想象一个未来世界，在这个世界里，我们可以将所有这些数据带回一个巨大的基础模型中，它也能同样有效地工作。你永远不会听到我反对规模。计算规模和数据规模对于我们缩小模型今天所处的位置之间的差距至关重要

以及我们相信它们可以达到的水平，人类水平的智能甚至超越人类水平的智能。但这并不一定意味着今天的扩展轴与人们两年前认为的扩展轴相同。所以当我们创立这家公司时，当时的全球叙事是，我们将扩大下一个GPT模型，使其规模扩大10倍，并为其提供更多网络数据，我们将迎来AGI时刻，迎来人类水平的智能。

这是一个如此强烈的叙事，坦率地说，当时世界上许多人都相信这一点。我们没有。这并不是因为我们不同意规模。我认为规模非常重要。

但我们的观点是，有一个缺失的扩展轴没有被讨论。坦率地说，这就是我们创立这家公司的原因。它是强化学习使用规模的轴线。你提到了Karpathy。我喜欢我们前几天是怎么说的，比如下一个标记预测的规模相当于模仿学习。强化学习的规模相当于反复试验学习。虽然这可能有一些细微之处，但我认为这是一种正确的思考方式。

是的，我读了Max Bennett写的一本很棒的书，叫做《简明人工智能史》。他基本上说的是，当你观察动物界，特别是人类时，你会看到这个模拟轴，对吧？所以它是有能力想象事物，或者，你知道，想象你没有直接经历过的经验。

可以访问，对吧？这只会创造这种爆炸。当然，语言是一种更复杂的创造，因为它允许你以模仿的方式与其他人分享你实际上没有的那些模拟。因此，通过强化学习，你实际上可以尝试事情，并且可以积累知识，而无需拥有直接的物理经验。所以我认为这取决于你在哪里应用强化学习，对吧？所以我倾向于同意你所说的很多话。

那就是，归根结底，我们在思考中所做的，而且我认为这与个人的经验不同，个人的经验。我们之前讨论过这个。我的想法完全是基于语言的。这是一个持续的内部独白，它是如此基于语言，以至于没有视觉表示或抽象概念。所以对我来说，我觉得自己与语言模型非常相似，为了说得滑稽一点，因为我看到了它们的思维和推理方式，我可以与之产生共鸣。

但我之所以提到这一点，是为了回应你的观点，那就是语言是一种方式，我认为它不是唯一的方式，但它是一种我们可以探索不同可能思维链、不同可能思维的方式。我非常同意我的思维方式，而且我认为许多人的思维方式是，你正在查看一个目标，并且你正在思考能够让你达到该目标的不同可能的思维链。这可能是编写一段代码，或者这可能是关于更长期的目标。

我们做了一些事情来确保该目标是正确的。一个是我们试图使其与我们所知道的我们所建立的知识表示保持一致。所以如果我正在，你知道，推理或思考一个数学问题，我不断地与我之前学习过的知识表示进行一致性检查，对吧？在数学、物理或任何其他领域中必须为真的公理。但是，有些事情，无论我多么努力地保持真实，

我实际上需要做这项工作。我需要获得现实世界的反馈。所以，称之为略微有缺陷的例子，但我认为这是一个有用的例子，那就是如果我想学习围棋或国际象棋。我可以阅读大量的教科书。在某种程度上，我可以在我脑子里进行国际象棋游戏。但归根结底，

就我自己的合成数据而言，我仍然是一条自相残杀的蛇，对吧？因此，进入一个与其他人（计算机或人）对弈的环境，这并不重要，我从我的错误中学习，嘿，我探索的推理链导致我输掉了这场比赛。我认为强化学习真正有价值的地方就在这里，当我们能够形成一种奖励，这种奖励能够将我们推向更正确或至少更接近正确方向时

然后我们可以改进下一组思维和想法，也就是你所说的那些下一思维链。是的，有一篇很棒的《自然》论文讨论了Ilya Sutskever关于模型崩溃的问题。我们实际上下周将与Ilya进行采访。但在某种程度上，它让我想起了这些关于AGI末日类型的讨论，对吧？因为当你谈论无所不知时，我认为这不是一个科学的讨论。我认为在现实世界中，我们需要推动分子的运动。

软件也是如此，对吧？这些生成式AI软件编码之所以如此强大，是因为它们实际上可以测试它们生成的软件。这非常重要，从现实世界获得信号。我们非常以我们在代码执行反馈强化学习方面的工作而闻名。当我还在2016年创建我们在这个领域的第一个公司时，我就开始了这项工作。这是我们谈论Poolside使用内容的一个重要部分。

这实际上是说，如果你有一个非常庞大而多样的环境，在我们的例子中，我们确实有，我们拥有近百万个完全容器化的存储库，以及它们的测试套件和数百万甚至数千万个修订版本，我们可以说，嘿，在这个存储库的这个提交哈希值中，我想更改这段代码，然后我想执行它并查看返回的结果。如果那是针对它的运行测试，或者只是一个编译器或解释器，甚至是合成测试，

这允许我们做的是，它允许我们拥有一个非常、非常大的环境，因为一百万个存储库代表了各种类型问题的巨大多样性，无论是密码学、网络应用程序还是核心数据库内核。它允许我们然后为模型设计任务，让它们可以探索可能的解决方案和导致这些解决方案的思维，然后从它们正确或错误的时候学习，或者至少

我一直试图谨慎地说对或错，更正确和更不正确，对吧？因为这本质上就是强化学习。你试图将模型推向一个方向，这样下次当你对你的想法进行采样，当你对你的解决方案进行采样时，你会稍微好一点。你在训练中这样做足够多次，你就可以开始到达一个你变得非常好的地方。但是如果你在一个非常狭窄的任务上这样做，

你会得到模型崩溃的概念，对吧，或者过拟合。你会到达一个这样的地方，模型现在只能做这个了。然后它就不再是一个有用的通用智能了，对吧？所以编码有点像处于这种光谱中，它足够确定性，但具有足够的多样性，即使你对它进行了一点过拟合，你仍然使其成为一个非常通用的智能。你并没有使其成为一个只能玩围棋游戏的特定任务的东西。

我对这种不同可能的思维或不同智能的多样化集合的想法很着迷。我认为你可以通过各种表示和尽可能多的自由度来创造智能。你实际上做了一个有趣的评论，你不太直观。你在这个分析语言空间中思考，我很直观。我可以想象我脑海中的声音等等。我们编写软件的方式实际上非常多样化，你知道，比如设计模式书籍等等。这些是不同的类比，不同的抽象。我们，你知道，即使是爱因斯坦，当他思考相对论时，他也在思考涟漪和波浪等等。在软件方面，

你知道，有语法，有我们实际编写代码的方式，有语义，它的含义，以及行为空间，我们如何实际测试它。你正在与某种形式的人工智能对话，我们正在学习像层次结构的表示，它可以动态地在它们之间切换。这取决于我们如何看待这些模型，对吧？而且

我想用我们还没有一个好的科学理论基础或真正强大的可解释性来警告这一点，我接下来要说的话只不过是我目前最好的估计或意见。但我认为该领域的大多数人都会同意以下几点：在这些模型中发生的事情是，我们正在学习极高维度的表示。

我们正在学习的一些表示代表了使用语言的能力。这些是与其他所有事物都大量相互关联的表示。我们正在学习的一些表示是非常具体的知识片段。

对吧？我们之前对此进行了一些讨论，但是如果我拿出一段知识，比如罗斯福总统的出生日期，它位于一个高维空间中。它可能与其他与美国总统相关的事情相近。如果你回到机器学习的早期，我们认为Word2Vec和类似的东西，我认为这些仍然是有用的思维模型。但那时我们谈论的是嵌入和表示，这些嵌入和表示代表单词、词袋或知识。

现在，我们已经能够构建的模型类型是，我们对事物有更通用、更有用的表示。使用语言的能力，开始进行推理的能力。

我之所以提到这一点，是因为我认为在我们过去几年训练这些模型的第一波浪潮中，只是在越来越多的数据和更大的模型上扩展下一个标记预测，我们正在改进代表数据中最过度表示的事物的表示。

语言、知识，但我们还无法真正开始改进复杂推理、多步骤过程的表示，改进构建复杂软件所需的事物，改进找出新的科学突破和理论所需的事物。

现在，我们可以通过强化学习来真正改进这些。但归根结底，如果我们拥有无限量的数据来代表我们所有的思维过程以及我们获得的所有反馈，

那么我们使用什么实际上并不重要。我们可以用下一个标记预测来学习它，对吧？我们不一定需要使用强化学习。这些都只是我们改进数据并因此改进智能的方法。我们试图以最有效的计算方式做到这一点。所以我的团队非常厌倦我这么说。我一直说我们所做的所有工作要么是在提高训练或推理的计算效率

要么是在改进数据，从而改进模型的智能。你所做的一切，都可以放在其中一个桶里。我知道这是一个过度简化，这里和那里总有一些极端情况。但是当我们想出一个用于线性注意力的疯狂新架构时，这是我们投入大量工作的东西，对我来说，这只是提高了推理的计算效率，对吧？如果我们找到一种真正惊人的方法来扩展强化学习，这实际上只是在改进数据。

所以对我来说，它们只是模型构建的两个方面。是的，我认为模型的经济学实际上非常重要，因为即使现在

当OpenAI最终发布O3时，出现了Arc挑战的新版本，他们每个任务花费2500美元，但他们可以解决它。他们可以获得超人的表现。所以现在这只是一个计算问题，但仍然存在帕累托边界，对吧？你知道，我们有双子座模型。它非常非常便宜。你可以对它进行采样，你知道，也许50000次，你仍然可以得到答案。所以

所以我们得到了对智能和AGI的定义。我们一直在谈论这个。François Chollet说，这基本上是你的推理或你的知识获取效率。所以，你知道，你多快才能将新的观点和经验基础转化为新的技能程序？你一定在与这个帕累托边界作斗争，对吧？所以你正在弄清楚模型的合适大小是什么？合适的架构是什么？模型的合适大小是什么？

在模型有多大以及在这种情况下我进行多少知识获取和推理之间有什么权衡？我认为，归根结底，我们现在所有处于前沿的人都在利用尽可能多的计算资源。我认为这不能忽视。我认为，如果你正在争夺前沿模型能力，你能够用于训练的计算资源量绝对至关重要。

但是，斗争的部分在于你将它应用在哪里？你是将其应用于使模型在参数空间中更大？你是将其应用于生成海量合成数据？你是将其应用于强化学习的扩展以及更多采样？所有这些本质上都是一个具有最优解的方程，对吧，对于所有这些事情。

我们运作的方式，坦率地说，我认为大多数前沿实验室的运作方式是，我们试图在这些领域以及其他几个领域进行实验以找到最优解。为了让你了解一下，我们的团队在1月份进行了超过4000次实验运行。

这些发生在架构、数据消融、权重混合、强化学习、样本数量以及所有这些不同的变量上。我们用所有这些实验从根本上试图做的是试图理解这些东西之间最优的平衡是什么。你说了非常重要的一点。归根结底，成本很重要。

所以，所有这一切的首要目标函数是在一定的时间和预算内创造出尽可能多的智能，然后以一定的价格提供给最终消费者。训练和推理部分非常关键。因此，在我们专注于软件开发能力的领域，我们处于一个非常有价值的领域。它在经济上是有价值的。

我认为，如果你试图同时服务于这个领域，又试图服务于那些想写睡前故事的免费用户，那就困难得多，对吧？因为它们在经济上的价值是不同的。

从架构复杂性和定制化的角度来看，企业希望设计自己的架构。他们希望有清晰的安全边界。因此，金融部门的软件工程师、法律部门的软件工程师，他们希望在我们刚才讨论的这些边界上创建自己的权衡。那么，这是否使得它比为每个人设计一个方案更复杂，你是否做了很多定制的工作？所以我认为，这里既有基础模型的构建

也有围绕它的所有东西的构建，对吧？所有允许你将它部署在不同环境中的软件，无论是工作站、服务器本地部署，还是私有云环境、VPC，还是任何人都可以访问的纯云。因此，从公司成立的第一天起，我们就做出了一个决定，我们将尽一切努力成为企业的值得信赖的合作伙伴。这源于一个相当

简单的分析过程，我们说，世界上大部分经济上有价值的软件开发工作在哪里？它位于企业的软件开发中，对吧？截至目前，所有软件开发美元的70%都花在了企业上，但正如你所说，这些也是非常复杂的环境，有很多安全问题和边界，所以我们再次采取了一个简单的观点，说，他们希望我们在哪里？我们看到我们实际上可以成为客户要求的

我们一次又一次听到的是，将模型带到数据中，而不是将数据带到模型中。因此，我们决定相应地构建。因此，今天我们将我们的完整堆栈、模型和应用程序一直部署到这些私有环境中。这需要大量的工作，大量的工程工作，我们做了很多工作来简化它，以便它可以扩展。我个人认为，最终每个人都会最终使用云。但是今天，如果你从战术上来看全球 2000 强企业，

许多企业仍然非常高兴我们能够在其他人无法部署的环境中部署。所以你采取了一种类似特斯拉的策略，从某种意义上说，你控制着整个堆栈。你正在构建，我的意思是，你是为数不多的能够构建基础模型的公司之一，但是

我想问题是，有这么多人只是专注于堆栈的下层。你可以通过从代码执行反馈中进行强化学习，做整个架构方面的工作来增加很多价值。你为什么决定全力以赴，也构建基础模型呢？我认为这始于我们今天进行的这次谈话。就像，我们如何开始这次谈话？我们从Poolside希望实现什么开始。

我们创建这家公司的原因是，我们看到了一个未来，我个人认为现在距离这个未来只有18到36个月的时间，届时人类水平的智能将在绝大多数知识工作中实现。如果你在两年前我们开始的时候持有这个观点，那时我们的时间表对我们来说并不那么具体，我们会说五年到十年，也许十五年。我们知道世界将进入一个能够复制我们的智能甚至超越它的阶段。

当您持有这个观点时，问题是，您需要成为能够帮助将此带入世界的公司之一吗？如果您还记得，我们在研究和执行方面有自己的观点。除非你从头开始构建，否则你无法做到这一点。你无法通过微调来实现AGI。我们将此放在网站上，在我们之前谈到的同一页面上，第一天就在那里。我们在那上面列了一个清单，它基本上被称为

在经验数据面前，坚定地持有弱信念。其中一件事情是，你需要从头开始构建你的基础模型才能实现这些目标。你不能通过微调来获得成功。我们说，随着时间的推移，所有数据都将变成合成数据。强化学习是扩展能力的关键。所以它确实源于此。但我们想要实现的目标以及我们认为从研究角度来看很重要的事情。我认为到目前为止，这确实对我们有利。

我认为，我们极不可能看到世界上任何人通过对最新的开源模型进行后训练来获得人类水平的能力。我甚至会质疑，我是一个巨大的开源倡导者。我在这个领域的第一个公司，我完全是开源的。但我甚至会质疑，在某些时候，我们是否真的会有真正的开源AGI。

如果在世界上还有空间容纳它，如果我们继续走下去，构建它所需的资金如此之大。构建基础模型有多难？我的意思是，举几个例子，DeepSeek，

他们很酷的一点是，他们已经公开发布了许多训练方法和优化方法。他们有一些很棒的论文，新的稀疏注意力论文，非常非常酷。我猜想，随着规模的扩大，训练这些模型会越来越难，但这对我这样的人来说很难知道。我的意思是，这仅仅是一个软件工程方面的挑战吗？有多难？

所以我喜欢把它分成两部分。一个是关于DeepSeek的，因为我认为DeepSeek是第二代公司的一个很好的例子，我们和我们。

XAI和DeepSeq，我们采取了不同的方法。据我目前所知，DeepSeq大约有200名研究人员和工程师。他们拥有超过十亿美元的基础设施，并且背后已经有两年令人难以置信的工作。我们知道这一点，因为他们一直在发表他们的工作。我们领域的所有人，他们都是一个知名实体。我们一直在关注论文。我非常尊重他们所做的事情。因为如果你看看他们发表的最后一篇论文，47页的技术报告，

在这个领域，我们都知道，如果你做了所有这些工作，你就会得到一个非常好的模型。所以，我甚至会说，对于一些人的争议，我认为他们没有窃取数据。我认为他们没有做任何不法行为。我认为他们只是做了伟大的工作。我们有两年的研究论文记录可以追溯到这一点。

现在，我们需要提出一些问题，例如，我们是否希望在西方世界部署强大的AI，在那里我们可能与中国共产党的价值观或原则不相同。但这是一个完全不同的讨论。但另一个概念是，两年构建的过程，我们经历了什么，XAI经历了什么，DeepSeq经历了什么，

是的，当然，模型越来越大，工程越来越复杂，研究也越来越复杂，但与此同时，我认为它随着时间的推移积累了复合优势。你知道，我认为人才在我们这个领域非常关键。我们有一个令人难以置信的团队，如果我看看我们在过去两年共同学习的东西，其中蕴含着巨大的价值。

当然，这需要与不断改进你的数据相结合，对吧？就像每个月你都可以回顾并说，你用于训练的数据更好，更干净，更能代表你想要实现的目标。它正在改进你实际的分布式训练堆栈。

对吧，要么提高它的计算效率，这是其中很大一部分，要么允许它以以前无法实现的某些技能工作，对吧，这就是你在规模扩大到越来越大的集群时所看到的各种并行性方面的工作，你所做的工作实际上与底层芯片的变化有关，对吧，所以我们有

Hopper系列，但是如果你看看GB300即将推出的产品，突然之间我们有了72个带有NVL连接的芯片。如果你在上面进行训练，这就会改变你想要运行的架构。

所以人们经常认为架构先出现，然后你把它映射到硬件上。实际上恰恰相反。你查看硬件，然后确定用于训练和推理的最佳模型架构。所以你不断地往返。但随着时间的推移，这些都变成了复合的事情。我们的代码执行环境从1000个存储库增加到10000个，再到100000个，现在接近一百万，而且还在不断增长。

所以其中一部分是工程，但一部分也是你在组织中获得的隐性知识和经验，这使得其他人无法在一夜之间与之竞争。但如果每次你将规模扩大10倍，你已经知道的知识就不够让你达到目标，这是公平的说法吗？你必须不只是回到绘图板，而是必须花费大量资金尝试各种不同的东西。我认为技能需要，可以使用一点定义。

因为很多人谈论无规模，只是扩大模型规模，对吧？我的意思是，你提到了GPT-4.5，我认为，OpenAI说计算能力提高了10倍，这可能意味着规模可能大了五倍，数据量大了x倍，或者任何组合。直到最近，世界都认为有两个扩展轴。

模型大小，数据大小。我认为强化学习现在是真正的第三个扩展轴。当然，这仍然是数据的代理。别误会我的意思，但我认为将其作为一个单独的扩展轴来强调很重要，因为这改变了技能的含义。也许你没有将模型带到，你知道，

10万亿个参数。我在这里抛出一个数字。你不再使用这么大的模型了，因为你发现可以通过扩展强化学习方面来更有效地扩展。我们在过去几年中看到的一个很好的例子是LAMA模型，在那里你看到在某些时候它们从2万亿个标记增加到15万亿个标记。顺便说一句，我们这个领域的所有人都已经这样做了一段时间了。那时这将被称为过度训练。

因为它不是Chinchilla最优的。但是Chinchilla最优从未考虑过这些模型实际上有推理成本。所以在理论上，某些模型大小与一定数量的数据以及一定的强化学习是训练模型的理论计算最优方式。但是实际上，如果你有在现实世界中运行它的约束，我需要将其提供给客户，并且每百万个标记或请求数量的成本只能这么多美元。

那么这个约束就会改变我可能花费技能的地方。我之所以提到这一点，是因为我可能会说，好吧，我可能会训练它更长时间，但这实际上并不一定引入更多工程复杂性。

但是如果我试图扩大10倍，那么它就会引入工程复杂性。但这还取决于我使用什么硬件。如果我像埃隆·马斯克那样扩展，我认为是632k，你知道，Hopper，像H100、H200集群那样，他将它们相互连接在一起，那么突然之间，这与我在100k上获得等效浮点运算的扩展方式大相径庭，你知道，即将推出的GB200或300。

所以别误会我的意思，总是有工程方面的。对我们来说，从一个到另一个并不像10倍那样。但是有一些主要的……

在我们获得更多扩展访问权限时，我们会进行更改。我认为我们一直处于非常有利的地位，因为两年前，我们已经开始围绕大型语言模型和强化学习深入地构建公司。所以这对我们来说并不是一件新鲜事。所以我们一直在逐步构建。我认为其他公司突然不得不从几乎一无所有的地方拿出这个东西。我敢肯定，这感觉就像一个10倍的工程项目。

你能帮助听众更多地了解思维吗？所以，你知道，R1出来了，你知道，Sonnet 3.7、O3和Gemini Flask思维等等也是如此。从最终用户的角度来看，你会看到这些思维标记

语言模型正在进行某种形式的自我提示增强。所以，你知道，有像零级链式思维和草稿纸。现在事情正在自我提示。一种思考方式是，你知道，我们用强化学习训练它们，它是

它就像它在灌输这个过程。但有趣的是，你可以只取10万个思维轨迹，你可以微调一个普通的基准语言模型，然后仅仅通过纯粹的插值，你就可以获得很多性能。你可以购买性能。你的计算机与之存在一种S型关系。但那里真正发生的事情是什么？强化学习本身有什么特别之处，还是我们应该把它看作一种数据增强？

我在这里有自己的看法。我认为其中一些已经被现有的论文和事物所支持。其他的，还没有。我们不发表。我说这个是因为我想引用公开的资料来支持一些论证。看，归根结底，我们正在更新一个模型

基于我们正在应用的损失或某些函数。所以，是的，在最真实的定义中，所有这些都只是数据。所有这些都只是数据。就像我说的，如果你有无限的数据，你对其他所有东西都有无限的推理轨迹，你可以通过下一个标记预测来学习它，它可能是一个令人难以置信的模型，并达到人类水平的能力。所以，

但很明显，你今天通过使用10万个推理轨迹与在强化学习上花费的等效计算量来实现这一点，强化学习的性能优于SFT方面。

我认为这仅仅是因为，就你能提供的奖励而言，信号比仅仅提供数据样本要多。我认为这是一个权衡，对吧？再说一次，它总是归结为数据和计算效率。所以我认为，如果你在那里有非常大量的数据，

那里有一条路。我认为现在世界上正在发生的事情是，好吧，我们看到从10万个推理思维示例中获得了巨大的泛化能力。我不相信。我不认为这实际上是我在模型中看到的。我认为即使是目前的基准测试也能证明这一点。但当你查看这些东西时，你经常会看到，哦，它在这个数学基准测试上的得分提高了很多。

然后推理，你知道，轨迹都非常具体，并且与基准测试中发生的事情密切相关。所以在某些时候，是的，你可能会理解一些更普遍的东西，但你需要大量的数据才能做到这一点。所以我认为，改进模型的可扩展方法更多的是围绕……

在可能的情况下应用强化学习。话虽如此，可能存在计算权衡，在某些时候你会说，哦，我想使用一些SFT数据来引导，而不是让它，你知道，从头开始学习。我认为可以在那里做一些事情。但是你

你提到了R1。我认为在我们这个领域最终发表的最令人兴奋的事情是Xero的工作。事实上，你可以看到一个模型在没有提供足够的思维样本的情况下，以连贯的语言发展其思维能力。

这应该是让我们所有人震惊的事情。它不应该围绕500万美元的标题。标题应该是：模型能够发展出类似人类的思维，这种思维在客观可衡量的方面（如数学和编码能力）带来了更好的结果。

这是令人兴奋的部分，而实际上并没有朝着这个方向努力。是的，这篇论文让我大吃一惊。我不确定零是否，它不像AlphaGo Zero那样，你知道，没有人类的播种。我认为仍然有一些人类的播种，但它主要是自我博弈。但这太不可思议了，对吧？因为它学习了这些涌现的行为，例如它会说等等，它会停止，它会进行反思，它会进行推理。许多这些似乎几乎像是一种自然的推理方式。它非常像，

人类联盟？好吧，我认为，我们不能忘记训练数据的基础仍然是互联网，对吧？仍然是网络。所以当人们说，哦，我只想看到它像从无到有完美地学习一样。这就像，好吧，你想让所有的进化在一夜之间发生。就像我们仍然有，我们正在根据我们自己的形象、我们自己的数据和我们所拥有的东西来教这些模型。否则，坦率地说，它也不会非常有用。我们希望它们在我们自己的环境中行动。所以，但是事实上，在

如果你采用一个预训练的，你知道，基础模型，你看看预训练的基础模型与实际上应用了强化学习来发展其思维能力的模型之间的区别，你可以看到这些思维的能力，就像你说的，自我反思，所有这些东西都得到了改进，对吧？我认为我们经常使用“涌现”这个词，但我认为这是一个频谱，我们看到事情，你知道，得到了改进。突然之间，我们现在有一个可以拉动的杠杆

我们已经有一段时间了，我们可以提高这些模型的思维能力。通过提高模型的思维能力，回到我们之前所说的观点，你需要探索的解决方案空间更小才能找到正确的东西。我们越能使我们在乎的领域（数学、软件开发、科学理论，所有这些领域）的空间越来越正确，这些模型就越有用和更有价值。顺便说一句，人类也是如此。

对吧？就像我背后有大量的学习经验，这让我在软件开发环境中非常有用。但是如果明天你把我扔进量子物理学，我可能就没那么有用了。是的。即使那样，灵活的思维形式之间也存在这种类比关系。我猜我使用“涌现”这个词是因为它令人惊讶。这是一种令人惊讶的能力的出现，它带来了显著的提升。

你也会看到有趣的动态。你对这些思维轨迹进行SFT，因为我认为思维轨迹是一种灵活的思维形式，它们为你提供了更多自由度，可以在特定智力情境中运作。

而且，基础模型的胖瘦之间也存在有趣的关系。对于O3来说，它是一个非常瘦的模型，他们发现它更容易扩展，你知道，计算机推理时间，但他们更快地达到了S型曲线的边缘。而Sonnet 3.7则是一个胖得多的基础模型，它更难扩展，但如果他们继续扩展，他们实际上还有更多的空间。还有一件有趣的事情是，当你微调模型时

他们微调了一个Lama 10亿模型。因为Lama模型非常瘦，它就像思维轨迹无法生根一样。你需要在你要微调的模型中拥有一个基础的智力水平，才能让它们发挥作用。——在这个概念中，什么是思维，对吧？思维能够探索解决方案的可能空间，对吧？因为现在，

我们之所以称之为推理模型，而通常不称之为思维模型，是因为推理在某种程度上是目标导向的。它需要能够实现某些东西才能真正进行推理，然后遵循一定的步骤过程。

目标越复杂，对吧，你仍然需要对世界有更好的理解，你需要更好的理解，你知道，语言的操纵。所以在这种意义上，思维仍然是我认为受到模型大小限制的东西，绝对的，对吧？甚至在推理模型之前，它就已经存在了。但现在我们有了一种方法来利用已经存在的东西并真正改进它。另一种思考方式是，如果我采样一个模型

一千次，并引入足够的差异性，无论是通过温度还是提示，或者我正在使用的任何东西，如果我能够在那里找到正确的解决方案，就像正确的思维导致正确的解决方案一样，这意味着在模型中的某个地方它已经存在了。我们只是没有找到它的完美潜在空间。最好的方法当然是，如果我只用温度来做这件事，对吧？如果我开始允许更多不同概率集的创造性。

因为你从根本上想要的是能够以这样一种方式奖励模型：对于具有确定性正确性的东西，在温度为零时它会得到它。坦率地说，甚至希望在温度为0.7时，它仍然会到达那里。它会展开打开其可能的选项锥，然后当它越来越接近正确的解决方案时，它会收缩到正确的解决方案。

当你采用一个非常小的模型时，你会意识到，那个打开的锥体非常宽，但你实际上无法收缩到正确的解决方案，对吧，对于许多事情来说。但是如果它已经在那个锥体中的某个地方，那么你可以尝试把它推向它，对吧？这就是为什么，再次，

你的播客的名字，对吧？机器学习方面仍然有效。就像你仍然可以将一个小模型过度拟合到一个任务，但你无法让它，你知道，真正泛化到足够的程度。所以我经常把这看作是压缩。模型只是大量数据压缩到某个空间。如果压缩太小，它就会变得，你会丢失太多。如果压缩变得无损，就像与数据相比如此之大，那么你实际上并没有学习任何东西。所以我也不认为存在这样一个无限大的模型世界。就像在某些时候，说对于我们用于训练模型的这种计算量和数据量来说，这是最佳大小更有意义。然后我们可能希望水平地并行化它们来尝试实现目标。更好的教训，比如学习和搜索。

我采访了ARC挑战赛的获胜者，他们说语言模型，我们贪婪地对它们进行采样，这意味着我们采用下一个标记，下一个标记，而自然语言有点混乱。所以有很多自由度。他们正在谈论创造性思维和推理之间的根本权衡。对于ARC挑战赛来说，只有一个解决方案。好吧，不是一个，但解决方案的空间非常稀疏。

他们实际上提出了一种深度优先搜索类型的采样策略。我与DeepMind的一些人交谈过，他们说，你知道，当你进行推理时，你实际上希望softmax非常精确，因为你想要这个东西，对吧？你想要这个东西。但有时你实际上想要创造性和多样性。那么你如何解决这个难题呢？你如何同时拥有两者呢？好吧，我认为有些问题需要创造性和多样性才能达到确定性，比如最终解决方案。

我认为这就是它的概念。如果你必须反复运行一个单一的算法，比如加法或乘法或其他什么，那么你想要的东西就是一个非常狭窄的锥体。

但是如果你试图找到，你之前提到的，爱因斯坦的广义相对论。所以对于爱因斯坦来说，在当时发现广义相对论以及他周围关于真理的公理，需要相当广泛的创造性多样性锥体。能够探索不同的想法，然后当然要确保它们与世界上已经存在的真理相一致。确保知道哪些是正确的，哪些是错误的。

但是如果你保持非常小的多样性，你可能永远不会发现它。“天才与疯狂只有一线之隔”这句话，我认为在这种情况下也适用于模型。但归根结底，

如果你有无限的创造力，提高模型的温度，它会崩溃成垃圾。它不会是某种有意义的东西。所以，当我们训练模型并构建模型时，我们的工作是，对于我们认为有价值的智能，我们完美地进行这种权衡。因为这实际上就是我们正在做的。当我们使用强化学习来训练这些模型时，

我们正在做的正是这样。我们说，“嘿，当你在这个可能的思维轨迹锥体的一部分进行采样时，你的方向是正确的。当你在这部分进行采样时，你完全错了。”所以，如果你开始走尝试将微积分应用于不需要微积分的问题的道路，那么你希望从该道路产生的所有思维轨迹不再是模型在未来遇到类似情况时所做的事情。

所以这就是我认为的权衡，我们一直在做的事情。我认为人类的智力也是如此。如果你看看一个领域的新手，一个年轻人，你就会看到这一点。这也是为什么我认为最有趣的科学突破来自20多岁的人，因为他们还没有受到限制。他们愿意探索许多不同的想法。这就是为什么你会看到一些人在许多不同的领域都很出色，比如费曼能够提出非常有创意的想法。但有时他们也可能……

你知道，走得太远，达不到正确的目标。所以我认为智力总是在这种权衡中。我认为我们永远无法做到完美，但我们可以不断提高效率。随着时间的推移，我们可能愿意说，嘿，对于已知的计算预算工作，我认为这是绝大多数知识工作的特点，比如现实世界中的会计师或软件开发人员，我们多少知道智力预算。这就是你希望那个锥体尽可能狭窄的地方，这样它就能最大限度地提高经济上可行的工作的效率。

但是当我们遇到世界上未知计算预算的挑战时，比如攻克癌症，材料科学的下一个突破，我们可能会说，你知道吗，我希望探索范围更广，我愿意为此付出代价，以便我们可以探索更多想法。

这又回到了AlphaGo。你想探索多少步？你想有多大的深度和广度？是的，我喜欢这个。我的意思是，智力的空间非常复杂。我们作为一个集体智慧工作。肯尼斯·斯坦利有一本很棒的书，叫做《为什么伟大无法被计划》。他基本上说

单调目标优化是你能做的最愚蠢的事情。所以，你知道，我们实际上是通过偶然性和有趣的东西，我们对有趣事物的嗅觉，我们收集了不同的垫脚石，其中许多都通向伟大。但在LLM的背景下，这只是关于采样和实际吸收这些不同的观点。

但我想谈谈软件。Paulside，你的公司，你的产品是智能，但最初你非常专注于软件工程。我可以说说我个人的经验，Gen AI软件彻底改变了我编写代码的方式。我现在可以在一两个月内编写出以前需要数年才能完成的软件。这绝对令人难以置信。但你们的首要目标是什么？你如何看待软件工程趋势的变化？

主要目标是达到人类水平的能力并超越它。这意味着在当今世界，可能有1亿多人在构建软件，我们希望将这1亿多人提升到任何能够构建软件的人。并且让那些今天处于软件能力前沿的人，其生产力提高10倍或100倍。

我认为这仅仅是因为什么是软件？软件是我们对世界施加影响的杠杆，能够提高生产力，对吧？它是通向丰裕的杠杆，是降低事物成本的杠杆。所以对我来说，用力地推动这个杠杆的末端，也就是在上面施加最大的重量，就是施加最大、最强大的智能，因为这允许我们所有人与人工智能一起拉动这个杠杆，并降低事物的成本。

这始终是背后的想法。现在，我认为不仅要谈论未来很重要，否则你就会得到一家前沿人工智能公司的创始人一直在说AGI，AGI，AGI。我相信你已经听过很多这样的播客了。我认为了解你今天能做什么也很重要。今天是模型能力和局限性的交集。

一个由开发者主导的人工智能辅助的世界，对吧？所以人工智能的能力和局限性以及人类，你如何通过在其之上添加产品来找到完美的交集，对吧？你如何创建一个产品，让用户能够最大限度地发挥其个人生产力杠杆，就像你说的那样，做你做的事情，以前需要数年才能完成，现在几个月就能完成。

这与模型有很多关系，但也与用户体验有很多关系。这与如何将正确的上下文带入模型有关？你如何让它更容易找到信息，以便能够给你正确的答案？其中一些来自网络外部，一些来自你的代码库，一些来自你的知识库。

因此，构建真正强大的助手，今天我们在编辑器中这样做，我们在网络中这样做，我们很快就会推出CLI，我认为这非常重要。但这是一种共生关系。随着你的模型越来越好，你可以在产品上做更多的事情。随着模型的改进，产品形式因素会不断变化。你已经看到它从代码补全到聊天，现在越来越多地变得自主，我认为将来会越来越自主。

所以你只需要不断地处于这个前沿，玩弄所有这些东西。所以我注意到的一件事，也是为什么我特别兴奋的原因，我认为这对像我这样的创始人来说真的很好。我有一个非常小的团队，我可以快速迭代。我已经

我想我的编码过程已经变得更像是一个审阅者，对吧？所以我让语言模型生成一堆代码。我做了一堆测试，而且越来越多地，我并不是在写代码，而是在审查它，我说这对我来说看起来不错，对我来说看起来不错。有时我会倒退，我会前进。而且

我想了解的是，当你有团队成员时，它是如何工作的？因为我们编写软件的方式是，我们有一个心智模型。我们创建这些抽象，并且对软件应该如何构建有一些想法，然后我们与朋友分享这些想法。现在我们生成代码的速度几乎比我们审查代码的速度还要快。

那么这如何在团队中扩展呢？在当今这个由开发者主导的人工智能辅助的世界中，问题总是像，你知道，什么需要知识共享？什么需要审查，什么不需要？

当你对文档进行单行更改时，不需要审查。当你对整个代码库进行大规模重构，影响到每个开发人员时，你将希望与整个团队共享这些知识，并可能获得反馈。我认为人工智能在扩展团队方面没有什么不同，对吧？或者在这种情况下，你正在扩展人工智能。所以它总是位于这个边界上：在什么地方进行知识共享很重要，在什么地方不重要？

代码审查通常被视为一种必须执行的过程，用于捕获错误或执行X、Y、Z。我一直认为代码审查首先是关于知识共享，然后是在需要时偶尔能够获得其他人的意见，因为它触及影响他人的表面区域，或者你可能不知道，或者你不是最合适的人。

所以，当你突然产生10倍的代码或移动速度快得多时，听起来你正在工作的领域中，人工智能已经感觉像是一个非常有价值的合作伙伴，几乎就像一个拟人化的实习生。在其他领域，它还没有达到这个水平。它应该被视为给团队增加成员。我认为我们与人工智能的关系将越来越如此。

它就像给我们的团队增加成员一样，只是我们增加的不是人类，而是人工智能代理。思考这个问题的一种方法是，我们有这个相当线性的软件开发生命周期，我们有业务分析，然后我们做故事点，然后我们编写一些代码，然后我们做一些测试，然后

你知道，我们用发布控制等等来批准所有这些。思考这个问题的一种方法是，它关乎控制，关乎将我们编写的代码与我们的业务目标保持一致。这就是为什么我们有所有这些不同的关卡和批准等等。那么，当我们拥有越来越多的自主权，并且在代码编写过程中本身，我们可以做很多事情时，这意味着什么呢？

这个传统的软件开发生命周期是否会给我们带来瓶颈？我认为随着时间的推移，许多软件开发生命周期会融入模型中。但我认为这取决于环境。如果你正在为核导弹编写代码，你可能希望这个线性过程的许多步骤仍然存在，即使是人工智能在执行它。

因为你关心一定数量的可靠性。在这种情况下，可能，希望不是九个九，而是100%的可靠性，你们都知道这在软件中是不可能的，对吧？但我们想要很多。所以你愿意为此投资。在其他地方，软件变得更加短暂。也许你编写了一些可以作为工具使用一周或执行一组任务的东西。所以在光谱的这两个极端之间，你开始意识到我自己，我经常使用光谱。这只是我大脑的工作方式，是

因为随着人工智能变得越来越强大，我们可能会有更多的软件分布在更左侧，就软件数量而言，更接近于不需要那些严格流程的软件，而不是其余的软件。但世界上的全球银行基础设施不会消失，对吧？在那里，我们希望有一套检查和制衡措施到位。问题只是，人工智能是否贯穿所有这些检查和制衡？在某些时候，它是否变得如此可靠，以至于我可以开始移除很多？因为如果我有……

一个软件开发人员，一个从不犯错的人类软件开发人员，从不编写错误，他的CI测试在过去五年中始终100%通过。在某些时候，我可能会说，你知道吗，把三个小时的CI还给这个人。让他们加快速度。

现在，这只是一个理论上的例子，因为在现实世界中，情况并非完全如此。但是，随着我们越来越超过人类的能力水平，在某些时候，我们可能会说，你知道吗，这很好。也许甚至单元测试也会消失。也许甚至，你知道，像CI，所有这些都开始变得越来越少。

所以我认为从限制的角度来思考问题是有用的，不是因为我们明天就会达到限制，而是因为它让我们能够展示我们前进的方向。所以我认为，是的，随着时间的推移，许多软件开发生命周期会融入模型中，不需要许多这些检查，但并非所有地方和并非同时。

所以，考虑大型企业中软件工程的动态，许多富时500强公司坦率地说，他们无法招聘真正有才华的软件工程师。他们总是存在这个问题，他们会使用低代码和无代码。他们会在Microsoft Power Platform上构建东西等等。现在我们进入了Gen-AI编码时代。

现在几乎任何人都可以编写出令人惊叹的软件，几乎是可丢弃的软件应用程序，可以做任何他们想做的事情。所以你认为我们会看到更多的人编写代码吗？随着时间的推移，这将如何改变？我必须说，看，那是我，因为我花了这么多时间与企业打交道。我认为我们首先在任何地方都能找到优秀的软件工程师。

但我理解你的意思，你所说的意思是，你知道，你在谷歌担任员工工程师的薪水与你在银行担任员工工程师的薪水不同。对吧？所以这里和那里有一些区别。但总的来说，我认为到处都有优秀的开发人员。

我们现在看到的是，虽然人工智能可能对你在你的领域或对绿地项目来说已经达到了那种巨大的突破，但我仍然认为，目前在大多数企业环境中，它感觉像是20%或30%的生产力提升。对于某些人来说，生产力提高了2倍。

因为他们正在进行单元测试自动化，突然之间，这变得快得多，甚至可能达到3倍或4倍。在其他地方，人们使用公司特定的编程语言在一个特定的领域工作，而模型在那里还不够好。所以我认为值得承认的是，模型能力映射到企业中的现实世界

并非一刀切。我所看到的是，人们对能够做更多的事情感到兴奋。如果这是一个现有的开发人员，现在可以将工作中无聊的部分自动化，或者可以更快地构建更多软件。或者事实上，是的，我现在看到一个产品经理说，哦，我实际上可以自己构建这个原型，并向经理展示，然后看看我们是否想以更大的规模构建它。所以我确实认为

越来越多的人将能够并且想要构建软件。但“想要”是一个重要的部分。因为我们自己就是软件开发人员，我们经常假设如果每个人都能构建软件，那么每个人都想要构建软件。而现实情况并非如此，即使他们明天可以。但一直想更快地构建自己想法的产品经理，绝对可以。也许是五分之一的企业人士，他们一直试图围绕这个想法召集一个团队，但现在做不到。

但这并不是说世界上每个人都会构建软件，因为它仍然需要你想要去做。是的，我的意思是，我认为我同意……

很明显，提升是，你知道，从零到一，对吧？你现在可以在几秒钟内构建单个应用程序，这令人难以置信。但我仍然认为还有更大的提升，唯一阻碍我们的是缺乏想象力。例如，谷歌工程师薪水如此之高的原因是他们正在构建数百万人在使用的可扩展分布式系统。

以及多代理容错系统，你仍然可以构建这样的系统。我想问题是，其中一些是教育问题。使用Gen AI代码有好方法也有坏方法。

一个好的方法是理解存在一个复杂性上限。如果你构建一个单体应用程序，并且不断在其上构建，在其上构建，在其上构建，它最终会崩溃。但是你可以，这几乎就像它在引诱你设计模块化、几乎是无服务器类型、多代理类型的系统。LLM可以处理更高复杂性上限的系统。我认为你将模型的当前局限性映射到一个非常好的解决方法是正确的，那就是构建模型能够轻松理解和在其内工作的较小的模块化事物。拥有某种关注点分离的架构有助于在这个世界中。但这是今天的模型。我认为这很重要，要始终回到这一点，我认为对模型可以构建的软件类型没有普遍的限制。

当我们谈论未来三到五年时。我认为，但你绝对说得对，如果我今天尝试构建一个大型单体应用程序，并且只是让模型疯狂地编写代码，在某些时候，整个事情都会崩溃。顺便说一句，我不知道你怎么样，但在我的职业生涯早期，我做过完全相同的事情。我会构建一些东西，构建一些东西，构建一些东西。在某些时候我会想，哦，我的上帝，我在这里写了什么怪物代码？然后它促使我重构它，使其更模块化，

使其更好，对吧？所以我们看到今天的模型存在局限性，而它们还远未达到我们的能力，我们也可以反思自己在不同时刻也看到过的情况。是的，这真的很有趣，因为语言模型的复杂性呈二次方增长，而软件的复杂性呈指数级增长。所以它允许你构建比你原本构建的复杂两个数量级的软件，但你仍然会非常非常快地达到复杂性上限。

这是一种有趣的看待方式。我对此没有过多考虑，但我必须这样做。我认为另一件非常有趣的事情是

目前，当人们进行Gen-AI编码时，他们会生成软件并进行单元测试等等。但我们仍然有这种相当线性的软件工程模式，这意味着我们有发布控制，我们将东西投入生产。现在我们开始看到MCP服务器等的出现，这意味着在开发过程中本身，智能系统实际上可以与你的数据库对话。他们可以说，那么实时数据库的模式是什么？那么，

与我的actor系统对话。目前有多少actor在运行？我需要修复这个actor吗？所以现在，软件流程中越来越多地出现了一个操作层。让我拟人化一下，对吧？我们作为开发人员所做的是，我们会打开数据库控制台并检查模式。我们会与Slack上的某人或亲自交谈，我们会收集信息，我会调出文档。所以我认为世界正在创建的一些协议是一种方法，可以让模型轻松地利用当前的模型能力来做到这一点。

我认为，如果我们在未来几年内继续这样做，我不确定这是否是一个协议。我不确定这是否只是一个一直在这样做的事情的计算机使用代理，或者模型只是编写代码来访问Jira的API或直接连接到数据库并执行SQL命令来获取模式。所以我认为我们今天构建的一些东西对模型的局限性很重要。它们很重要，而且有用。

我认为由此产生的一个有趣的问题是，当我们谈论大型多代理系统时，就像我们谈论拥有许多开发人员合作的大型公司一样，我们如何使这种协作高效且运作良好？这是一个拥有我们模型的数千个实例的世界吗？每个实例都在像公司一样有组织的集体中行动？这在本质上是等级制度的吗？就像我们在组织中一样？

因为有些事情我们做不到。我无法访问我的500个同行的思维轨迹和解决方案。它不能存储在某个中央数据库中，但这是代理可以做的事情。所以突然之间，我认为虽然我们正在朝着人类水平的智能发展，但今天的模型已经可以做一些我们做不到的事情，这取决于我们运作的方式。

能够遍历整个代码库并逐文件总结一千个文件的能力的并行化。我可以做到，但这需要很长时间，效率不高。上下文窗口的长度。我不知道你怎么样，但我无法在我的上下文窗口中容纳一百万个标记并在其中完美地检索。在某些时候，我们将不得不摆脱这种拟人化的领域，并开始说，好吧，这些是模型可以做的事情，而且不同。对我来说，这涉及到这些协议，现在我们需要它们。

我不确定18个月后我们是否需要它们。你刚才谈到了一些有趣的事情，那就是代码中存在语义差距。我的意思是，一直有一个著名的格言，你知道，许多公司，他们不想在GitHub上发布他们的代码，因为它非常有价值。

它实际上并没有那么有价值，因为代码背后的语义、意图和动机并不在代码中。你知道，语言也是如此。有很多缺失的信息不在数据中。但我们可以捕获这些信息，因为你现在有一个开发人员组织。他们正在使用这些工具构建代码，对吧？整个思考过程都是用语言进行的。

所以你可以将其捕获到某种语义数据库中，你可以将其整理进去，现在你拥有了所有这些有意义的、有动机的的信息，这意味着语言模型不会总是犯同样的错误，因为它知道我们这样做的原因是因为那个。有很多非常酷的东西，对吧？就像你说的，我们从来没有能力追踪人类的思维并将其存储起来。

随着这些模型越来越多地作为助手、未来的代理甚至自主代理而被部署，我们现在突然可以访问它了。问题是，我们将访问它，还是模型自己访问它？所以我总是尽量避免走得太远，因为在某些时候你开始陷入科幻小说。

但我认为我们离这个特定场景并不遥远。有相当多的人不会同意我的观点，但我认为只要我们能做到，我们就应该让模型用语言进行思考和推理。

可以用潜在空间风格的思维来完成令人难以置信的工作，而且可能计算效率更高。有一篇关于潜在空间推理标记的很好的元论文。我还看到了一些我非常喜欢的其他方法。我们本周早些时候看到一个基于语言的扩散模型问世。我真的很喜欢它背后的那些人。所以我认为有很多架构会起作用。实际上，

我的团队有点厌倦了我总是说世界上可能每种架构都能起作用。这只是一个计算效率的问题。所以我毫不怀疑融合语言模型会起作用。只是，对于我们关心的能力和任务类型来说，它是否是计算效率最高的东西？

我现在提到语言很重要，是因为随着模型变得越来越强大，能够看到它们的推理和思维轨迹，就像你说的那样，从过去参考导致某些决定的原因，我认为这将从可解释性的角度来看，从能够基于其他代理先前完成的工作进行构建的能力来看，都将变得非常有价值，

我认为还需要讨论一下，从安全性和一致性的角度来看，这是否会有用。这个基于扩散的语言模型就是一个很好的例子。多年来我一直对此感到非常兴奋，但它们的效果一直不太好。所以这个刚刚发布的模型，你提到的它具有大约10倍的效率优势。所以，你知道，就像使用自回归语言模型一样，你必须逐个标记、逐个标记、逐个标记。这个东西，他们只运行了大约五到六次扩散。他们得到了相同的结果。

扩散从代码的角度来看非常好，因为你知道，就像视觉扩散一样，你可以实际编辑东西。所以你可以说，好吧，我想保持这段代码不变，但我想编辑中间的这一部分。为什么每个人都不这样做？有很多架构可以工作。

我认为扩散是另一个领域，但我们在我们的行业和每个前沿公司都做了很多工作，使我们拥有的那些变得非常高效，所以要从一个转向另一个，你必须获得效率提升，你必须愿意花时间去追求新的架构

你到那时为止所做的所有实验，对吧，它是否仍然以同样的方式成立？所以，你知道，我们在一年多前对线性注意力、受RNN启发的注意力做了一个很大的赌注。从去年秋天开始，我们的模型就已经投入生产了，使用了线性注意力。

所以我们会问，为什么不是每个人都在这样做？为什么？这太有意义了。或者它会带来收益等等。部分原因也是因为我们最终都在某个领域投入大量资金，然后我们只是进一步扩展它。进行这种转变必须非常非常有价值才能这样做。

所以我需要进一步研究扩散语言模型，看看与我们正在做的事情或其他事情相比，有多少效率得到了体现。我们不太可能走这条路。

因为我们在其他架构中做了不同的事情，我们可能还没有公开。但我认为这令人兴奋。我认为架构研究还有很大的空间。我认为融合语言模型只是冰山一角。我认为还可以做更多的事情。但它们也需要扩展。所以我们看到的一些最酷的开源内容，你知道，或者其他内容，都是在这个70亿参数的级别，如果有的70亿参数的话。然后问题就变成了，那么它

你知道，如何在700亿参数下运行？如果我们想尝试制作一个MOE等效的融合语言模型，该怎么做？所以在某些时候，就像小规模有效的东西一样

很可能在大规模下也能有效，但效率是否保持不变？你能获得同样的收益吗？是的，这是一个非常好的问题，因为他们构建了一个中等规模的模型，其性能与其他前沿中等规模的模型相当。我喜欢的另一件事是，你可以实际运行它，你可以进行无限量的计算。所以你可以继续进行扩散，从测试时间计算的角度来看，它实际上非常非常灵活。我喜欢这一点。但是

但回到软件工程方面。所以，我认为我们现在看到的是，当我们进行越来越多的AI开发时，人类缺乏自主性和可读性，对吧？所以我们现在正在构建越来越难以理解的软件。现在，让我们明确一点。谷歌没有人理解软件代码，所以我们不应该夸大其词。

正如我们刚才所说，我们可以设计一种信息架构来协调认知接口，这意味着至少在某种抽象层次上，我们理解这东西在做什么。我们正在设置防护栏等等。但我们描述的是一个未来，在这个未来中，我们只是在构建这些难以理解的怪物。这看起来是什么样子？关于你第一个抽象点，

关于模型编写代码，我认为代码已经是更高层次的抽象了。我们都可以进去尝试理解代码，也许我们会添加一些打印语句，我们会花费时间，看看，这需要认知负荷，但代码是确定性的。它由编译器解释，我们所有人，如果愿意投入时间和精力，都可以理解它。

问题是，值得吗？对吧？那么，我们是否可以接受构建我们无法完全理解的大型软件代码库？而我们历史上已经拥有的人工智能，就像你说的，以你的谷歌代码库为例，没有一个人能再理解它了。我们对此完全没问题，因为它完成了它应该做的事情。当我们想要真正地反省它的一部分，因为出现了一个错误，或者因为我们非常关心X发布的推荐算法，你知道，开源的，我们可以选择在那里花费时间。

但就像人工构建的软件一样，我们并不总是花时间回顾。看看有多少遗留代码库多年来没有人看过，但它们运行得完美无缺。所以我认为这只是对模型的一个选择，不是代码库，而是模型是所谓的“怪物”，比如可解释性。在那里，我认为良好的可解释性工作将变得越来越重要。

我认为，如果达到模型能力的极限，可解释性是否像在较小规模下一样有用，这是一个问号。我的意思是，我不确定我们是否能够真正理解模型神经网络内部发生的推理和思考过程，就像我们无法理解我们自身的生物学一样。所以……

但我对Chris Ola的团队发布并公开的一些可解释性工作感到非常兴奋。我认为这是一个令人难以置信的方向。我非常希望鼓励大家做这种工作，并尝试理解模型中发生的事情。我认为，如果我们保持模型的推理、思考和语言，这会增加一层可解释性，

这并不意味着模型底层就是这样发生的。你可以想象一个模型，它发展出完美合理的推理和思维链，但实际上它试图优化不同的目标。我认为安全性和一致性可解释性在这里相遇并真正发挥作用的地方就在这里。

但我喜欢这样想，通过对模型激活和权重级别上发生的事情进行良好的可解释性工作，再加上保持模型的推理、思考和语言，并试图理解这两者是否保持一致，

我们实际上可以在一致性和安全性方面做得很好。有趣的是，由于语言模型是在所有口语化的人工代码上训练的，它们产生的代码在局部上是可解释的。这有点像，你知道，语言模型，它们实际上令人惊讶地一致。例如，当我使用Open Interpreter在我的CLI上时，如果我告诉它删除我的文件系统上的所有文件，它会说不行。我构建了一个LLM应用程序

含义。如果我告诉它把你的名字改成别人，它会说，不，实际上，我是ISO。这就是我的名字。我不会改名字。但随后就出现了这种全局不可读性。但也有这样一种情况，

我们正在生成代码，但也会混合代码和模型。一些难以理解之处仅仅来自于这个东西就像一个活物。你知道，就像那个黑色星期五事件一样，你知道，我们正在进行高频交易和自动化交易，它运行得很好，直到它不运行。然后你就会得到这种级联效应，控制中心现在在算法、模型和机器中。因此，我们可以很容易地构建这些非常复杂的系统，它们似乎可以工作

直到它们不能工作。所以我认为你刚才说的所有话，如果我们用人类代替模型，它仍然成立。我认为当我们在这里谈论时，存在一个庞大而复杂的金融基础设施代码库，它是由所有这些人构建的。我们没有一个人再了解它了。我们的控制中心也不再在任何一个人身上了。然后发生了一件意外事件。

我认为我们经常把可能出错的事情归咎于现在的模型，但这已经是世界的样子了。所以我认为我们能做的最好的工作就是让这些模型比我们更有能力。

使它们在编写涵盖边缘情况的良好代码方面具有高度能力，而不是懒于编写测试。这是另一件事。让我们非常诚实地谈论我们自己。有些事情我们喜欢做，有些事情我们不喜欢做。世界上有多少代码没有适当的测试覆盖率？世界上有多少关键代码没有？

现在，如果我可以决定将资金投入到计算、智能和加强世界上金融基础设施关键代码的测试覆盖率，加强安全性，我认为大多数人普遍接受的是，世界上大多数关键基础设施都运行在非常不安全的代码上。

对，电网和其他基础设施。如果我现在可以说，好吧，我们现在愿意投资，可能是来自公司，也可能是来自公共部门，十亿美元用于使我们的电力电网代码更安全。但我现在不必让人们聚集在一起，我可以通过人工智能做到这一点。我知道它不会懒于编写测试或其他事情。我认为这令人兴奋，对吧？我们可以专注于与人工智能一起探索科学前沿以及我们想花费时间的事情

我们世界上缺乏编写令人难以置信的软件和代码的人才。这仅仅体现在我们仍然没有升级的遗留系统数量上。所以我认为这是一种克服这种问题的方法，不一定是。当然，就像人类一样，它增加了另一个故障区域。但我不知道在充分的时间里，你宁愿让谁为关键系统编写代码？就像我经常私下说的那样，

我希望护士是人类，但我希望有一天外科医生是机器人。看看人工智能软件的演变，我对元编程非常兴奋。因此，系统实际上可以自我修复并在出现故障时生成自己的代码。

但下一个进化阶段是，我们为什么还需要代码？对吧？为什么我们不只是……所谓的转导，我们甚至根本不需要中间代码步骤。我们只需要让模型去做这件事，整个事情都是自适应的。你对此感到兴奋吗？我的观点自2016年以来发生了变化，我曾经认为

Karpathy在他的文章中引用的话，我认为是他在2016年的博客文章《软件2.0》中。软件2.0，对吧？它就像在某个极限上，你知道，一切都会变成一个模型。我对它的看法今天有点不同了。不再那么极端了。我认为世界上的某些基础设施

我们希望它具有可解释性。代码是可解释的。它可以被追踪、测试和理解。人类或人工智能可以完全理解它。因此，我们世界上的金融支付基础设施可能希望它以代码形式存在。我们的电网可能希望它以代码形式存在。正在运行的，我看到这里的铁路，火车之间的开关，可能也是代码。

但我是否关心其他软件，如果它只是一个在幕后模拟整个事情的神经网络？现在，我认为我还想回到代码是什么。代码在大多数情况下，不是所有情况下，都在CPU上运行。

对吧？我们已经做了令人难以置信的工作来优化硬件的演变，以便能够运行确定性的代码，你知道，这可以为我们提供价值。在很多地方，很长一段时间以来，模型甚至可能不够计算高效

让世界上所有的软件都崩溃成一个模型调用可能太昂贵了，对吧？但你说得对，如果我们达到模型能力如此之好、如此值得信赖的地步，我们可以将它们视为做确定性的事情，

我知道每次我问X，它都非常一致，它会做Y，因为这本质上就是CPU的代码。归根结底，我们要求的是真正确定性的东西。那么，随着这些成本结构的变化，越来越多的东西会转向模型。但我仍然，也许你看，也许我坚持着一个旧的想法。

但我仍然认为，对于一个有能力的模型来说，构建和维护Uber Eats应用程序并使其在CPU基础设施上作为可维护的代码运行以更新和更改它，将比将其模拟为神经网络更便宜。

所以我认为，在现实世界中，代码将在很长一段时间内继续存在。然而，这些人工智能模型的惊人之处在于，它们在很多方面都比我们聪明。因此，它们基本上可以编写或学习我们无法编写代码来执行的函数，这令人难以置信。100%支持NPR Pro。有很多地方这将是令人难以置信的。绝对的。所以也许这是一个范围。

我的意思是，我当时有一个有点像银河大脑的想法。今天早上我开车去接我们的创意总监马库斯，谷歌地图带我走了一条奇怪的路。我当时在想，

它在做什么？这东西是功利主义的吗？它实际上是在优化，你知道，以减少平均路线时间？它带我走了一条不好的路，因为它不在乎我。我不知道。在未来，这些人工智能系统，这就是我所说的失去控制的意思。它可能正在做一些奇怪的银河大脑的事情，它可能不一定适合我。也许我想知道这件事。

我认为今天有很多机器学习系统，我们对它们没有任何良好的可解释性，如果是在欺诈检测中，如果实际上是在将你映射到你的位置的算法中。我不确定谷歌地图幕后是什么，但它很可能已经是一个针对特定任务的神经网络了。我不会感到惊讶，或者至少它的一部分很可能是这样，它是在大量伦敦交通模式等数据上学习的。

所以我认为我们已经在机器学习中面临这个问题，并将继续面临这个问题。在我看来，世界上有些部分我们希望事情是确定性的，我们将希望保持这种状态。而其他部分你绝对是对的。我希望从一个了解我的人那里规划出最佳路线，而不仅仅是普通的伦敦交通。也许是因为我更喜欢乘坐不太拥挤的火车而不是更拥挤的火车，而且我愿意在某个时间到达。

我认为，当我们向世界添加智能，广义智能，对吧？因此，人类般的智能，我们有一个杠杆，我们可以使它继续变得更计算高效，我们可能希望使用它。我可能想用，你知道，AGI来帮助我规划路线，对吧？因为在某些时候，它会便宜到值得去做。所以我今天用模型做的事情听起来很傻。我经常出差。

每次我，在我飞行或降落在某个地方之前，我都告诉它我的日程安排，我告诉它我吃了什么，我说，我到达这个日程安排的最佳计划是什么？然后我就照做。它会告诉我，你知道，少碳水的蛋白质餐，在这里睡90分钟。我会照着模型说的做。

现在看，我们的模型不是专门为此训练的，但它是一个相当好的通用模型，到目前为止，它对我来说效果很好。但我使用它是因为这个特定原因，因为突然之间智能变得足够便宜，以至于我可以让它做到这一点。现在你可以编写一个算法，你可以编写一个代码来考虑所有这些因素，并调用天气等API位置，或者你可以只相信模型。我认为这两件事将永远存在。

但未来的代码将由模型编写，它选择用代码做事情，因为它更有效率，更确定性，或者我们希望它保持确定性，比如支付基础设施。你认为我们这样做会失去一些东西吗？我昨晚看了一段很棒的YouTube视频，视频中这个人说，在模拟录音时代，你知道，我们过去必须将东西录制到磁带上。我们只能进行一次拍摄，而且有很多噪音等等，但这创造了一种偶然性，你知道，就像

我们不能只是删除它然后重新开始。我们必须重新做一遍。我们必须谈论它。而且，你知道，就像今天的拍摄一样，这是一个非常有创意的偶然过程。你认为通过将如此多的智能思维过程卸载到机器上，我们可能会失去一些东西吗？值得提出这个问题，我们今天是否以同样的方式思考？我们自己的思维过程是否像100年前、500年前、2000年前那样进化？

我认为，随着我们学习了更多知识、思想的表达方式，随着我们开始使用增强工具，例如，我还记得，你知道，谷歌之前的时代。我还年轻，但那是谷歌之前和谷歌之后的时代，对吧？现在我突然发现自己身处一个世界，在这个世界里，我愿意突然开始，你知道，不再记住某些事实。

实际上，我仍然记得的特定知识或历史事实很少。如果我和你150年前出生，记住我们从阅读书籍和其他事物中学到的东西对我们来说至关重要。所以这已经改变了。它之所以改变，是因为我们现在有了可以使用的工具。所以我可能不再需要了解关于时差和生物过程的理论，因为我相信其他东西会做出决定。

但我认为我们一直都有这样的版本。如果在过去，相信当地智者对X、Y或Z的看法，或者我们去看医生以寻求信任。所以我们会改变。我们的思维过程会进化吗？如果你给予足够的时间来进化，我们会变得更聪明吗？我们会变得不那么聪明吗？历史并没有向我们展示

尽管人们喜欢在那一刻这么说，但我们因为技术而变得愚蠢了。我实际上认为它使我们更加开明。它使我们更有能力探索更多想法，做更多事情。就像技术进步一直呈指数级增长一样。我认为它继续保持指数级增长令人兴奋。所以也许我是一个乐观主义者，但我确实认为，如果你是一个父母，这是一个合理的论点。

你有一个年幼的孩子，你基本上说：“我仍然希望你学习这个。我希望你学习这些东西。”只是发展你自己的思维。这有点像TikTok的辩论。你想让你的孩子一整天都使用TikTok，每天花八个小时在手机上吗？我不确定你是否希望你的孩子这样成长和发展他们的智力。你会鼓励你今天的孩子学习编程吗？是的。继续说。

就像你会鼓励你的孩子学习历史、理解数学、学习编程和编写代码一样。我认为你想要所有这些东西，因为归根结底，我们仍然需要训练我们自己的智力。

因此，仅仅因为我们现在越来越能够训练模型来达到我们有一天甚至超越我们智力水平的地步，这并不意味着我们对生活的体验应该是一个没有我们真正训练我们自己智力的体验。我认为编程和构建软件是训练我们智力的一种好方法。我今天在我的工作中不再编写很多代码了。这只是成为联合创始人以及我的角色的性质。

但我从一生中编写大量代码中学到的所有东西都帮助我发展了思维过程和理解能力，我认为这使我更有能力做我正在做的事情。所以我认为，总的来说，发展智力是一件好事，我认为编程是一个很好的工具。我们能否谈谈多模态的作用？因此，目前我们主要在这个生成式AI环境中讨论文本。

我可以想象一个未来，这似乎是唾手可得的成果，我们可以录制屏幕，它也许可以通过观察的方式看到应用程序。也许在未来，它可以以一种温和的方式与应用程序交互。这会到来吗？哦，100%。

就像看，从视觉语言建模到计算机使用，再到你在视频中看到的正在进行的工作以及在世界中构建世界模型，所有这些都将到来。我认为问题总是归结于正在研究它的公司需要根据其目标来研究它。因此，当我谈到现在正在构建世界上最强大的AI用于软件开发以及我们正朝着这个目标前进时，有一些事情是我们关心的，这些事情在文本中得到了大量的体现。

字符、语言、代码等。但也有一些事情在对屏幕上内容的视觉理解中得到了大量的体现，因为应用程序是在屏幕上，对吧？因此，构建模型的理解能力，能够知道屏幕上有什么，如何与之交互，拥有类似计算机使用的能力，以便代理可以打开亚马逊网络服务控制台并四处点击以找到他们需要的数据，我认为这至关重要。

我认为，当你专注于软件开发能力时，可以用文本模式做很多事情。使用文本模式，你不会让模型创建漂亮的UI。你就是做不到，你知道，UI上的迭代需要视觉，比如，你知道，建模并将其作为一种模式。但是，也许计算机使用代理可以用来访问亚马逊网站并登录以查找IAM角色，我也可以通过进行API调用让模型理解如何做到这一点。

所以我认为，通过专注于软件开发能力，我们给自己设置了一系列防护栏，这使我们能够专注于比视频或图像生成略微更计算高效的模式，从而更有效地利用我们的计算能力来实现我们的目标。但如果我试图构建完全自动驾驶，我的模式就不是文本。

我对未来感到非常兴奋，你知道，例如，DeepMind的Genie论文，他们谈论的是能够生成实时交互的视频。我们将来能否拥有生成式软件？因此，用户界面是生成式的，因为我们每个人对事物的思考方式都不同，对吧？对你来说，最佳用户界面可能与我不同。我不认为那个世界不可能存在。我认为问题是，我们希望它存在于哪里？

我希望我的Uber Eats应用程序每次我打开时看起来都一样，因为我建立了自己的模型，我训练了自己的模型，以确保，你知道，我可以找到，你知道，我想要订购的食物。

但在某些地方，我希望用户界面根据幕后的数据而动态变化。也许我希望它更适合我。但我敢说，世界上使用软件的大多数人，我们人类，实际上并不希望我们的用户界面每天都在发生巨大的变化。我们希望我们的用户界面具有一致性。我认为这只是人类行为，但我认为没有任何技术原因可以阻止这种情况发生。有趣。有趣。

你与云提供商的关系如何？公开地，我们在12月宣布，我们与AWS（亚马逊网络服务）建立了所谓的“第一方关系”。这是一个非常独特的关系。它允许我们，当企业客户购买Poolside时，他们可以像在亚马逊的纸张下购买一样购买，这意味着他们是销售记录的卖家。

因此，这为大型复杂企业与Poolside签订合同并引入我们的产品开辟了一条途径，就好像他们在添加另一项亚马逊服务一样。这通常会缩短开始使用我们的时间。

它还允许他们完全减少他们的支出承诺。企业对亚马逊有大量的支出承诺。因此，我们这样做的原因有几个。一个原因是亚马逊在企业中的分销规模巨大。它们是世界上任何云提供商中最大的服务区域。如果你考虑我们的业务，我们正处于能力竞争中。我们今天已经谈了很多关于这个话题，但我们也处于市场竞争中。

我们获得客户和增加收入的能力使我们能够将大量资金投入到更多计算和更多人才中，以便能够扩大我们的模型能力。因此，这些是互惠互利的，因此与亚马逊的关系非常令人兴奋。我们也与他们做了很多工作，不仅是在市场方面，还在他们的硅片方面。我们在Trainium 1和Trainium 2方面做了很多工作。

因此，我们为此专门组建了一个团队，我们对他们正在构建的东西感到非常兴奋。对初创公司来说也很棒，因为你可以获得亚马逊的大量免费积分。因此，你可以使用免费积分来获得你的服务。老实说，我认为我们已经达到了一个计算规模，积分不再是决定因素了。但对于我们的客户和其他客户来说，这绝对是，看，它的一部分，毫无疑问。我认为当你……

今天，我们非常关注企业以及我们与之合作的对象。我们为他们看到的是，你的部署位置对他们的安全配置文件有很大影响。因此，我们在该专用帐户中的亚马逊网络服务VPC内部进行部署，模型权重和完整堆栈都位于那里。这种组合真正允许企业安心地将模型作为访问其数据的方式，而不是相反。

有趣。只是从入门角度来看，所以人们想要专用硬件。你是否发现你的客户有一个集中式模型，他们有一个共享的实现，还是比这更复杂？这实际上取决于企业。我们发现，在企业内部，存在安全边界，这意味着他们需要模型的多个实例。

因此，如果他们正在对他们内部拥有的专有SDK进行模型微调，但这只涵盖了一个业务部门，并且由于法规遵从性原因，该模型不允许与业务的其他部分共享，你可能会发现一些组织希望启动许多版本的Poolside模型

这些模型在许多不同的环境中针对某些用例进行了微调。从我们的角度来看，我们看到了各种复杂性，从本地到VPC到不同的模型实例，不同的安全边界，不同的访问权限洋葱层，

我们已经为所有这些做好了准备。我们今天谈论了很多关于模型的内容，但为了能够在国防、政府和金融服务领域取得成功，我们必须进行的工程量实际上相当大。最后，你是否有前沿工程团队来帮助人们启动和运行基础设施？绝对有，是的。因此，我们有Poolside解决方案架构师，

他们完全能够并且愿意花大量时间与我们的客户一起工作。但我们越来越多地做的是，我们越来越多地朝着托管安装方法发展。

因此，如果企业愿意给我们临时访问权限，非常非常有限的访问权限，我们可以在他们的帐户中启动Poolside的整个基础设施。因此，以前可能需要几天的时间才能完成的工作，现在实际上只需不到40分钟就可以通过提供单个IAM角色来完成。但有企业。你总会在大型部署过程中发现一些东西。

网络上的某个地方的防火墙需要调整某个设置。当然，这就是我们的解决方案架构师非常有帮助的地方。而且只是为了帮助他们思考，你知道，当我们使这些模型成为他们的模型时，当我们根据他们的数据对它们进行微调并在他们的环境中使它们更强大时，

帮助他们思考哪些数据、哪些工程师组应该部署哪些版本的模型，如何衡量影响，因为我们提供了许多可供客户使用的指标，以查看模型对接受率的影响，对多少更改被审查但实际上没有应用的影响，有多少代码行实际上被应用了。因此，我们做了很多这样的工作，我们试图帮助我们的客户思考这个问题。

我们的承诺是成为企业的值得信赖的合作伙伴，随着智能变得越来越强大，他们将希望与我们一起扩展它。Iso，非常荣幸。感谢你今天加入我们。非常感谢你。很高兴。

Eiso Kant (CTO poolside) - Superhuman Coding Is Coming! 01:36:28 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Eiso Kant (CTO poolside) - Superhuman Coding Is Coming!