We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Claude Plays Pokémon - A Conversation with the Creator // David Hershey // #294

2025/3/21

MLOps.community

AI Deep Dive AI Chapters Transcript

People

David Hershey

Topics

David Hershey: 我开发了一个AI代理，使用Anthropic的Claude模型玩宝可梦游戏。这个项目始于去年六月，最初只是我个人的一个练手项目，目的是学习如何构建AI代理，并以此为乐。起初，模型的表现并不理想，但随着模型的迭代更新，它的能力不断提升，最终能够在游戏中取得显著的进展，甚至击败道馆馆主。这个项目也为我们提供了一个独特的视角，来评估模型在长期决策和信息处理方面的能力。我并没有使用现成的代理框架，而是自己动手构建了一个简单的框架，它包含三个主要工具：按键操作、知识库和导航器。知识库用于存储和管理信息，以便模型能够在长时间内保持一致性。模型通过定期总结其行为来更新知识库。这个项目也让我对Claude模型有了更深入的理解，并让我意识到大型语言模型不仅仅是聊天工具，它还可以执行一些实际任务。虽然这个项目使用的是宝可梦游戏，但其背后的技术和方法可以应用于其他领域。关于模型微调，我认为对于大多数任务来说，提示优化比微调更有效。提示优化迭代速度快，成本低，而微调速度慢且成本高。在尝试微调之前，应该先充分尝试提示优化。当然，微调在某些特定情况下是有用的，例如调整模型的输出格式或使其更好地理解特定类型的输入数据。但对于需要提高模型在特定任务上的性能，或需要模型理解特定类型数据的场景，高级微调是一项非常困难的任务，需要专业的技能和资源，除非对模型性能有极高的要求，否则大多数情况下不需要进行高级微调。关于AI代理，我认为它代表着未来发展趋势，并在多个领域具有应用潜力。编码是近年来代理技术取得显著进展的一个领域。代理技术在法律和会计等领域也具有应用潜力。代理技术的突破往往是突然发生的，一个模型的改进可能会导致某个领域出现巨大的变化。代理的可靠性是其成功的关键因素。我目前主要关注的是新的大型语言模型及其应用，我相信AI技术将使更多开发者能够使用AI技术，并改变人们的工作方式。AI技术的使用门槛正在降低，托管的AI平台简化了AI的部署和使用，这使得更多人能够参与到AI的开发和应用中来。 Demetrios: (Demetrios主要以提问和引导对话为主，没有形成完整的观点陈述，故此处略去)

Deep Dive

Chapters

David Hershey from Anthropic's Applied AI team discusses his project of Claude, an AI playing Pokémon. He explains his motivations, the development process, and the challenges involved in creating an AI agent capable of playing a complex game like Pokémon.

The project started as a personal playground for building AI agents.
Initial attempts with earlier models were unsuccessful.
The current model uses a combination of prompt optimization, an internal knowledge base, and simple tools to interact with the game.
The project highlights the model's ability to maintain coherence over long periods and make progress in complex tasks.

Shownotes Transcript

我是戴维·赫希，我在Anthropic的Apply.ai团队工作，我早上喜欢喝拿铁。欢迎回到MLObs社区播客。我是主持人德米特里奥斯，今天我和一位老朋友戴维交谈。他一直在Anthropic工作，每次和他聊天都很精彩，因为我学到了新东西。我和他聊天，他让我开了窍。最近，他因为……而名声大噪。

Anthropic推出的模型正在玩口袋妖怪。这太酷了。他做到了这一点，我们讨论了所有这些。让我们开始与戴维先生的谈话吧。我不得不穿上我的漂亮衣服，因为我知道我要和一个名人说话。我不知道这一点，但我感谢你，德德。

伙计，你创造了口袋妖怪。克劳德玩口袋妖怪。我甚至不知道。你当时给我看。我想，是的，这很棒。我以为只是Anthropic做的。我没有意识到那是你的事。是的，那是我的宝贝，我一段时间以来的副业。它有一个有趣的故事，讲述了它如何成为一个有点像口袋妖怪的东西，因为它并不总是这样。

我把它放到世界上已经很久了。它就像我的，我的小小的有趣的副业，但是，但是是的，那是我的宝贝。不知何故，人们正在观看它。就像它在同一个地方卡了两天，仍然有1500人在观看它。所以我，我有点惊讶人们，人们关心。他们还在做。这太不可思议了。告诉我，你是怎么想到这个主意的？你是如何执行它的？是的，毫无疑问。

所以，说实话，我第一次尝试是在去年六月。基本上有两件事是真的。我在工作，我在Anthropic与客户合作。我和很多客户一起工作。我们都在研究代理。我想让我自己能够在某种程度上构建代理，对吧？我们一些更成功的客户正在构建非常酷的代理。就像，我需要一个自己的游乐场来构建它。

所以就像，好吧，我很高兴尝试用代理构建。我想怎么做？就像，好吧，我应该做最有趣的事情。如果我真的要深入研究，我会在过程中获得一些乐趣。可能在我之前，其他人也尝试过将四元数连接到口袋妖怪，就像最初的小测试一样。所以我只是想，让我们来做吧。所以我，呃，

在去年六月，我有点像，一头扎进去，构建了一些不同的……一些不同的代理框架来尝试玩口袋妖怪。从那时起，它就像，每次我们发布新模型，我都在慢慢地迭代和改进，并且像，在努力工作。很好。把它做出来。那种事情。所以……

但是是的，它只是从纯粹的开始，我想做这件事，我会确保我在过程中玩得很开心。顺便说一句，我后来变得非常痴迷。如果你问我妻子，她可能有点生气我，以及我有多痴迷于这件事。你意识到它现在已经足够好可以发布到世界上了，因为为什么？是的。好的。所以我们在Sonic 3.5发布时尝试了这个。是的。它像……

你可以看到它做了一些事情。它离开了家，它四处游荡，但它很挣扎。对。我们在十月非正式地用size 3.6和size 3.5 new尝试过。

它像，它走得远了一点，它得到了一只初始口袋妖怪。它出去了，它做了一些事情。对。我当时确实想过要发布它。而中间发生的事情是，我会把这些关于这个的更新发布到我们的Slack上。就像我在Anthropic有一个关于这个的Slack频道，所有关于口袋妖怪的，所有关于口袋妖怪的也是内部的。

人们一直在关注，对吧，所以我开玩笑说，在我玩口袋妖怪的时候，我就像克劳德的社交媒体经理一样，有一段时间，我只是拿出gif和片段，它像做一些事情，人们会变得有点兴奋，即使在之前或使用最后一个模型时，它也足够有趣，就像我们应该发布这个一样，它很有趣，但它很糟糕，它没有走得很远，那将是一个12小时的实验，真的没有什么可做的，所以有了这个模型，就像

它达到了突破点，你可以看到它有意义地做事情并取得进展。而且很清楚，在其当前状态下，它擅长某些方面，不擅长某些方面，但它足够好，就像，

它确实缓慢地移动游戏。而且还有一种像来回的，像做了一些非常愚蠢的事情一段时间。你会想，不，克劳德，为什么？然后它解决了。它非常像，它就像有点，它有点紧张，在内容中有点好。所以它变得像，我认为内部关注我们的人，就像玩得很开心一样。当克劳德击败道馆馆主时，你知道，人们就像，

吓坏了，玩得很开心，如何发布这个，是的，有一点，发布实际上是迟来的，但另一方面，说实话，是……我们把它发布在我们的研究博客上，图表显示不同模型取得的不同进展

而且就像字面上有一些，这是一种有趣的方式来了解模型如何处理这些长期视野决策的事情。人们习惯的所有这些评估，例如MMLU和GPQA，就像那里存在所有这些评估一样。它们中的大多数都是这样的，这是一个提示，我得到一个回复，它是否正确？你知道吗？而且几乎没有几个实际上测试了模型能够像

吸收新信息，尝试其他事情，取得进展。这是因为实际上衡量这些事情非常困难。做10个小时的工作，衡量这10个小时的工作有多好，当模型这样做时，非常困难，你知道吗？但是口袋妖怪，我不知道，你击败了一个道馆馆主。这是10小时后发生的事情，对吧？所以它实际上有点像，在某种程度上，即使对我们内部来说，也成为衡量标准，就像这个模型在多长时间内保持连贯性一样

数小时、数小时、数小时的提示和提示，像吸收新信息、尝试学习、更新、做事情。它对我们来说足够有趣，可以理解模型的优缺点，但它也像是一件好东西，可以向人们展示，它能做什么？为什么这很重要？

我知道口袋妖怪在某种程度上是一种愚蠢的方式来做到这一点。我认为它，它引起了一些人的共鸣，哦，这些模型不仅仅是一个聊天工具。我输入一个提示，但他们有时可以做一些事情。即使它不太好，与之相比，它也比以前好。

你是否觉得你现在要开始模拟很多这些来获取一些数据，然后也许为下一个模型改进它？我认为这其中有趣的部分在于它没有在口袋妖怪上进行训练。有趣的部分是它第一次探索这个东西，并且……

感受一下。所以我认为我们将继续使用这个版本，它就像一种很好的方式来了解它如何体验它从未真正接受过训练的新环境。

带我了解内部结构。它实际上是什么样的？你提到你为它创建了一个代理框架。你不想从货架上拿任何东西，或者你喜欢什么。我是一个边学边做的家伙。你知道，有时你达不到你想要的深度，比如，这个东西是如何工作的，为什么它能那样工作？所以这就是它的来源。

我学习了这个，就像我最喜欢的学习方法一样，这是一个完全的离题，但我在研究生院上了Karpathy的计算机视觉课程。他有一个像从头开始的梯度下降练习，像他做的家庭作业练习一样，你知道，像TensorFlow刚刚出现的时候。你可以这样做，但它就像，不，你会像，你会写。你会弄清楚如何自己实现机器学习框架。而我现在理解机器学习的方式，有30%是因为那次作业。

你获得的价值，你仍然记得那一次。是的，是的，是的。太不可思议了。是的。像这样构建和使用这些模型的一部分乐趣在于，当你盯着它们时，你会学到很多关于它们的知识，对吧？一百万个标记，你知道，就像我看到克劳德写过一样

我甚至不想知道有多少关于口袋妖怪的词，但就像你通过阅读很多东西来了解它的想法一样，深入研究，看看它对不同提示的反应等等。这就是我决定走自己的路的核心原因。我尝试了一些已发表的论文，比如我在Voyager还是那个东西的时候尝试过，还有一些其他的东西。但是，就像那天，我只是想自己连接一些东西。

它实际上做了什么？它如何获取世界信息，然后根据该信息采取行动？是的，它实际上很简单。随着时间的推移，我已经从中删除了很多复杂性。所以我很快就会讲一下，但它不像世界上最疯狂的事情。它有一个快速的提示来告诉它它正在玩口袋妖怪。我给了它三个工具。

它有按下按钮的能力。它可以按下A、B、开始、选择、上、下、左、右，你知道，像按下按钮一样。它有一个知识库的概念，实际上就像卡在它的提示中一样，但这只是它用来长期跟踪事物的信息片段。所以它就像电对水非常有效，它可能决定在那里写的东西，但它完全控制着它。所以它可以像添加部分，编辑部分，那种事情。

然后我有，所以四元数仍然不太擅长实际看到屏幕。所以我有的最后两个是我所谓的导航器。这允许它指向屏幕上想要去的地方，并且像模型一样会自动将其移动到那里，如果它在当前屏幕的范围内。

它仍然对它所在位置和想要去的位置之间的差异没有很好的理解。所以，如果你只是让它说它想去哪里，它会做得更好一点。这是我们真正为它做的唯一简化。然后它实际看到世界的方式是，当它按下按钮时，它会得到一个屏幕截图，看看它按下按钮后的位置。

它还会得到一些东西的小转储，这些东西直接从游戏中读取，比如它的当前位置和其他一些东西，但这非常小。但基本上，它按下按钮，它会看到之后发生了什么，然后它按下下一个按钮，它继续前进。有点像我用一个新程序一样。是的，是的，是的。或多或少。它与你玩的方式没什么不同。但是，等等，那里有一件事很有趣，那就是……

克劳德本身可以更新它自己提示中的内容的提示。是的。

所以那里的关键见解是，你知道，你正在玩口袋妖怪。让我们看看。我在这里看直播。这是它上线以来的三天。截至此刻，它已经采取了16884次行动。哇。所以，如果你考虑一下，这大致相当于16000张屏幕截图，它在那段时间内看到的大量东西。是的，

呃，它像那么多信息不适合语言模型的上下文窗口。对。所以你需要某种方法来像能够压缩，像摆脱旧信息

所以知识库，我实际上不确定这是管理它的最佳方式，但知识库是一种方法，它可以长期跟踪信息。所以最终发生的事情是，它采取30个动作，然后总结对话，就像它在过去30个动作中所做的事情，并将它们压缩。

然后它像手风琴一样做。对。所以它采取30个动作，做一个总结，采取30个动作，做一个总结，那种事情。但是试图将所有内容都保存在摘要中，它希望写得有点膨胀。所以知识库是一种方法，它可以跟踪更长期的事件。是的，这说得通。好吧，伙计，跟我说说你现在在Anthropic做的一些事情。我知道你领导着一个团队，该团队正在进行微调。是的。

我们提到过，我有一个很大的问题，嘿，微调真的像吹嘘的那样好吗？我说这话是因为大约一个月前，我们与英伟达进行了一次圆桌会议。并且有一件事非常清楚，因为我们进行了关于微调的整个圆桌会议，人们说，我已经看到，通过仅仅调整我的提示而不是微调模型，我已经为更少的努力获得了更多的提升。

是的，但你对此有什么看法？老实说，我认为这对绝大多数事情来说都是正确的。在某种程度上，这是语言模型最好的地方，对吧？就像我和你一样，我来自机器学习领域，像……

呃，当你必须通过训练模型并获取新数据等来更改模型时，这很慢。ML ops如此困难是有原因的，因为让所有这些都正确起来非常困难。与之相比，提示是一个奇迹，你可以用它来迭代这个东西，即使你有一个大型评估套件，它也是一个10分钟的迭代周期，而不是一个，不是一个。

三周或任何迭代周期。所以我认为，根据我的经验，我经常鼓励任何正在考虑微调的人，我做的第一件事就是，你真的尝试过提示了吗？你真的用它做了多远？而且，你知道，有一些人真的把它发挥到了极致，但也有很多人像也许，呃，

因为提示仍然有点奇怪，所以人们还没有完全弄清楚如何正确地做到这一点，它可能很挑剔，要获得最佳提示并不容易，我认为有些人像卡在半路一样，我认为他们在顶部……

但在你真正确信你已经从提示中获得了最大收益之前，我认为对于大多数用例来说，几乎永远都不应该考虑微调。你可以通过吹嘘来添加很多知识，就像你想在提示中添加其他任何方式一样，这比尝试进行微调要容易得多。是的。

对于一个工作是帮助人们广泛进行微调的人来说，我花更多的时间告诉人们他们应该一开始就避开它，因为我认为你必须非常精确。这真的很贵。这是一个具有挑战性的……我不是说即使这样做也很昂贵。这是人们花费在它上面的时间成本。通常情况下，很难证明它更有价值。

是的。呃，显然我有一份工作，所以我认为这并不意味着这总是一个坏主意。你有一份工作和一个你领导的团队。那么什么时候是正确的做法呢？呃，好问题。我认为有一些用例和时间，微调确实很有意义。呃，我研究并看到其中的一部分，但我将尝试给你一个概述，关于我的，我的观点，关于在哪里，在哪里它可能是一个好主意。呃，

我想我会首先提到的一个，它我认为有点像陷阱，那就是尝试训练一个更小的模型来做大型模型可以很好地做的事情的模式，特别是为了节省资金，这是我偶尔看到的事情。我认为这有点像陷阱的原因是，当你查看过去几年的模型开发时，像

每隔几个月，就会出现一个更便宜、更智能的模型。仅仅通过对你的整个开发团队不做任何事情，你通常就可以获得同样的结果。就像你可以得到一个更便宜的模型，它就像一个更便宜、更快的模型，它可以做上一个模型做得很好。

只要有一点耐心。只要有耐心，对吧？我认为，除非它是一个很容易的事情，因为你已经有了数据，并且你知道它将如何工作，否则让微调正确起来的过程仍然非常具有挑战性。构建正确的数据集，使其正常工作，使其不会降低模型的其他功能。这些都是一些非常难以正确处理的事情。你最终会把大量的开发人员时间投入到你可以什么都不做就能做到的事情上。是的。

我认为它确实有效。就像你可以，你可以做这件事，但我像，

我认为人们需要对他们是否应该这样做持有一点怀疑态度，即使这是可能的。因为那个用例就在那里，是圆桌会议上的人之一。他们说，看，我因为你谈论的这件事而将我的成本降低了90%。但这只是在他们获得一个有效的模型之后，对吧？所以模型输出信息的成本可能更高

便宜90%，但获得该模型的成本是多少？我的意思是，这与Anthropic有一个简单的推论，那就是我们在四个月前推出了俳句3.5。对。呃，我认为那是我时间的十一月。我，我，我在这里忘记了时间，但它是在那里某个地方。而且，呃，它像基准一样，与我们在去年三月推出的作品一样好。所以它就像，呃，八个月左右。

而且它实际上是十分之一的成本。就像你的90%的成本节省就在那里，对吧？所以它就像，这就是实际发生的事情。所以也许你关心那六个月。就像也许你在两三个月内完成了它，并且你节省了六个月的钱，这对你来说有很大的区别。但是像……

我不知道人们从事机器学习的机会成本非常高。我认为，对我来说，这种权衡并不明显，这就是我想说的，这再次说明，它有效。如果这个数学对你来说有意义，我认为它有意义。如果你达到那个规模，那么当然可以。对。是的。对。就像你一样，如果你为一百万美元的工作节省了五百万美元，那么，

我想你赚了四百万美元。但另一方面仍然存在，就像你可能用你的时间做了其他比这更有价值的事情。无论如何，我像，我们正在深入探讨这个问题的细微之处，但我只是像，我个人会对这一点持有一点怀疑态度。而另一方面是形式，对吧？是的。然后就像这种其他形式的相对简单的微调，我认为它有效，那就是，

有一些情况，就像，我需要更好地遵循这种输出格式。我需要更好地理解我拥有的数据的这种输入格式。所以也许我有一些特定类型的文档，我希望模型能够更好地理解并能够更好地使用。而且只是一些像这样的例子，我的数据是这样的。这些数据与模型以前见过的略有不同。它并不难推理，但是让模型实际理解它可能非常强大。是的。

呃，我看到像所有这些东西一样，呃，你知道，使用语言模型的分类器，像语言模型一样对文本有很好的理解。而且你可以让他们做一些非常有效的简单分类任务。有一些这样的东西，就像有点像，这是一个简单的任务，但我只需要让这个不太了解它的模型来理解这些数据。呃，这些都非常合理。我看到相当多的人在这些方面取得了成功。呃，

然后还有第三类，坦率地说，这就是我花费大部分时间的地方，那就是实际上采用一个非常好的模型，并试图使其在某些方面变得更好。很明显，这很难。你知道，像研究实验室一样，制作好的模型并制作比大多数其他人的模型更好的模型是有原因的。因为他们，他们聘请非常聪明的人来完成这项任务，即如何采用模型并进行最后一英里的微调以使其真正出色。

它足够难，以至于大多数人真的应该像不参与其中一样，我认为像这种额外的果汁不值得挤压很多人……我认为像绝大多数这些情况一样，你通常可以采用一个模型并获得足够好的性能，是的，现成的，但如果你碰巧处于一个你真正关心模型现在可以正确处理的5%的地方，也许这就是你具有竞争力的原因，也许是

就像你的产品能否正常工作之间的区别是最后5%。然后我认为进行研究是有意义的。这变得非常复杂。我认为有很多不同的微调方法可以奏效。你必须像，这在很大程度上是一个研究项目。它不像一个工程项目。它就像我们需要进行研究来弄清楚什么数据方法和工具将使模型在任务上变得更好。

但这当然有可能。我的意思是，实验室总是让模型在特定任务上变得更好。你已经以很多不同的方式看到了这一点。在过去，特别是六到八个月内，出现了新的模型。所以，如果你眯着眼睛看，很明显实验室有能力像让模型在某件事上变得更好。如果这是真的，那么这应该对实验室来说也是真的。

任何人都有效，但成本非常高。所以它必须像非常值得去进行这项研究工作，但它确实有效。就像你可以，你可以考虑一个任意的问题，并思考如何让模型在这个问题上变得更好？好吧，你之前提到的另一件事也很有趣，因为当我们发送提示时，我们并不十分清楚发生了什么，

输出不够好是因为我的提示不够好，还是因为我现在需要让模型本身变得更好，那么很多人可能会默认将微调作为下一步，因为这就像哦，好吧，我必须让这个输出变得更好，所以如果我不能用我的提示做到这一点，我从Twitter上的AI影响者那里购买的

然后我认为我应该开始研究微调。希望这就是我们建议人们不要做的事情。是的，我认为这完全正确。我认为有时存在这种关于微调的神秘承诺，就像如果你将所有数据都放入机器学习框中，它肯定会变得更好一样。

而且作为一个将大量数据放入机器学习框中并观察模型变得更糟而不是变得更好的人，对于你获得的平均数据集来说，我可以告诉你，这是一个非常昂贵的任务，默认情况下应该这样做。当我认为它并不简单时，它并不明显。任何单一数据集都会使模型在你关心的方面变得更好，这并不明显。

就像我为什么把其中一些描述为某种程度上的研究一样，因为真正弄清楚什么会影响你关心的行为需要时间，而且并不容易。所以我认为，机器学习的力量让我们走到了这一步，它让我们走了很长一段路。但我确实看到更多团队在提示方面比在微调方面取得了更大的成功。

尤其是在原始计数方面。我真的很想和你谈谈代理，因为这是今年的流行词。感觉每个人都在尝试围绕它做事情。我已经录制了很多集与将代理投入生产的人员的节目。我觉得你可能已经看到了一些非常酷的代理用例。随便说说，你最想讨论的关于代理的领域有哪些？是的。

显然，我们也看到了同样的情况，那就是，我认为我们看到的大多数在四元组方面取得最大成功的人都在构建代理。是的。我们投入了大量工作来制作更擅长做代理性剃须事情的模型。我们非常相信这就是未来的发展方向。嗯，你知道，这很有趣。我认为你想到代理，并且，嗯，

所以，我认为发生的一件有趣的事情，以及在这个行业工作的一件有趣的事情是，很难知道何时以及哪个模型将出现，使特定的代理能够很好地工作。

哦，我不认为我们在实验室内部对我们预测的未来模型有一个完美的把握，比如它将足够好到足以解决某个代理任务是什么。所以有趣的是，你只是坐在那里知道有些事情，比如你眯着眼睛看，有些事情看起来像是可以工作的。然后也许这些模型中的一个足够好，达到了起飞点，它实际上是有价值的。

举个例子，去年编码显然发生了这种情况，对吧？我认为去年下半年，尤其是在 10 月份发布更新的 Sonnet 3.5 之后，你看到了很多编码代理的真正爆炸式增长。我认为这是因为这是模型第一次真正达到下一个层次，哦，这就像从一件我很乐意玩弄的小事变成了哇，

这真的，真的很好。是的，它很有用，它节省了我的时间，我可以描述事情。那时你看到了像我八岁女儿刚刚建立网站的 YouTube 视频。没错，没错。这正是我认为很有趣的事情，因为它暗示了一点，那就是你只需要。

感受一下我们接近什么，接下来可能出现什么。并且有点像，也许很难知道是否会，何时会，哪个实验室的哪个版本，谁知道什么会让某些东西变得非常好。但我认为你可以开始看到不同的东西起飞。所以编码是显然已经起飞的一个。我们最近发布了 Claude Code。

是的，我看到了。

嗯，所以编码已经非常明显地爆炸了，我对其他我认为可能的事情有一些预感，你知道，嗯，我很难肯定地说出于你所拥有的相同视角，什么会发生，但我认为有一些更复杂的，例如，我可以想象法律工作流程在很长一段时间内会得到很大的改善。嗯，有，

呃，像，像这样的东西。我们在 Anthropic 有人从事过会计工作流程方面的工作，不是我们正在开发的产品，需要明确的是，但是，我，我知道 Anthropic 的人在过去从事过这类工作。我认为有很多东西可能还很遥远，但你可以想象一个模型，它在使用电子表格方面变得足够好，以至于有很多像操作电子表格一样的事情，这只是完成的大量工作，就像乏味地移动电子表格周围的东西和运行公式之类的东西。

你可以想象模型在做这类事情方面会变得更好。并且像对哪些代理实际上对工作有用产生非常大的影响。如果你可以访问 cloud.ai 并说，这是电子表格，这是我需要运行的分析。你能去做吗？并从中创建一个数据可视化？是的，比如构建分析，构建模型，比如预测，预测这个东西，告诉我答案是什么，并且像给我一张表格来显示它。

我需要一个给我老板的仪表板。当然。在我开会的时候，20 分钟后。是的，是的。嗯，但是，是的，我认为另一方面令人沮丧的事情是，我，我甚至像，我拥有尽可能多的信息。这对我来说很难预测接下来会起作用的是什么。但如果你不得不猜测我，比如用一种模式或问我模式是什么，比如代理会发生什么，那就是，

这可能是因为我们本周刚刚发布的这个模型。在某种程度上很难知道。但是，像模型会发布出来。一些初创公司或其他人会像在这个类别中构建这个代理一样。就像，哦，它现在起作用了。就像它不起作用一样。然后，哦，哦，它现在好了。然后他们就会爆炸。你知道，就像你听到的所有关于起飞的事情一样。

像 Cursor 一样。在 X 个月而不是几年内获得一亿美元。对。我认为，我认为你会看到这种模式会发生在人们拥有的少数不同的产品、工作流程和工具上。

像围绕某个模型，它获得了使它从哦，它看起来即将做到这一点，但随后它绊倒并绊倒了脚趾，现在我必须弄清楚出了什么问题，它破坏了尝试使用这个代理的沉浸感，到哦，我让它编写这段代码，它只是编写了，我并没有考虑它，呃，这就像天壤之别，所以你提到这一点也很有趣，因为

当你代理不起作用时，你必须做的笨拙的事情。你花了所有时间试图

让它到达那里，这样你就不必拥有这种体验，或者你的最终用户就不会拥有这种体验，哦，我认为它会起作用，但它没有起作用。因此，代理的可靠性是我认为……好吧，这正是为什么它是临界点的原因，你知道吗？就像一旦你必须进去弄清楚哪里出了问题，就像你浪费了所有东西一样。你必须完全了解为什么它出了问题以及中间发生了什么。就像你几乎到了你可能自己做的那一点。是的。

即使是最后发生的一个小小的错误，对吧。但它发生的次数足够多，那么它就像，哦，我试图让它做这件事，但我必须实际去做整件事才能弄清楚出了什么问题。但是一旦它越过了这个阈值，大多数情况下，你不需要检查它。就像它，它看起来像它，然后它就像，哦，这是我见过的最酷的事情。太不可思议了。是的。我认为，再说一次，我只会回到代码，因为这是我们看到很多的东西，但是，

我让 AI 为我编写代码已经很久了。就像我在 Anthropic 工作了一年。显然，在过去的一年中，我经常使用 AI 来编写代码。嗯，

但是，从我复制粘贴它并浏览它并将其放在那里，到它只是发生，这之间存在很大的区别，这与众不同。你知道，我希望我对接下来会起飞的东西有一些热辣的预测。我真的没有。但这就是我认为对代理来说是真实的事情，那就是一个模型发布出来，一个月过去了。

某人点击了这个东西，它爆炸了。然后，砰，另一个行业就像真的有了一种新的做事方式。是的，它承担了这些任务或该部门中的人通常所做的所有这些琐碎的工作。现在他们做得更快了。因此，他们能够从中产生更多的东西。

我认为这正是你所说的。就像，它只会更可靠。你会看到这种可靠性会回荡到世界各地。是的，是的，我完全同意。你提到模型更新将导致这种二阶或三阶效应很有趣。

以及人们在新模型发布时几乎需要重置的原因。因为我正在和一些正在构建代理的朋友聊天，他们说每次他们升级到新模型时，他们几乎都必须从提示开始重新开始。因为……

你所说的很多是模型更擅长做事情，所以现在你不需要指定所有这些小的边缘情况，你不需要再告诉它做那件事了，因为它已经做了，它已经在训练或微调中了，是的，我的意思是，为了回到神奇宝贝，每次我在新的模型上测试时，它

它所做的最常见的更改是删除一些东西，你知道，就像，哦，我在这里放了所有这些提示内容来告诉它不要犯所有这些愚蠢的错误，并试图在上面贴上创可贴。然后，如果我只是删除所有创可贴，它就会好得多。我认为人们有时很难看到新模型发布的原因，我认为这对于几乎每个发布的模型都是正确的，就像你看这些基准一样，但它们通常不像阻止模型的东西一样。

一些具体的，不是一些大的东西。这不像你一夜之间学会了物理学，这就是它为什么在填写电子表格方面变得更好。就像，哦，它变得足够好到可以点击这个电子表格中的一个单元格，你知道，就像它现在点击正确的单元格，然后一切正常。对。这有点难以察觉

如果你只是与 quad.ai 聊天，它就像这个模型，在大多数情况下，看起来就像它只是听起来可能只是稍微聪明一点，或者其他什么，不像很多。但是，如果它在点击电子表格方面变得更好一点，这意味着它现在可以填写电子表格了，就像，哦，游戏结束了。所以我认为这是我们处于这个有趣的时代的一部分，模型发布出来。我认为在某种程度上，

对于某些人来说，乍一看，就像有什么大不了的，有什么不同，看起来差不多，就像在 cloud.ai 上感觉一样，对吧，人们注意到一点，但这不像所有事情都发生巨大变化一样，直到你找到它实际上好得多的东西，就像哦，当我要求它做这件事时，它就像，是的，好多了，然后它就像，你知道，这就是你最终从我的角度看到很多变化的地方

在神奇宝贝中，就是这样发生的，对吧？就像，这并不明显。一些基准看起来有点相似。然后突然，就像，我们把它连接到神奇宝贝，它就像，哦，它就像白天和黑夜一样。这个模型，就像，可以做到。它就像，哇，太疯狂了。太奇怪了。我们必须向更多人展示。将其发布到世界各地。这就是我们对下一个重大突破的期望，即你视频游戏上的代理。是的。

所以实际上它让我想起了一件事，就像一。尼尔·阿姆斯特朗在月球着陆后发表的引言是什么？对于人类来说是一小步，对于人类来说是一大步。对于模型来说是一件小事，但对于人类来说却是一大步。是的。

让我想起了它。那么你最近还在想什么？我记得，让我告诉你，每当我和你聊天时，我一直都很喜欢和你聊天，我从这些谈话中出来后就像，哦，该死，我没有那样看待它。但现在你完全改变了我的想法。事实上，我们第一次谈话后

在整个 AI 革命开始并进行之后，你说，伙计，现在有数百万开发人员可以使用 AI，而不是……

100 万或数十万使用 AI 的机器学习工程师。你知道现在会发生什么变化吗？我当时想，你确定吗？我不这么认为。它似乎并没有那么好。在那次与你的谈话之后，我想，哦，好吧，我想我会对此持开放态度。所以还有其他领域，我不是说已经发生了如此大的破坏

但你目前正在兴奋地思考的事情，不涉及神奇宝贝。你是什么意思？还有什么？这可能是你过去的生活，无论如何。所以至少在过去的四天里，它已经成为我生活的一部分，但是是的，

我会给你一系列无聊的答案，因为我已经被卷入试图制作更好的模型并帮助人们更好地使用它们。所以，就像我老实说，我的视野有点狭窄，就像

这些天我所能想到的就是，新的语言模型会发生什么，以及它们将如何改变人们的使用方式。所以我有点像，仍然停留在我们很久以前谈话时给你的同一个想法上，那就是……它改变了吗？那个，像，假设，嘿，现在每个人都将开始使用 AI，你仍然觉得……

强烈地认为？你加倍下注了吗？你退缩了吗？是的，我的意思是，如果你去和世界交谈，如果你和我们交谈的人交谈，那不是

我们教导的人，构建 AI 功能的人，不是机器学习人员，你知道，甚至不接近。使用四元组构建 AI 功能的大多数人都是工程师。然后你谈论那些真正从中获得价值的人。就像人们去 quad.ai 并做各种其他事情一样。对。就像，

你可以在四元组之上构建工作流程。就像你一样，我看到你对 MCP 感兴趣。就像你可以构建相当重要的工作流程，而无需真正付出巨大的工程努力。就像你通过 MCP 公开了一些东西，就像你可以开始构建真正为你完成很多工作的工作流程一样，只需将你组织中公开的一些部分粘合在一起。所以是的，

就像，是的，比以往任何时候都更加激进，这里发生的一部分是，我们正在大幅提高可以使用它的人的门槛。我认为还有很长的路要走。我认为去一个空白聊天机器人并试图弄清楚如何使用它对于某些人来说还不够好。对。所以我认为，弄清楚如何提升人们让他们感觉自己理解，就像，我可以用这个东西做什么？

总的来说是一个未解决的问题。是的，我听到有人这样说，我真的很喜欢，你给最终用户带来了多少认知负担？是的。当它是一个空白聊天机器人，他们必须创建问题或创建整个提示时，这会带来很多认知负担，而不是滚动 TikTok，你知道吗？所以……是的，是的。它就像，我不知道。这是……

AI，你只是在世界上看到了很多。我认为如果它没有以“它能为我做什么”为基础，它可能会有点让人不知所措。我认为人们正在慢慢地弄清楚这一点。但是，你知道，也许这就像与你联系一样，软件工程师很快就弄清楚了 AI 可以为他们做什么。自从我遇到至少在某种程度上没有弄清楚的人已经有一段时间了。

使用语言模型的方式对他们完成工作的方式有相当大的影响。是的，即使只是用代码。这是真的。我可能会有偏见，很明显，但在我看来，每个软件工程师在开始尝试构建 AI 功能时都必须走下去的兔子洞，并且

那就是他们开始越来越了解 AI，等等。接下来你知道，好吧，你几乎就像一个混合体，像数据工程师一样。他们必须学习管道。他们必须学习我们一直在做的所有这些东西。这几乎就像通往 ML 世界或 AI 世界的入门毒品，我想这就是他们所说的。

这很有趣，就像我认为与机器学习人员相关的许多核心技能集一样，一旦你可以放弃对梯度下降的控制，实际上仍然是一个非常相关的技能集。就像你做的很多事情一样，

这些系统变得更好，因为你构建了评估它们所需的数据集，你做了这种随机迭代过程，无论是提示还是其他什么，或者构建代理的各种系统，无论是什么，但是有很多只是像你需要做的纯粹的实验一样，才能得到它，它需要变得很好，你需要跟踪你的实验，你需要对做什么以及如何做进行深思熟虑，如果你不精确，那么你就会陷入我们已经了解了很多关于在过去做机器学习的陷阱中

嗯，所以，就像所有这些交叉技能集一样，我认为这是真的，人们有很多，嗯，

构建语言模型的工程师可以从机器学习的历史中学习。并且有很多技能，我认为机器学习背景的人可以使用。我认为，这只是弄清楚在哪里以及如何放手并生活在这个混合世界中的问题。理想情况下，你不再需要担心推理了，你知道，就像你一样，它就像，最酷的事情之一，也许是我对实验室所做的事情考虑得最少的事情之一，但是，

他们弄清楚如何以令人难以置信的效率为人们提供机械模型。过去，它就像，哦，我必须弄清楚像 GPU 集群和服务和路由一样，就像所有这些烦人的东西一样，你需要弄清楚如何使用 ML。这就像，

一个你可以在按需付费的精美 API。使用机器学习的便利程度以及人们对基于令牌的定价这种药物上瘾的速度有多快，你只需为 API 调用付费，而不必支付托管 GPU 并处理它，这真是太疯狂了。就像，

所以我猜想，我用它作为一个例子，就像，希望其中一些事情变得容易多了。就像你不需要担心和考虑 GPU 一样，如果你只是走大多数人应该走的托管路线。你可以不必过多担心所有这些基础设施的麻烦。数据问题往往不那么痛苦。它不像你使用语言模型时经常考虑的集群规模数据一样，它往往是

你知道关于人们的一小部分信息，但它不像你真正使用的大量信息一样，与我们都有的背景相比，我们都看到了非常棘手的数据问题，是的，在我 Anthropic 的时间里，我从未见过那种数据问题，这就像，它只是变得简单了一点，所以是的，我的一个朋友告诉我，他在一家银行工作，所以你可以想象最严格的法规，他就像

对于新一代，因为我问他你在做什么，他正在服务于 Gen AI 用例和传统的 ML 用例，所以你可以做所有这些欺诈检测的有趣事情，他正在做，Gen AI 的事情完全，他说，伙计，当你能够摆脱它时，将所有事情外包给，摆脱平台的所有麻烦，并将其外包给我知道的这些实验室，嗯

是的，我认为这需要让人们相信一点，因为我认为它发生得太快了，我们像很多人一样投入了大量精力来弄清楚所有这些非常复杂的基础设施，以便能够参与机器学习。我认为，哦，我们可以不用所有这些来做到这一点，你知道，就像我们可以建立在这个地方之上，就像。

在某些情况下，托管训练和推理以及所有内容。我只是提交数据集或提交推理调用，就像一切都会发生一样，它会自动扩展，它会像我想要的一样大。一切都很完美。

我认为这需要一些适应，如果你已经像这样花费了肌肉来构建基础设施。但是，伙计，这就像，这容易多了。那些放手并拥抱免费基础设施的人，他们在某种程度上获得了免费管理，我认为他们能够在这方面取得巨大的进步。是的，这就像爷爷对他们的孩子大喊大叫。在我那个时代，我们必须实际连接所有这些并找出我们自己的梯度下降。是的。

这就是我对你说的话，这就是为什么我很高兴加入的原因，因为我花了这么多时间帮助人们弄清楚如何连接所有这些东西。这太难、太具有挑战性了。现在我只是……它是定制的，对吧？你在这里放一些词，然后从另一边得到一些词。我们现在都玩得很开心。太棒了。是的，然后，是的，没错。我们可以玩神奇宝贝。或者至少观看一些 AI 玩神奇宝贝。是的，是的，是的。没错。我更……

Claude Plays Pokémon - A Conversation with the Creator // David Hershey // #294 46:58 Share

MLOps.community

Deep Dive

Shownotes Transcript

Claude Plays Pokémon - A Conversation with the Creator // David Hershey // #294