We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The Agent Landscape - Lessons Learned Putting Agents Into Production

2025/2/20

MLOps.community

AI Deep Dive AI Chapters Transcript

People

Floris Fok

Paul van der Boor

Topics

Paul van der Boor: 我在Prosus集团领导AI团队，我们致力于将AI智能体应用于旗下众多公司，服务全球数十亿用户。我们从简单的LLM发展到复杂的交互式系统，过程中积累了丰富的经验教训。AI智能体能够处理比传统方法更多更复杂的任务，但同时也面临着评估难度大、延迟要求高、成本高等挑战。智能体的形式多种多样，包括计算机智能体、网页智能体、API智能体和语音智能体等，其中基于API的智能体最为常见。我们还投资了Prompt Armor等公司，以应对AI智能体带来的安全风险。在成本方面，我们需要关注的是‘每单位智能的成本’，而不是仅仅关注‘每token的成本’。我们与众多初创公司合作，共同探索AI智能体的应用场景。我们发现，现有的系统和接口往往并不适合AI智能体的交互，需要进行改进。我们也通过建模分析，了解AI智能体对成本的影响，并根据实际情况调整策略。 Floris Fok: 我是Prosus集团的AI工程师，过去一年半的时间里，我参与了超过20个AI智能体项目的开发和测试。其中，只有少数几个项目成功应用于实际产品中，例如内部通用助手‘Kaan’和SQL分析助手。在项目开发过程中，我们发现，将AI智能体细化到特定领域并不一定能提高效率，用户更倾向于使用能够完成整个任务的综合性智能体。此外，评估AI智能体的有效性需要使用明确的指标，避免主观判断。响应速度对用户体验至关重要，过长的等待时间会降低用户的使用意愿。一些项目失败的原因是未能充分考虑用户的实际需求和使用习惯，例如Jira任务助手项目由于未能处理Jira系统中用户输入数据的特点而失败。改进方案包括先进行用户访谈收集信息，再构建AI智能体，或者采用‘AI优先’的设计方法，直接使用AI构建整个系统。我们还发现，将AI智能体集成到现有工作流程中可能会增加用户的认知负担，需要仔细权衡利弊。在数据分析领域，我们通过在结果中添加假设说明等方式来提高AI智能体的可靠性和安全性。在提示词方面，我们也经历了从复杂的系统提示词到简单的提示词的演变过程。

Deep Dive

Chapters

This chapter defines AI agents as LLMs interacting with the world, contrasting them with isolated LLMs. It explores the complexities of building reliable agents, using the analogy of a Mars rover to illustrate the challenges of integrating various components like memory, action capabilities, and data access.

AI agents are LLMs that interact with the world.
Building reliable agents is complex, requiring integration of various components.
The analogy of a Mars rover highlights the challenges of integrating reasoning engines with other functionalities like memory, actions, and data access.

Shownotes Transcript

欢迎大家来到我和我的好朋友Paul Vanderbore之间的对话，我们将讨论Prosus团队如何在他们的公司中使用AI代理，特别是Prosus，有时也包括他们的投资组合公司。我们将深入探讨他们如何进行创新以及在Prosus过程中面临的一些挑战。

使用AI代理。让我们开始这段对话。我们将讨论代理，更具体地说，是你们这个全球公司集团（包括Delivery Hero和OLX）如何使用代理。你们集团拥有超过一千名机器学习从业人员，并且正在将代理和AI用例应用于构成全球集体集团的3万多名员工。

考虑到这一点，你们已经吸取了一些惨痛的教训，而这正是我想要深入探讨的。技术上的惨痛教训、用户采用、用户体验、用户界面等等，因为你们从那时起就一直在做这些事情。

2022年ChatGPT首次上市，你们试图弄清楚如何使其更有用。我们可能应该从昨天我们进行了一场“墨西哥对峙”时谈论的内容开始，我们说，那么什么是代理？我们互相看着对方，然后说，

可以做事的人工智能，对吧？你可能有一个更好的例子。——让我们从这里开始。那么什么是代理？在我最简单的描述中，代理本质上是一个与世界互动的LLM。——我喜欢这个说法。——我们显然多年来一直有LLM，或者在这个领域工作的任何人都与LLM一起工作，对吧？它们的第一版，GPT-2等等，我们一直在玩弄它。我们正在弄清楚接下来会发生什么。

但归根结底，这些LLM是相当孤立的工具，对吧？它是一个盒子里的小型推理引擎，你可以给它一个标记，它会给你一个标记作为回报。当然，这非常令人印象深刻。我们在ChatGPT时刻看到了这一点，它突然闯入了每个人的生活中。但我们看到生成式AI的下一个明显步骤之一是

代理，当这些LM能够与世界互动时。它们如何与世界互动，显然，这就像一个拨号盘。你正在调高它，对吧？所以我们首先看到的是，也许它们可以访问网络。也许它们可以访问计算机环境。也许它们可以访问API。也许它们可以开始与浏览器互动。所以这就是……

代理的概念。正如你所说，我们多年来一直在研究这个问题，因为在Prosus，我们可能是……

世界上最大的科技投资者之一，专注于电子商务，通过你提到的那些不同的公司为大约20亿消费者提供服务。——20亿！——20亿，很多。是的，很多，对吧？——我甚至不知道它有多大，是的。——巴西的iFood、印度的Swiggy、Stack Overflow、Delivery Hero、OLX以及许多其他公司，集团大约有100家公司。

因此，对于人工智能来说，有很多不同的机会。然后，如果你转向代理，看到我们可以构建的所有不同事物就会变得非常有趣和令人兴奋。这就是为什么我长期以来一直在与我们在阿姆斯特丹的团队一起投资这个领域的原因。我们最近组织了这次会议。

是的，这就是整个系列的灵感来源，因为我们一起举办了这次会议，这是一次虚拟会议。然后我们意识到我们想要创造……

更多内容并深入探讨，因为我在那次会议上看到，你们正在使用代理做一些非常先进的事情，而这次会议的主题是代理。它是关于生产中的代理的。这是一次虚拟会议。我们看到了世界上正在发生的关于代理的最前沿的事情。我的结论是我们需要进行更多对话，因为我想听听你们做了什么。所以

这一集将由我们来分解代理领域，它由什么组成，然后我们将邀请我们的好朋友Floris，他将讨论你们遇到的一些惨痛教训，你们尝试过的哪些代理失败了，也就是代理的坟墓，以及你们实际上能够坚持使用并带来业务价值的代理。你们是如何看待这种业务价值的？你们是如何

围绕代理是否有用设置指标的。所以在我们邀请他之前，我们应该更多地讨论构成代理的组件。但也许可以退一步思考这些代理，那么为什么让它们工作如此困难

为什么坟墓仍在不断填充，是因为有很多未知的部分，所以想想一个比喻，我不知道你是否曾经建造过东西，比如用树莓派或火星探测器，我有一个年幼的儿子，所以我们正在建造一个火星探测器，它本质上是一个树莓派，它连接到一堆传感器、麦克风、摄像头

和内存芯片，所以你可以看到它的路径是什么。对我来说，如果我把这带到Gen-AI的世界，我们今天用这些强大的Gen-AI模型、大型语言模型拥有的东西，

只是一个推理引擎，基本上是没有其他东西的树莓派，对吧？那就是LLM。现在在代理世界中，我们试图弄清楚如何将其放入一个可以与世界互动的系统中，对吧？它实际上可以……

理解它与之交互的历史。所以内存，就像这个火星探测器需要知道它的路径，它需要去哪里。它可能需要能够采取行动，并且知道向左走还是向右走。在代理世界中，我需要访问API来获取信息，或者我需要存储，创建文件并将其存储在某个地方。它需要轮子。就是这样。工具也是其中一部分，因为这给了……

LMDA与最新数据交互的能力，因为当然，你知道，在训练期间看到的数据具有一定的终点。——非常不同，是的。——所以你需要，你知道，其他数据，也许是专有数据或与今天发生的事情相关的数据。

它可能需要实际生成它自己的数据，而不仅仅是读取，还要写入，因为它知道你和我在互动，并且你已经向我提出了一些类型的问题。所以需要将其存储在内存中。是的。那是什么，内存什么时候被访问？嗯，然后，

当它生成答案时，它可能想要实际思考并批判该答案。所以它不仅仅是一个一次性标记预测，而是根据你要求它执行的操作生成一个计划。它可以转到该计划，批判它，查看它所遵循步骤的结尾，该计划是否实现，返回到一个步骤并进行修改。所以你需要拥有整个系统

不仅工作一次，而且可靠地工作，特别是如果你要将其交付给生产中的真实客户等等，这就是我们一直在进行的旅程，并且……但是从它开始，你知道，旅程一直在从一个小的推理单元LLM，是的，强大的树莓派，现在需要可靠地连接到所有这些其他部件，以便它可以帮助

完成更复杂的任务。事实上，这就是承诺，对吧？所以从简单的问答设备转向能够实际帮助完成更复杂、更复杂的任务的东西，尤其是在电子商务旅程中。在Prosus的生态系统中，有很多机会这样做。从树莓派到火星探测器。这就是我们现在正在做的。我喜欢这个比喻。有一些具体的……

当你开始这样做时会出现一些困难。我认为我们现在特别想指出的两件事是评估可能非常困难，你正在查看延迟要求以及成本。是的。因为正如你提到的，如果你正在进行所有这些

LLM调用，它会很快累积起来。我们将在以后的不同剧集中讨论所有这些有趣的事情，并具体分解如何进行评估以及可以寻找什么。但是现在我们应该讨论一下你可以使用代理或代理表现的方式。我认为我们可以称之为，回到那次会议，我们看到了代理被使用的许多不同方式，并且

从广义上讲，我将代理分为几类：你有一些代理，就像Anthropic推出的计算机使用代理一样，它可以使用你的整个计算机并接管。你有一些网络代理，它们在两者之间更像是一个中间体，它们不使用你的整个计算机，但它们使用你的浏览器。然后你有一些通过API与世界互动的代理，我认为这可能是当今最常见的模式。

然后你还可以拥有语音AI代理。因此，与你在电话或Zoom通话中与之交谈的代理进行互动，

我们可能还有空间在那里加入你看到的代理，比如电子游戏中的人工智能角色。我不知道你是否想称之为一个完整的代理，但感觉它也可能是一个。是的，当然。我的意思是，你正在描述复杂程度的范围，我认为它也让我们了解了我们未来的方向。其中一些非常接近。所以事实上，第一个自然的代理

你想要给这些代理的一组工具是API，因为它们有良好的文档记录，结构良好。你知道需要输入什么。你知道你期望得到什么。你可以针对它进行测试。这使得评估变得容易得多。所以这是第一件事，如果，你知道，我们正在使用的生产中的代理将能够做到。

通常将使用定义明确的API，与进行例如更开放的网络浏览相比，这些API相当简单。当然，我们正在测试，我们可以分享我们学到的东西以及为什么这也很难、更昂贵并且需要时间。我们将有一整集关于网络代理的内容。所以Dave将成为我们的常驻专家。因为这也是一件有趣的事情，我们……

我应该提到，我们可以从在Prosus工作的所有人员那里获得信息

他们正在深入研究这些主题中的每一个。他们可以来告诉我们在过去六个月里他们学到了什么，只专注于此。对。这就是我们即将要做的事情。我认为如果你沿着复杂程度的各个级别走下去，我们需要一个框架。所以有人，我不知道，也许有人已经想出了这些代理的复杂程度级别是什么。但是，你知道，从API到浏览以及所有内容

在这两个级别中，如果我们应该这样称呼它们，仍然有很多机会让这些事情发挥作用。我的意思是，在电子商务、在线市场、平台的世界中，你知道，有很多事情，如果你只是让代理访问网络，

到应用程序，到API，它们可以帮助你。突然之间，他们可以预订旅行、订购食物、帮助你挑选产品等等。这是在网络浏览之后。接下来是让他们访问计算机、桌面。我们正在与各种公司、那里的初创公司合作，他们正是这样做的。

你可以看到进展，就像在OS World等基准测试中一样，这些代理现在可以为你创建数据透视表。他们可以，你知道，用非常简短的说明，对吧？或者他们可以下载文件，他们可以处理它们等等。并且……

这很快就会到来，2025年，可能会在这方面给我们带来大量新的令人兴奋的事情和产品。然后如果你更进一步，他们可以开始与现实世界互动，对吧？所以是机器人。是的，那是我甚至没有谈到的另一个代理。这是真的。所以这就是我认为我们预计在未来几个月、几年内会看到成熟的复杂程度级别。

有时事情进展得更快。对于那个困难地图，有一些黄金地段可以进行真正的思想领导力。让我们来做吧。他们是志愿者。所以我们没有真正谈论的一件事是为什么使用代理，为什么不只使用传统方法？因为

看起来我们增加了许多复杂性。确实有这样的好处，嘿，我可以告诉某事去做，它就会为我做。

但很多时候你最终会撞墙，因为它太难了。我认为简单的答案是你只是增加了许多更多的可能性或任务，你可以让这些系统为你完成。一旦你进入代理世界，你就赋予他们访问工具的能力。这是显而易见的下一步。因为我们已经经历了问答周期。

世界，我们这样做是为了确保这些AI系统现在是我们生活的一部分。他们做得相当好。当然，还有很大的改进空间。但是随着它们变得具有代理性，它们可以做的事情就更多了。同样，在Prosus，我们是一个庞大的公司生态系统，可以帮助我们的用户在与我们的电子商务平台互动时更轻松、更好、更快地完成事情。我们看到

代理能力使我们能够在这方面做得更多。所以……

顺便说一句，我还想说，你会注意到的一件事，我们将在尝试将其应用于当前系统时讨论我们学到的东西，那就是世界还没有准备好，或者还没有为代理系统做好准备。接口是API。当然，它们存在，但它们并非为代理与之交互而设计的。好吧，它们也经常崩溃。即使只是对于天气，天气API，也很难获得非常可靠的API。你可以去寻找，只是得到那个天气

你认为这是一个已经解决的问题并且很简单，这很难。因此，试图更深入地研究并获得更复杂的API，或者每个API都不同，并且不断变化。对。如果你没有及时了解这些变化，或者没有确保你有一些方法来保持你的代理最新，那么你将面临一个充满痛苦的世界。没错。在这里向唱诗班布道。

我还想谈谈Prosus与不同公司合作的方式，因为我倾向于把我认识的所有创业公司的人都推荐给你

因为你处于一个非常独特的位置，这个位置是你拥有大量的用户、大量的机器学习人才，并且你知道需要解决哪些问题。因此，有来自投资组合公司的用户，也有内部用户，因为Prosus集团非常庞大。也许我们可以稍微多谈谈这一点。

在我们开始之前，因为这可以更深入地了解代理对你们来说如何有价值，以及你们如何知道实际上值得做的事情与不值得做的事情。是的，这是一个很好的观点。所以因为我们作为Prosus的设置是，我们是欧洲最大的全球科技投资者。

在世界各地开展业务，对吧？我们在印度和巴西提供送餐服务，在东欧提供分类广告，在美国提供教育技术，在南非提供媒体，以及许多其他公司，集团大约有100家公司，所有这些公司都具有科技角度，都有自己的科技中心和人工智能团队。

我们处于一个非常独特的地位，能够与他们密切合作处理许多主题。我们的重点当然是人工智能，现在越来越多地关注代理，以弄清楚我们如何解决实际的用户问题。正如我提到的，我们在集团中拥有大约20亿消费者。

20亿。这是一个很大的群体，他们遍布世界各地。每次你这么说的时候，我都会回应……今年是20亿，明年可能是30亿。哦，我的上帝。我们相信……

我们正在构建的代理系统将能够解决我们的许多用户问题，帮助预订、使交易更容易、找到他们正在寻找的正确产品、更快地学习。所以……

所有这些，让我们说，实际的用户问题是我们试图解决的问题。当我们，你知道，我们在Prosus的人工智能团队位于阿姆斯特丹。我们的工作是与集团公司的人工智能团队密切合作，帮助他们基本上加速我们认为对集团特别是在电子商务领域非常有价值的一些酷炫用例。在这样做的时候，我们……

通常会确定问题是什么。因此，当你在生产中构建遗传系统时，你知道，我们谈到了所有问题。你需要使其负担得起。你需要使其安全。你需要使其可扩展。因此，确定我们要去寻找的问题，

知道是否有人将其作为产品或解决方案提供，所以我们通常会与这个领域的创始人、初创公司交谈，当我们喜欢他们正在做的事情时，我们知道要么与他们作为设计合作伙伴合作，要么投资他们，我们有很多例子，这在设计合作伙伴方面很酷，它非常有价值，

拥有一家如此先进并了解重要事物的公司。然后只需能够与你们所有人一起插入。我知道我介绍给你们的一些公司，他们会回到我这里，然后说，哦，我的上帝，非常感谢你。因为同样，我们这样做的全部原因是……

我认为你们在代理方面做了一些最先进的事情。当公司成为设计合作伙伴时，他们可以看到你们有多先进。因此，如果他们在技术前沿，他们……

可以看到你们正在做的事情的规模，然后识别他们的技术是否能够承受这种规模。是的，我认为这是一个有效的观点。我认为我们今天面临的问题可能是许多其他人很快也会面临的挑战，无论是在几个月还是几年后，因为他们也开始在规模上构建这些生产系统。其中一件事是成本，对吧？这是一个。是的，这是一个很好的例子，我们一直在持续建模技术

代理系统在生产中的影响是什么？我们最初看到的数字只是每个标记的成本。但你意识到这并不真正具有代表性，因为当你使用代理来回答问题或完成任务时，它们会使用更多标记，可以做更多的事情。我们衡量了内部助手标记，你谈到了它们为每个用户节省了多少时间，对吧，每个问题。所以这些系统可以做得更好。

它们消耗更多标记，因此它们变得更昂贵，但你从中获得的价值更高。所以我们对这些事情进行建模。顺便说一句，我公然窃取了这一点。我从你们在“生产中的代理”会议上获取了这一点，并根据其他一些风险投资家发表的博客文章做出了回应，他当时说的是你在互联网上看到的所有叙述，当新的模型出现时

或者来自OpenAI或Anthropic的新更新出现，他们说：“每个标记的成本正在暴跌。”所以我采用了你们的，或者Euro的，会议上其他演讲者的见解，那就是，

每个标记的价格正在下降，但每个答案的价格实际上正在上涨，因为我们正在进行这些复杂的系统以及你正在进行多少LLM调用。我们都直觉地知道成本下降了。好的。但我们对此进行了衡量，对吧？哦，很好。为了让你了解一下，在去年夏天，我们研究了我们使用多少标记来回答我们内部助手中的特定问题。它上升了150%。

所以每个问题的标记数量增加了一倍多。与此同时，在同一时期，大约三个半月的时间里，每个标记的成本下降了大约50%。但是因为我们正在回答的问题或我们正在用标记完成的任务也变得更

我们为人们节省了更多时间。他们使用得更多，对吧？他们也使用得更多。然后每个用户的标记数量就会增加。因此，最终，我们拥有的标记预算实际上增加了。对吧？然后我们衡量每个问题节省了多少时间，这也增加了。

增加。所以我们实际上对这些进行了建模，并且拥有实时见解。我们将根据质量、成本、排行榜等对各种模型进行基准测试，你知道的，等等。我们将讨论这一点。但有一件事是每个人都知道每个标记的成本下降了。

但是你从中获得的投资回报是多少，对吧？所以智能的投资回报率是否下降，但是当你构建遗传系统时，你从这种智能中获得的回报是否会发生变化等等？所以我们能够在各种工具中衡量这一点。每单位智能的成本。是的，这是描述标记的一种方式，对吧？所以你有一个标记只是一个……

基本上是生成的一部分，它是一个具有某种智能的系统……总之，我们看到每单位智能的成本长期来看趋于零……是的，我的意思是，我认为我们查看了，我们讨论了这一点，在市场上，两年前与GPT 3.5等效的标记成本下降了98%。

但当然，我们现在有了更复杂的模型，获胜的推理模型等等。但你问我我们与哪些公司合作，对吧？所以我会给你举一个例子。

我们了解到，我们看到，当你构建获得更多自由度的系统时，因为它们是代理的，它们可以做更多的事情，它们可以……——你这么说让我害怕。——是的，但它也是，好吧，它们可以想到——你说话的方式，只是——它们正在生成答案，它们正在去寻找来源。——他们有我的银行详细信息。——如果你把它们给了Tocantin，它将成为你的一个伟大的合作伙伴。它将非常安全。但我们意识到我们需要确保我们了解风险是什么。

所以我们投资了一家名为Prompt Armor的公司。然后他们的使命基本上是通过，将其视为对……

gen AI系统的渗透测试，风险是什么。所以，你知道，我们当然会与他们合作，我们投资了他们。所以试图让我的代理为其他人购买东西。好吧，这更像是安全方面的事情。所以它就像一个笔，运行一个笔测试。所以它在，它在基础设施上。它在整个系统上。所以你只是有，我认为它就像你有一个聊天机器人或系统，你，

它是珍妮的力量，可以给你答案，它可以出去尝试提示进行提示注入攻击，尝试进行数据泄露以及所有其他新的向量，基本上你打开了一个你需要理解的全新的风险表面区域，这是一个例子，

当然，我们投资它们是因为我们认为这是一个有前景的产品，但它实际上，回到Prosus生态系统，他们现在可以向集团中的每个人，所有正在构建Genii系统的人提供他们的产品。我认为这回到了我们与创始人合作的方式。这不仅仅是像传统基金那样投资他们并希望获得丰厚的回报，而是关于……

如何，你知道，他们提供的这种产品，这群创始人加入这个全球生态系统，你知道，其中1+1等于11，对吧？因为我们现在正在一起工作。他们所做的不仅仅是本身就是一个有趣的命题，而且它确保它对我们集团所做的一切都是附加的。我们经常看到这一点，并且我们正在越来越多地这样做。当然，我们的重点是电子商务，对吧？

但与人工智能的交叉点，我们正在非常密切地关注大量新的想法、命题、产品、技术和工具，以便将它们带入集团。好了，现在Floris和我们在一起了。很高兴你在这里谈论你一直在从事的所有事情。好的，Floris，那么你做什么呢？好的，是的，谢谢。是的，我在Prosus是一名人工智能工程师。

在过去一年半的时间里，我的主要关注点是代理。你知道，构建代理、测试代理、验证它们的用例以及将它们构建到实际产品中。所以这主要就像这样的循环：我们有一个想法，你知道，我们想构建这个概念验证或最小可行产品，我们想知道它是否有效。

在某些情况下，你知道，我坚持了一段时间，我实际上做了一些工作来使其投入生产。但是，是的，有很多实验。我认为你在播客的早期已经提到了应用研发。嗯。

我认为这是一个很好的定位方式。是的，所以拥有这个职位非常荣幸。我一直很好奇，因为我们过去经常讨论什么是机器学习工程师。这是否是一个正在建模的人？这是否是一个专门从事机器学习的数据科学家？现在有了人工智能工程师这个新术语。那么这是什么？就像，每天的工作是什么？你是在构建评估吗？你正在使用代理，你正在创建代理。什么是……

是的，我认为工程师的职责是解决问题。工程师会说，好吧，我们需要做这个，你知道，把它建出来。我不在乎我们如何实现它。现在的人工智能几乎都是软件。所以你一部分是软件开发者，但你也在思考，你知道，我们如何定位这个产品？用户如何与之互动？你知道，它更……

你需要做更多决定，呃，比普通的软件工程师多，因为普通的软件工程师的工作是按任务进行的，而我们，呃，或者，是的，作为一名人工智能工程师，我更像是，我正在使用人工智能来解决这个任务，以及我们如何完成它。呃，大多数情况下，这是一张白纸。是的。

或者是一个Miro白板，我们应该开始构建。我认为这就是现在的人工智能工程师。在过去的两年里，你们一直在尝试使用代理。你们在关注什么？是的，数量会比许多人预期的要多。我认为用“玩代理”这个词很贴切。我们一直在探索。这并不总是好主意。我们只是想锻炼一下这方面的能力。

但是，是的，我认为有超过20个项目与构建一个解决特定用例的代理有关，在某些时候我们认为这是一个非常好的主意。我们会回到这个问题，因为我想问很多关于你为什么曾经认为这是一个好主意的问题。但另一件值得注意的事情是，现在有多少个项目？

实际上仍在使用中，或者说是真正的项目，我想。它们通过了这个筛选。是的，实际上有两个项目成功了，但有一个需要注意的地方是，其中一些项目合并成了一个。因为这些是探索性项目，

我们看到了它的价值。但作为一个独立的功能，它就像，好吧，它没有增加任何价值。但是如果我们将所有这些捆绑在一起，或者添加到我们的Token中，它就会再次增加价值。那么，对于那些不知道Token是什么的人来说，它到底是什么？

是的，Kaan是我们的通用助手。这个想法最初有点像拥有一个额外的同事。它也从Slack开始，现在也在网络上。它一直在不断发展，仍在发展中。但它最初只是向这个代理发送Slack消息，它就会完成你部分的工作。当然，它最初只是简单的总结

现在我们正在将其构建成更复杂的系统，它可以进行完整的分析，并且你可以保存东西，是的，在Token之上构建这个项目，进行来回互动，就像你与真正的同事互动一样，另一个仍然存在至今的是SQL分析师，是的，Token分析师，是的，它主要用于SQL

是的，这个项目非常成功，因为我们确实看到了它增加了价值，并且节省了人们的时间和金钱。——是的，很好。我们会专门为此做一个完整的剧集，做一个深入的案例研究。现在，我想谈谈，你们已经看到了超过20个用例。一个即将发挥作用的代理和一个即将失败的代理的一些绿色标志和红色标志是什么？

是的，回到我之前的评论，你知道，我们捆绑了一些。我认为当我们真的在尝试，好吧，让我们尝试很多想法时。我们的一个实验是，如果我们做一个代理，可以做，你知道，更少，你知道，更具体。所以我们称之为垂直代理。

准确性会更好吗？一致性会更好吗？所以人们更信任它，也更多地使用它。所以我们进行的测试是，我们有一个分析师代理，它正在制作图表，Python，它正在读取Excel表格，进行统计分析，任何事情。

但我们看到有时在清理数据时，它会犯错误。所以他们说，好吧，让我们单独做一个清理代理。所以你首先去清理代理，它会清理。然后你可以回到分析师那里，它会进行分析。所以你有了分离。但是实际上……

人们并没有更多地使用清理代理，因为他们说，是的，但是，你知道，我宁愿它在80%的时间里一次完成任务，这比我不得不切换要容易得多。一个额外的步骤。是的，额外的步骤不值得。说得对。是的。还有什么其他的红色标志？是的，我认为……

每个代理都很难测试，说，你知道，它是对还是错。因为，你知道，我有一个同事总是说，你知道，我们正在衡量氛围。我认为这是你在构建代理时应该避免的事情的一个很好的衡量标准。如果它不是二进制的，如果它不像代码运行那样。我从编码代理和助手那里听到很多，其中一个原因是它们是一个如此强大的用例是……

代码运行与否。它编译与否。你知道人工智能生成的代码或帮助你的代理是否有效。是的，完全正确。你也可以在0.1中看到这一点。你知道，很有趣的是，你在代理中看到的与你在0.1和0.3中看到的是一样的。因为OpenAI本身……

你知道，说，伙计们，如果你想做创意的事情，仍然只使用4.0。因为4.0仍然被人类认为在创意写作方面更好。这正是由于同样的问题，0.1正在接受训练

判断对错。一旦没有对错，它就无法自我改进。所以O1在所有这些分析和更beta的任务方面都很出色。但是一旦你进入创意领域，它就……任何主观的东西。是的。这在我们看到的代理中也是如此。就像当你更偏向创意方面时，它就像……

你知道，你怎么知道它是对的？是的。是的。所以要确保无论任务是什么，都有一种明确的方法来评估任务是否执行。我认为这是一个绿色标志。你还有什么其他的红色标志？

想到的？是的，这实际上很有趣，因为现在情况似乎正在逆转，但大约一年前，我们有这个WebSort代理

这也是那些被合并到Dokkan中的代理之一。但在开始的时候，它是一个单独的代理。我仍然记得这样的反馈，是的，这永远不可能奏效，因为，你知道，延迟太大了。你知道，它正在做……

深入研究，也许你认出了他的名字听起来很熟悉，这是Gemini或Google现在正在做的事情，他们发布了这项深入研究，现在人们觉得，哦，是的，如果我得到一份包含大量来源的酷炫报告，七分钟也可以，但你知道，我们一年前也在做类似的事情，但人们说它花费的时间太长了，你知道，我不知道它什么时候完成，有时需要10分钟

我认为最大的变化是，我们当时在Slack上。所以我们无法提供这个多页文档。理论上我们可以，但在当时，这不是我们的想法。我们只想在Slack上有一条简洁的消息。这就是为什么我们说，对于这条消息来说，等待时间不值得。所以我们没有终止项目，但是……

我们没有把它作为一个代理保留下来。你知道，我们只是对其进行了一些提炼，并将其转移到更通用的代理中。这很有趣，因为我发现我自己的工作流程是，我倾向于向AI提问，然后去做其他事情。所以我在……

阵营中，我完全可以接受等待，看看会发生什么，在我完成时再回来。有时我会忘记，然后一天后回来，就像，哦，是的。是的，但我们当时正处于JetGDP成为常态的时代，你知道，它会立即做出回应。你知道，你有流媒体。流媒体在300毫秒内，你知道，第一个词就开始了，你开始阅读。

所以如果你引入一个需要等待五分钟的系统，人们就会说，不，我们不能。太多了。所以这也是公众适应这种代理做事情的观点。人们越知道正在进行工作，他们就越欣赏这段等待时间。他们实际上会说，哦，是的，但这很正常。就像你说的，你正在做异步工作。

我甚至有一些像三个标签打开，同时问它三个问题，你真的在增加你的异步工作。——多任务处理。——是的，是的，是的，是的。多任务处理现在有了新的定义。这很有趣。——哪些项目失败了？

所以我们举办了这个黑客马拉松，你知道，因为，你知道，没有坏主意，只要开发就行了。所以想法是，让我们让整个AI团队，你知道，24小时，或者是的，时间少一点，来制作代理。而这些想法中有一个我认为，是的，这将是黑客马拉松中的代理。因为它是一种想法，就像举办一个黑客马拉松。这是全垒打。是的，完全正确。是的。

我会投资的。但它是Jira代理。当然。所以它在处理Jira工单。没有人喜欢Jira。这是真的。问题是，你知道，我们看到它在工作。所以在这种测试设置中，你知道，他们用代理构建了Jira看板，他们开始添加任务、更改任务并询问有关任务的摘要。它运行得非常好。你知道，在Slack上，它非常有用。

但有趣的是，当我们将其连接到我们的Jira时，就像，好吧，我们将成为第一个测试人员。是的。你知道，它完全崩溃了。你知道为什么吗？发生了什么？是人工文本，你知道，所有这些缩写和所有这些非常简短的句子，就像人类理解所需的最少信息。

呃，它搞砸了代理，它说，你知道，这不是描述，你知道，有一半甚至没有任务的描述，但团队中的所有人员都像，是的，当然，我们正在构建这个项目，所以这必须是那个，是的，但所有这些上下文不在那个Jira代理中，这就是为什么它完全不起作用，这就是为什么我们说，好吧，你知道，嗯

让我们不要继续这个项目，因为我们需要改变太多。我想知道，如果你今天采取不同的方法，并添加某种带有Slack消息、电子邮件或其他上下文的知识图谱，你认为它是否会更成功？是的，我认为

我认为今天我会，我会做一个面试代理。首先采访团队，说，你知道，给我提供所有当前的信息。很好。然后将其转换为文档，然后，你知道，用它替换Jira代理。就像，你知道，如果缺少东西，你知道，看看我与你的同事进行的面试。是的。

也许这可以澄清。这是一个更稳定的方法。但另一种方法是，我认为这是我们将看到的更多的方法，那就是，如果你首先使用AI。因为为什么那个端口很乱？

是因为我们需要自己输入每一个字，然后你基本上是在做……呃……短信语言，你知道，你试图用最少的按键次数做尽可能多的事情……但是如果你在过去，人们在翻盖手机上发短信时，是的，而不是哦，所以我写出来，或者只添加一个表情符号，不，是的，不，但是……所以如果你

首先使用AI，你知道，你说，我用AI构建了这个看板，然后我用AI维护它，你知道，那么就有这种可能性。这就是……这就是……这就是为什么测试非常成功的原因。是的。因为，呃，测试是用AI构建的，然后用AI提问，然后它理解它自己的语言。

嗯，这也是你可以说的一种方法，好吧，你只需要强迫人们重新制作整个看板，但这将是一个看板，这将是一个完全独立的工具，它不会使用Jira或设计决策，你知道，它仍然可以使用Jira，但只是一个新的看板，呃，或者你可以制作你自己的UI，我认为这可能是我们……

我们一次又一次地学到的是，当你将这些系统引入现有工作流程或特定的工作方式时，当我们进入电子商务领域时，人们对使用模式有预期。当然，这并不令人惊讶，但正确地做到这一点非常重要。你知道，

在我们这里，我们允许Tocantin访问我们的GitHub，它会对代码进行评论等等。我们很快就关闭了这个功能，因为它太吵了。然后我们尝试了其他产品，如Code Rabbit。情况非常相似，因为归根结底，生成内容和评论很容易，而且成本低廉，但仍然需要认知负荷来处理它。你想把精力放在……

你知道，高价值信息上。所以这些事情，不是……我们的使命之一是成为最好的AI优先团队，对吧？所以我们到处都有AI助手。我们有我们自己的AI统计学家。我们有所有这些小的AI层。所以我们测试一切。但在这些工作流程中，我们经常放弃该工具，因为它还没有意义，对吧？它不起作用。我认为部分原因是我们的期望以及我们如何与团队互动

彼此以及工具，还有像Floris例子中的Jira这样的工具。它还不是为与今天的这些代理互动而设计的。也许将来会，但现在还没有。这与你之前谈到的每单位智能成本或你称之为的成本有关，是的。

你认为那不是一个智能单元。它正在输出某些东西，但它实际上是一个分心单元。是的。在这种情况下，它给我们带来了认知负荷，而你想要做相反的事情，对吧？是的。

每个正确的问题都能节省时间，但每个错误的问题都会浪费时间。这里要补充一点，回到我们有时会不经意间增加的认知负荷这个主题，我们有一个大型……

平台叫做Olex，一个分类平台，每天上传数百万个列表，对我们来说是一个自然的地方。我们所做的工作的一个很好的例子是，我们试图了解代理系统如何帮助人们交易商品。我认为ChatGPT的一个奇怪的结果是，我们尝试过，每个人都试图为X制作一个ChatGPT。对于一切，对吧？所以

当我们开始这段旅程时，我们也自然而然地说，嘿，我们需要一个用于OLX的ChatGPT，对吧？对于那些在分类广告上买卖东西的人。我们意识到，你知道，今天的人们，我的意思是，事后看来很明显，但是他们，你知道，他们访问一个网站，他们已经看到大量的图片，他们有一个搜索栏，这就是他们发现的方式。然后我们说，你知道吗，我们将要，你知道，引入一个对话代理。

但是你现在给这个用户带来了多少认知负荷呢？这个用户需要进来并说，我正在寻找一件适合我家的家具，风格是这样的，它需要在……人们根本不会使用它。所以有一个巨大的……

让我们说，下降是因为我们引入了额外的摩擦，人们输入信息的认知负荷。即使他们使用了它，他们也会输入蓝色沙发。是的。所以它与搜索相同。所以它变成了，它只是一个搜索栏。然后代理会带有500个令牌的问题和内容。然后用户会说，是的，

更便宜。还有一个线程我想拉出来，你谈到了代理项目进入生产的不同层次。一个是你的设计方式。

作为这个代理的创建者，你做出了某些设计决策。然后另一个是它后来投入生产，也许它增加了认知负荷。但它也可能增加了用户的认知负荷，因为他们不知道如何正确使用它。或者因为它是一个糟糕的项目。

所以你必须稍后决定是哪一个。我们需要更多地教育用户，还是只需要终止项目或做出不同的设计决策？是的，我认为Paul的蓝色沙发例子很棒。就像，你知道，所有参与该项目的开发人员都很好地填写了完整的提示，你知道，就像输入一样，嘿，我想要这个看起来像这样的沙发。

当他们确实将其提供给真实用户时，他们就像蓝色沙发。事后看来这似乎如此清晰。当然，我不希望填写表格。如果我可以用一次点击完成，那比打字要好。现在，还有另一面，我认为我们构建这些代理时学到的东西是，

这些系统具有更好的理解复杂查询的能力。因此，一旦你输入像现代沙发这样的东西，今天大多数搜索引擎都会失败。但是基于Gen AI的系统实际上可以理解什么是现代的，以及它可能是什么样子或感觉。所以我们利用这一点，并说，好吧，实际上我们需要以这些代理可以链接更复杂查询的方式来表示我们的目录

无论是现代沙发在分类空间中的例子，还是在食品空间中，你可以说一些清淡健康的东西。像今天任何食品订购平台上的任何搜索引擎都不知道如何处理这个问题，对吧？但我们实际上可以。像这些大型语言模型可以建议一些清淡健康的东西，给我五个关于它看起来和感觉如何的建议，但它们需要将其与

底层目录相匹配。然后你需要一个系统来做这种我们所说的魔法或智能搜索来检索它。然后你还有另一层，那就是，如果我们实际上可以理解这一点，并且我们想要克服这种摩擦，那么在我们工作的世界上有一些地方，比如巴西和印度，人们使用语音。所以如果人们可以通过语音说，嘿，我今晚在我的家里为两个人寻找一顿快餐，

这相当轻松，对吧？如果你可以通过语音信息发送它，并且代理实际上可以解读它并说，哦，房子在那里。这就是他们住的地方。这就是……我的意思是，这些是能满足两个人需求的饭菜。所以你实际上可以使用用户提供的更非结构化、不同的输入模式，将其提供给代理。他们可以处理它并将它转换成一组项目，然后可以呈现给用户。所以有，

因为你拥有更强大的推理能力、多模式等等，所以打开了其他机会。是的，是的，我喜欢这一点，你不需要以传统的方式思考。越来越清楚的是，

如果你试图将代理融入旧的工作流程中，它几乎感觉像是一个方钉进圆孔的情况。但是当你开始跳出框框思考，并且你认为，好吧，既然代理几乎可以处理我们扔给它的任何东西，我们可以尝试制作什么，这是一种新的工作流程，而不是

用户还没有接受过如何使用应用程序或如何与这个或那个交互的训练。所以你不可避免地会在那条路上遇到死胡同，我认为你看到了一个美化的搜索栏。但是就像，是的，语音笔记听起来令人难以置信。如果我可以向一个代理发送语音笔记，它会一直给我建议，这是一个非常棒的用例。

还有什么其他失败的用例吗？这就是我想听到的。我们想回到墓地。是的，我想听更多。万圣节剧集。因为这几乎就像在那里可以获得最好的经验教训，对吧？你总是看到人们写博客文章，尤其是你这样规模的公司写

他们正在写关于成功的博客文章，但你并没有真正听到公司谈论墓地以及他们为了取得成功所做的事情，呃，我认为我还有一个……呃……很有趣，因为通常我们总是非常关注肯尼思技能，但这里有一个例子，我们忘记了这一点，呃……它也最终进入了墓地，但它是……我们称之为UX研究员

所以我们有真实的人带着问题来找我们。他们说，“嘿，我们作为产品评论或评论收到了所有这些开放式问题，但数量太多了，我无法处理。我们可以构建一个系统吗？我们可以构建一个代理来处理这些评论吗？”

并对其进行总结。例如，告诉我人们最讨厌我们网站的三个功能。你知道，这些是我们预见的问题。我们说，好吧，这确实是代理可以解决的问题。而且，是的，

当我们开始使用它时，我们构建了这个分析的整个工具，它一行一行地进行，进行map reduce。所以它首先检查子类别是什么，然后将其划分为子类别，然后对于每个子类别，根据用户的目标，找到……

答案。所以它结合了所有这些技术。它非常花哨。等等，我可以在这里停一下吗？因为它，它是每次都有明确定义的工作流程，还是你询问代理，代理会首先确定工作流程？

自己？所以它可以操作哪个工作流程，但它非常重复。好的，所以它几乎自己选择工作流程。是的。这就是代理部分发挥作用的地方。你知道，我们用……你知道，像100行、1000行的Excel进行测试，我们正在测试这个，它运行良好。然后我们又回来了。而且

他们正在询问100,000行的Excel。而且……

它做不到，你知道吗？它就像……我们知道它会很大，但我们认为是100或1000，你知道吗？因为它可以在没有任何复杂性的情况下完成10个。所以我们已经将其乘以100。但这令人沮丧。最糟糕的是，我们也是一行一行地设计这个，而且……

他们的答案是垂直的，他们只是转置了他们的整个表格，这也破坏了整个事情。这只是一团糟，因为我们认为我们非常热情。我们说，这是一个很好的用例。我们看到了解决这个问题的所有方法。但我们完全忘记了如何，

他们将如何解决它并询问，我们没有问足够的问题。基本问题。是的。我们说的是多大尺寸的文件？是的，是的，是的。所以，但是没有一个时期，你知道，我们就像，你知道，没有愚蠢的想法，你知道，我们只需要制作代理、代理、代理，看看什么有效。是的。

是的。你确实提到了你为什么有这种心态的原因，我认为这很酷。你们都认为这就像去健身房，你们正在锻炼创造代理的肌肉。你们试图弄清楚

如何创建这些新的工作流程，这些新的以代理为首的产品。是的，因为在某些时候，如果你制作了足够的代理，你知道，这就像学习物理学。你知道，如果你在物理学中学习了一些新东西，你会在现实世界中四处走动，你会看到这个公式在现实生活中形成。

代理也是如此。你知道，如果你构建了一些代理，你将不会，如果你进入一个网站，你知道，而不是看到UI，你知道，你开始看到工具。是的。你知道，

你知道，你就像，嘿，这可以是一个工具，这可以是一个工具，然后我有一个聊天窗口，然后我可以删除整个UI。你知道，这就是你开始思考的方式。直到用户要求一个蓝色沙发。是的。但就像，有一种全新的思考和看待事物的方式。这是你需要练习的东西，因为我第一次看到代理时，你知道，我记得我，我在Process工作了一周，我坐在这个房间里，我就像，

我们只知道，我们要测试一个新的代理。你知道，艾哈迈德构建了这个，它是一个分析师，它做了所有这些模式分析。他们只是给了聊天窗口，然后说，祝你好运，去测试它。我们需要进行负载测试。它能扩展吗？等等。这太棒了。你知道，它，它就像，我不知道，呃，

我不知道它是如何做到的，但它做到了。而且，呃，但它也像，你知道，它的极限在哪里？你知道，一开始真的很难找到这些，因为你不知道系统是什么。而且你越，那时，你，

你只是做了一些事情，但你真的看到在用了三个月并开发它之后，你知道，你在测试它方面更好，好得多，找到那些极端情况，因为，好吧，这就是它的工作方式。所以这就是我如何惹恼它，或者这就是我如何，呃，确保它工作，并且，并且，

看到这种能力的增长非常有趣。让我补充一点，因为你问我们为什么要这样做，对吧？这正是对我们来说，我们需要了解是什么让这些东西起作用，为什么这对我们普罗苏斯来说很重要，因为我们从根本上相信这些东西

代理将能够帮助我们为我们的用户构建更好的产品。我们已经对此做出了预测，对吧？你在市场上。所以我们做出的一个预测是，一年后，我们平台上 10% 的操作将由代理代表我们的用户完成。

这是一个相当大胆的预测。无论是在 12 个月后还是 36 个月后，它都会发生。我们对此相当有信心，因为这些系统，你知道，如果你能可靠地为你做这件事，为什么不派你的代理去帮助你获得你需要的任何东西，无论是食物还是其他东西呢？但我们只有完全掌握这项技术，并拥有非常好的直觉才能构建这些东西，你可以看到弗洛里斯是如何工作的。

你知道，基本上是尝试了很多东西，你知道，与团队的其他成员一起开发了这种直觉，是的，我们说我们还没准备好，但这确保了我们可以构建的工具能够让我们达到 80% 的准确率，我们测量了这些东西，测试了工具等等，这就是更大的图景，为什么它也很棒，你知道，它，呃，我只是，我只是想玩它，是的，这是一个哇效应，你知道，我认为

代理不会给我这种哇效应，我认为在它被移除之前仍然会是一个哇。所以也许你可以给我们一些战术性的东西，当你将代理投入生产时，你想确保你已经覆盖并检查了所有方框。你学到了一些什么或者你做过什么来帮助你实现这一飞跃？

在 B2C 方面，我认为有些人比我更了解。但我们确实与一些围绕数据的代理合作过。所以数据分析师。在那里，我们真的看到了提示和安全性的改进，当我们重复时，你知道，在我们给出答案后，就像我们在这些假设下给出了这个答案，对吧？

所以，因为我们真的试图问尽可能多的问题以确保它不是一个模棱两可的问题。但这很难。而且仍然有一些问题出现，比如，这种防御机制。但是，

最后，我们想，好吧，让我们总结一下，说，好吧，你提出了这个问题，你知道，我做了这个。这意味着我做了这些假设，并在底部列出这些也是一种安全的方式，说，你知道，也许我犯了一个错误。

因为你想尽量减少错误，尤其是在进行数据分析时。因为我们想将这个工具定位为，你想根据它做出决策。你想让每个人都能根据数据做出决策。现在，这些决策越好越好。所以这些机制之一就是假设。我认为我们还没有在其他工具中看到过。

所以你只是在提示的最后一步询问，比如告诉我们你做了什么，告诉我们提示是什么。是的，这是一个单独的机制。它不是代理本身。我们真的想让代理做它的事情。但是有一个第二个 LLM 调用或代理调用，它基本上会回顾这些步骤，并说，好吧，用户从这个问题开始。

但我看到你还在 SQL 查询中添加了这个过滤器，我看到你更改了日期格式，你知道，也许这会改变一些事情，你知道，所以它就像一个校对者，基本上就像在它发送回用户之前的一层检查和验证，是的，它正在批判一切，但它并没有说它是对的还是错的，你知道，但它会添加到用户，我做这些假设是对的吗？

因为这些假设大多是因为没有其他方法来计算它。或者是因为我们在代理中添加了一些规则和一些文档，你知道？好的。我还想完成的一件事是……

你对提示演变的看法？它已经走了很长一段路，你知道。所以，就像，我第一次以某种类似助理的方式使用大型语言模型时，它就像 NeoX。这是一个开源模型，200 亿个参数。我记得，你知道，提示它，就像我在写论文一样，然后在某个时候停下来，然后它会，像，完成一些复杂的问题。嗯哼。

因为它会做，它会写一篇论文来回答这个问题，这非常棘手，你知道，它，它，它基本上是我们在欺骗 LLM，你知道，然后，呃，3.5 的达芬奇来了，我们仍然需要这些技巧，我们需要例子，我们需要某种程度上把它按摩成这种模式，是的，而且，呃，

然后是指令模型的时代，你知道，这是 ChatGPT 的开始，你可以直接问一个问题，它会理解这是一个指令。但是这种发展一直在继续。所以人们认为，好吧，一旦你可以问一个问题，它就能工作。但我们在这些系统提示中看到了，正如你所说的那样，你知道，一开始我们需要

告诉他们每一件事，比如 Python 是如何工作的，比如你如何使用，比如你如何友好，比如你在你的消息中如何使用表情符号，你知道，就像我们在写我们想要持续看到的最小的更正一样，我们需要写下来，所以它有大约 3000 个令牌的系统提示，甚至更多，呃，对于一些代理来说，但是

随着时间的推移，你知道，我们一直在努力将这些提示从一个模型转换为另一个模型。但我们实际上看到的是，如果你只是删除了一切，你知道，然后重新开始，就像，你知道，用空的提示，然后添加确实失败的部分，你最终会得到一个更短的列表。嗯。

所以实际上发生了什么，你知道，OpenAI 正在训练这些模型做得越来越好，并且在做许多这些事情，人们强迫它成为代理或模型的原生行为的一部分。这是一个我真正看到的趋势。如果我现在构建一个代理，你知道，我实际上是从三行系统提示开始的。哇。

在 3.5 的时代这是不可想象的。我认为那是一个关于提示的非常好的概述，对吧？从这些只是愚蠢的令牌、下一个令牌预测器、核心自回归函数的基本模型，到实际的指令微调。好吧，实际上，你首先有少样本学习，然后你有了指令微调，然后你有了对齐，现在你有了……

你知道，现在你有了 O1，它基本上会做，你知道，在实际开始执行之前进行思维链的建议，但是

因为我们正在谈论代理，我们也看到，如果你看看我们在我们的代理系统中使用的提示，它们本质上是，你知道，它就像一段代码，你开始插入各种参数，对吧？所以它基本上就像动态提示构建或，你知道，复合提示构建，你为来自代理的各种事物设置了占位符。

是的。它可以是，你知道，关于会话、上下文、用户或任何其他信息。但当然，你还有你需要描述的工具和函数调用，你知道，弗洛里斯描述的方式，我认为是绝对正确的。就像现在我们，你知道，你不能放入 2000 个。

函数并描述它们，它还不工作，你可以做几个，我们知道根据模型的最佳点在哪里，你发现它像 10 个吗？这取决于模型，但不是，你可以做更多，这取决于函数的复杂程度等等，如果你需要链接函数，如果它们看起来很相似，你知道，如果它们相距甚远，你可以添加任意数量，当它们看起来很相似时，对吧，它就会感到困惑，就像，是的，这是相同的，不是吗？

所以我们在评估方面构建了，一，它是否真的能够在正确的时刻选择正确的函数？但下一步是，你选择了正确的函数。它是否能够为该函数提供正确的参数以执行？通常，如果你进行代码执行，你需要参数。如果你访问网络，你需要参数，对吧？搜索查询等等。

这是一个第二次评估，对吧？你是否真的能够确保当你确定了正确的函数后，你传递了正确的信息来返回？现在，所有这些东西都来自那个提示，对吧？所以，事实上，你关于这个提示如何改变的问题与构建代理的人们非常相关，因为你思考提示的方式和……

围绕它的编排，你输入什么信息，如果你在代理工作流程中进行工具的顺序链接，你得到什么信息。所有这些东西都需要某种方式，它是非常有状态的，对吧？它需要存储在某个地方。它需要被管理。所以无论如何，我们已经陷入各种各样的困境，因为如果我们试图让这些东西工作，

当你更改模型、添加工具时。破坏一切。好吧，是的，你需要确保你理解什么被破坏了。当它破坏时，你学到了一些东西。我认为这非常重要。我认为这是我问那些制作了一些代理或代理系统的人的第一个问题，就像，它不能做什么？

因为这非常非常重要。这是我们在一个项目中看到的东西，我们不断地知道它不能做什么。所以我们知道那是我们的下一个目标。

然后，你知道，我们可以，我们能够做到这一点。然后我们，你知道，花几分钟时间思考，好吧，它现在在哪里崩溃了？是的。然后就像，好吧，那是我们的下一个目标。然后你继续前进，从一个目标移动到另一个目标，直到你像，好吧，这些任务是极端情况，但我们仍然知道它在那里不起作用，但这超出了限制。好吧，这回到了二进制执行，对吧？因为你知道，它是否完成了任务？

是的，完全正确。就像二进制一样，你知道，很多人说对与错，但实际上是任务完成，你知道，如果我有八个步骤来完成一个任务，你知道，我并不真正关心它是如何完成任务的。你知道，我只是想以一定的稳定性完成任务。所以这也是一个二进制的事情。它不必像，是的。有那个，但也有……

几乎更高的观点是，这些是否是正确的任务？如果你要求代理做某事，它可能会完成所有任务，没问题。但是……

这些任务没有关联，这是一个很好的例子，你也可以知道，如果你把时间倒退，如果你浪费更多时间试图让那个任务工作，是的，呃，但它随后被自动化了，你知道，这也有点像，那么它值得吗？我认为检查它并确保它工作的认知负荷需要得到控制，呃，在它提供的价值中

我认为你在播客早期提到的，你知道，电脑使用，网络使用，你知道，我认为我们正处于一个阶段，我们将说，好吧，它可以做到。

但我可能会自己制作那个数据透视表，因为输入它可能需要更长的时间。我想使用我的电脑。是的，而且我不想坐在它后面。这也是一个，如果你不能同时操作电脑，它是否节省了你的时间？或者你需要一台第二台电脑只是为了你的手。我的意思是，对我们来说，我们通常认为先让它工作，然后让它变快，因为用户不喜欢等待太久。

然后让它便宜。我们通常总是推动前沿，它能工作吗？所以，你知道，启动 10 个，你知道，基本上会尝试解决你的任务的代理，并且无论哪个先完成，都是完全可以的。因为，你知道，拥有正确的答案比拥有，你知道，9 个或 10 个这些东西并行地做这件事的成本更高。

所以我们总是试图突破我们可以让它工作的界限。对于流程本身来说，了解哪些任务可以通过 AI 解决也很有趣，因为这样我们就知道有一个时间因素，在 X 个月或几年内，这将从成本角度来看是可行的。所以我们只需要知道它可以解决。但它是否是正确的时间，则是另一个问题。是的。

非常感谢普罗苏斯团队的透明度，因为很少有公司会谈论他们的失败，尤其是那些在人工智能领域如此庞大并且真正帮助我们其他人学习他们有时不得不痛苦地经历的事情的公司。

提到他们正在招聘。所以，如果你想和我们刚刚谈到的团队一起做一些很酷的事情，甚至更多，那就联系他们吧。我们会在节目说明中留下链接。如果你是一位正在寻找优秀设计合作伙伴的创始人，那么我强烈建议你与我们联系。我们会在节目说明中留下所有这些好东西的链接。

The Agent Landscape - Lessons Learned Putting Agents Into Production 01:08:40 Share

MLOps.community

Deep Dive

Shownotes Transcript

The Agent Landscape - Lessons Learned Putting Agents Into Production