What Is an AI Agent?

2025/5/22

a16z Podcast

AI Deep Dive AI Chapters Transcript

People

Guido Appenzeller

Matt Bornstein

Yoko Li

Topics

Guido Appenzeller: 我认为目前对于AI Agent的定义存在很大的分歧，无论是在技术层面还是在市场销售层面。最简单的Agent可能只是一个在知识库之上的提示词，而另一种极端情况是，Agent需要接近AGI，具备长期存在、学习和独立工作能力。但是，我认为目前市场上的Agent更多是周末演示版本，而非真正解决十年难题的方案。 Matt Bornstein: 我认为“Agent”只是AI应用的另一种说法，现在任何使用AI的东西都可以被称为Agent。Agent最清晰的定义是能够进行复杂规划并与外部系统交互的系统，但目前的LLM已经具备这些能力，所以Agent的界限变得模糊。我期待看到有人真正投入十年时间，将Agent定义为数字形式的人并使其真正发挥作用。 Yoko Li: 我认为Agent这个术语的含义因人而异，探讨其不同含义和利用方式很有意义。Agent行为可能包含规划和决策等要素，并且通常需要LLM的支持。从外部来看，经典函数和Agent可能无法区分。Agent有两种类型：一种是取代人类工作，另一种是低级别的系统进程。

Deep Dive

Chapters

The term "AI agent" is highly debated, with definitions ranging from simple wrappers around LLMs to near-AGI systems. The discussion explores the spectrum of agentic behavior and the challenges in defining agents precisely.

Multiple definitions of AI agents exist, ranging from simple prompt-based systems to near-AGI.
There's a wide range of "agentic behavior", from simple tasks to complex planning.
The term is often overloaded and lacks a universally accepted definition.

Shownotes Transcript

今天，我们讨论的是目前人工智能领域中最热门、最令人困惑的术语之一：智能体（agents）。它们只是大型语言模型（LLMs）的精美包装、成熟的自主工作者，还是介于两者之间？A16Z信息合伙人Guido Appenzeller、Matt Bornstein和Yoko Lee对智能体的技术定义、定价模型、用例以及为什么该术语对不同的人意味着如此多不同的东西进行了细分。

如果您正在构建、购买或只是好奇智能体是什么和不是什么，本集适合您。让我们开始吧。提醒一下，此处的內容仅供参考。不应将其视为法律、商业、税务或投资建议，也不应将其用于评估任何投资或证券，并且并非针对任何A16Z基金的任何投资者或潜在投资者。

请注意，A16Z及其关联公司也可能持有本播客中讨论的公司投资。有关更多详细信息，包括我们投资的链接，请访问a16z.com/disclosures。我认为有些事情可能……

很容易说，那就是A，存在大量分歧。什么是智能体？我们已经听过很多不同的定义，我认为在技术方面也是如此，在某些情况下，在市场营销和销售方面也是如此，因为与之相关联的是一些销售模式。因此，让我们从技术方面入手。我认为这里存在某种连续性。

您知道，我听到的最简单的智能体定义基本上只是某种知识库或某种上下文的巧妙提示，它具有这种聊天类型的界面。因此，从用户的角度来看，这看起来就像人类代理一样，对吧？例如，我问它，嘿，我的产品XYZ出现技术问题。它查看知识库并返回预设的回复。

但不必有知识库，对吧？它甚至不必是知识库。我明白了。知道了。好的。所以它可能只是一个训练好的模型。所有知识都在模型权重中。所以它更简单。所以智能体可能只是一个LLM。对。但通过某种定义，是聊天界面或类似的东西，对吧？我认为在频谱的另一端……

有些人基本上说，要成为一个真正的智能体，它必须非常接近通用人工智能（AGI），对吧？它需要长期存在。它需要能够学习。它需要一个知识库。它需要独立地解决问题。如果您采用最广泛的定义，是否可以说它还不奏效？我认为是这样。它还不奏效。它会永远奏效吗？这是一个哲学问题。好的。公平的。非常公平。非常公平。

因此，如果我们采用两者之间的连续统一体，是否至少有一种方法可以将其细分为几类，也许是代理行为的程度？以及不同类型的智能体。有一些艺术智能体可以帮助艺术家想出新的、更繁忙的曲线。有一个编码智能体，我们喜欢称之为当天的智能体。我们用，是的。是的，我们用。

有一个智能体只是LLM之上的一个包装器。没错。我可能是这个小组中的反对者。好吧。听着，我认为智能体只是人工智能应用程序的另一个说法，对吧？现在任何使用人工智能的东西都可以成为智能体。在我们开始这次谈话之前，我实际上只是上网刷新了一下关于一些更有趣的人工智能智能体观点。我找到了一篇非常酷的文章。

Karpathy几年前发表的关于智能体的演讲，我可以稍微描述一下。但真正有趣的部分是在YouTube推荐的下一个观看视频中，就像人工智能智能体将彻底改变您的生活方式和超级人工智能的兴起一样，您知道，这就像市场营销一样。所以我确实认为这就是很多方面正在发生的事情。我见过的最清晰的智能体定义就是能够进行复杂规划的东西

以及与外部系统交互的东西。这个定义的问题是，现在所有LLM都在做这两件事，对吧？在许多情况下，它们都内置了规划功能，并且它们至少会从互联网上获取信息，也许是从通过MCP或其他协议公开信息的某些服务器上获取信息。因此，界限非常模糊。而且，你知道，Karpathy的演讲如此有趣的原因是，他基本上将它与自动驾驶汽车联系起来，并说，

人工智能智能体是一个真正的问题，但这就像一个10年的问题。这就像我们需要努力解决的十年问题。我认为我们现在在市场上看到的大部分内容都不是这个问题的十年版本。这就像这个问题的周末演示版本。这就是为什么我们会产生如此多的困惑。您拥有这种定义不明确的模糊事物，LLMs随着时间的推移会不断吞噬它。所以我认为我们拥有的任何东西都不是真正的智能体。智能体本身可能是一个定义不明确且负载过重的术语。但如果有人愿意努力工作

并准确定义它类似于数字形式的人类，并花费10年时间使其真正发挥作用。你知道，这就是我期待看到的。好的，所以定义智能体是一项艰巨的任务。也许谈谈人们如何使用他们称之为智能体的工具以及代理行为的不同程度更容易一些。

我想知道对话的一部分是否在于重新定义智能体，因为我们都知道智能体作为一个术语并不是一个很好的术语。它对很多人意味着很多东西。如果剖析它很有趣，例如，我们的意思是？不同的人在说智能体时是什么意思？我们可以利用我们称之为智能体的这个过程的不同方法是什么？在我看来，如果我们试图定义智能体，或者甚至代理行为的程度，这可能更容易一些，

它具有一定的用户界面方面，对吧？其中一些纯粹的副驾驶，用户基本上来回

与LLM一起处理特定任务，这通常不被称为空智能体。公平吗？副驾驶与智能体UI模型之间存在一些差异。是的，我想我们认为构成代理行为的要素是什么？正如Matt提到的，规划可能是一个。智能体可能会做出决定。必须在某个地方有LLM。

但我很好奇你的看法。我认为我们最近从Anthropic听到的另一个定义是，智能体是在循环中运行并使用工具的LLM，对吧？这有两个重要的部分。一个是它不仅仅是一个简单的提示，甚至不仅仅是一个简单的静态函数。

提示序列，对吧？但某些东西，LLM会将提示的输出反馈给自己，并据此决定下一个提示是什么，以及何时中止，例如何时完成任务。我认为对于真正的智能体或更具代理行为的智能体，我认为这是一个相当不错的定义。我认为另一件事……但仅仅根据这个定义，难道不是每一个……

聊天机器人在这个世界中实际上都是智能体吗？例如，如果我只是去chatgpt.com并使用他们的最新推理模型进行网络搜索，对吧，它是否正在使用工具并像馈送一样，你知道，将它的输出馈送到新的提示中以进行某种思维链。思维链介于两者之间。如果它只是一个返回结果的简单提示，那么它就不会具有这种规划和执行更长期概念以及自行决定何时完成的概念，对吧？

如果您有一个思维链推理，我正在执行更复杂的任务，这开始看起来很生气。我只是认为这真的很困难

根据某人对它的说法来定义系统，对吧？因为这些都是根据设计进行的非结构化输入。这些系统会接受任何东西。因此，当然，如果您告诉它，今天的风怎么样，我会同意这不是代理行为，对吧？这只是从API中获取，你知道。如果您要求它定义一种新的天气哲学，对吧？它会很乐意去做，对吧？所以如果你问它一件事，它就是一个智能体，但如果你问它另一件事，它就不是一个智能体。我认为这就是市场上很多困惑的原因。

围绕这一点。而且，你知道，如果我们用你刚才提到的术语来说，Guido，例如，嘿，这是一个循环中带有工具的LLM，我认为这实际上是一种更有成效的谈论方式。是的，是的。我的意思是，话虽如此，似乎我们在某种程度上看到用户界面的专业化朝着两个方向发展，对吧？例如，光标或类似的东西，它真正强调了用户之间的紧密循环，用户和LLM以及我正在处理的事物之间的紧密反馈循环。

所以我想在做某事时立即获得满足感，所以响应时间很重要。然后是更多后端源代码管理系统类型的插件，它更多的是通过可能回答几个问题来将某些东西扔过墙，然后您尝试最大限度地延长智能体可以独立工作的时间。所以看起来……我认为你是对的，没有清晰的系统定义

定义分为两部分，但似乎存在一些用户界面专业化。这是一个公平的陈述吗？对于我们描述的所有用例，似乎所有智能体都具有一种元素，那就是推理和决策。你会不会打电话给LLM说，把这段文字翻译成JSON？这可能不是智能体。

但是，如果您要求LM说，嘿，决定这个回复去哪里并为我路由它，它比以前更像是一个智能体。所以它几乎感觉像规划。我实际上不确定。智能体需要规划还是需要决定？也许两者兼而有之。

我实际上觉得它是一个具有决策树的多步LM链。动态决策树。动态决策树，是的。我认为这是公平的。我认为我们都被书呆子狙击了。我只是认为，你知道，这就像人文主义者喜欢分类，你知道，他们对不同类型的

事物、实体等等进行细致的区分。我们是计算机科学家。就像，你知道，人文主义没有什么错，但我们不是那样。所以我认为当它不仅仅是零或一，而可能是介于两者之间时，我们并没有做好准备，我们只是谈论了很多。我们喜欢尝试将其强制转换为一个值或另一个值。是的。当然，智能体不仅仅是纯粹的技术。它们也正在成为产品，这意味着它们需要进行营销。某人如何定位他们的产品会对其定价产生重大影响。

此外，任何给定智能体的最终价值（对于绝大多数智能体而言，这还有待确定）在于它们实际上能够取代或仅仅增强人类劳动者的程度。

有一个有趣的观点，我认为智能体存在营销角度。我从几家初创公司那里听到过这种说法，他们基本上说，嘿，你知道，我们可以将我们正在构建的软件的价格定得高得多，因为这是一个智能体。因此，我们可以去一家公司说，您正在用这个智能体取代一名人类工人。这位人类工人每年赚5万美元。因此，这个智能体，您每年只需花费3万美元即可获得。这听起来很荒谬。

乍一看确实很有说服力。实际上，我的意思是，在早期阶段它确实有一些价值，因为它本质上非常容易理解

对于必须做出购买决定的人来说，比较价格，对吧？现在，另一方面，我们都知道，产品的成本随着时间的推移会趋于生产的边际成本，对吧？因此，今天，如果我过去使用翻译器，也许是为了翻译一页文本，今天您使用ChatGPT。我没有像付给我的翻译员那样付钱给ChatGPT。我支付了极少的一小部分，对吧，这是通过API支付的，这是实际成本。所以我有点想知道，

有多少关于智能体的争论是由市场营销和定价驱动的？我只是认为这是一个非常有趣的话题。你能想到哪些领域实际上正在遭受人工智能或人工智能智能体的完全替代？这是一个设置，我会警告你。我稍后会说另一个极端的观点。但是你能想到哪些领域实际上正在发生这种情况吗？不完全是，但绝对是部分的。因为有很多，例如，语音智能体取代了语音。

接待员？我不知道我们是否应该命名。取代那些会回复客户的人。因此，肯定有很多工作量已经从传统上做这项工作的人那里转移了。但我认为

我认为他们并没有被完全取代。他们可以，你知道，他们可以做其他事情。但我们确实看到某些领域的员工人数增长正在放缓。所以并不是说现有工作岗位被取代了。更像是他们雇佣新员工的速度变慢了。我认为这完全正确。我的意思是，我认为在极少数情况下，人类会被人工智能取代。在大多数情况下，

你知道，两个人会被一个使用人工智能效率更高的人所取代。或者也许他们保留了两个员工。也许他们会雇佣三个员工，因为现在他们的效率更高了。是的，对，对。这是一个非常有趣的问题。我认为它与智能体非常相关的原因是，我认为部分……

以及围绕智能体的困惑在于，我们实际上会开发人类替代品，对吧？而我们称之为智能体的这个东西，顺便说一句，这是一个人的名字，对吧？在人工智能出现之前，我们有被称为智能体的人，我们仍然有各种被称为智能体的人。这似乎并没有发生，对吧？不是在替代意义上，对吧？你提到了Yoko和

我们一直都有客户支持自动化。我们有1-800号码，您可以按1键拨打销售电话。翻译也是一个很好的例子，Guido。这些系统可以非常出色地执行翻译

但是您可能不会只是将某些东西粘贴到ChatGPT上，然后将其发布到您的网站上，对吧？实际上需要进行一些工作。我认为这样做的原因是，人类所做的大多数事情中都存在一些根本性的创造性工作，对吧？我认为从我们在硅谷的视角来看，我们可以……

有时会忘记这一点，全国各地的人们都在从事各种各样的工作，这些工作实际上很辛苦，不仅仅是必须有人做的工作，而且辛苦到需要思考和人类决策，而我不知道人工智能是否具有我们认为的决策能力或意图，对吧？它仍然是一个必须有人按下按钮的系统，对吧？它可能在某个地方运行。它可能会很好地完成任何事情。仍然有人必须给它一个提示并点击

点击“开始”。对我来说，这就是关于智能体的很多困惑。我们都在想，在某个时刻，一个有目的、有创造力和思考能力的人会被取代。我只是不确定这在理论上是否可能。对。说人工智能系统正在自己思考几乎就像一个矛盾。对。因为有人必须已经创造了，你知道，我现在正在进入老式的科幻哲学。但我确实认为这是造成我们现在经历的困惑的一个重要原因。

这很有趣，因为我们已经在谈论两种类型的智能体了。有一种类型的智能体正在取代人类，与人类一起工作，做人类可以做的事情。另一种类型的智能体是更低级的系统流程。它们相互协作。它们将任务相互传递。在某种程度上，智能体在这种情况下就像系统中的技术细节。但我们在谈论智能体时指的是两者。在这种情况下，智能体和函数之间实际上有什么区别吗？

我认为是这样。我认为智能体将是中间带有LLM的多个函数。如果我有一个低级智能体，并且我给这个低级智能体分配一项任务，并且我得到了一个任务结果，它看起来有点像一个经典的API调用。但在中间使用LLM来决定对该API调用执行什么操作。我明白了，但这正是这个函数内部的工作方式？是的。在某种程度上？是的，对吧？是的。所以从外面……

我会在意吗？你不会在意。就像大多数时候，当我们看到AISDR时，当我们谈论AISDR智能体时，我们的意思是当智能体可以访问CRM、提取某些内容，然后过滤列表、起草电子邮件并发送电子邮件时。所以这感觉更像是流程级别而不是人类级别。是的，完全正确。是的。这就是我的意思。如果您不知道这个东西内部是如何工作的……

一个经典函数和一个智能体变得无法区分。完全同意。但是当您作为程序员编写函数时，您定义智能体，就是这样。实施。我们稍后会回到定价问题。但首先，让我们更深入地探讨一下与智能体交互与传统基于软件的函数有何不同或相似之处。

关于这个话题，这里有一个有趣的事情需要考虑。我完全同意你的观点，Guido，我认为你也同意，如果你那样看待它，它实际上就是一个函数。可共享、可重现的函数从来都不是一件事情。这长期以来一直是……

市场上的人们试图说，哦，我可以编写一个函数，然后地球上的任何人都可以使用它，对吧？就像，你知道，我们有软件包，对吧，你可以下载一个包含各种功能的完整软件包，但实际上只有一个你可以共享的函数。如果你稍微眯起眼睛看，这现在确实存在于人工智能中，对吧？因为您有这些模型是由某人训练的

其他人可能会下载它，微调它，训练Elora，将其打包成一些新的有趣的方式。然后它实际上可以立即供其他人使用托管服务或Hugging Face等。因此，虽然它似乎只是一个实现细节，无论您是否使用LLM，都存在这样一个有趣的事情，即模型本身占据了函数中的大部分功能。它只是一种不同类型的动物，与普通代码相比。它实际上更多的是默认共享的。

在某种程度上，因为没有人每次编写代码时都会去训练自己的模型。你知道，这显然很重，对吧？它更难移动。与普通函数相比，它具有所有这些不同的特性，其中一些实际上非常理想。有些有点，你知道，不好，对吧？你不想要的特性。但其中许多都很有趣，我认为从长远来看，我们将看到围绕此构建新的基础设施、新的开发工具。我认为这是有道理的。我的意思是，如果我们回到过去，我们上次发明构建系统的主要新组件可能是网络，对吧？我们在网络之前如何考虑调用函数，之后发生了很大变化，对吧？完全正确，完全正确。API的复杂性和围绕它的基础设施在今天完全不同。这是一个很好的观点，因为我现在想到它，我觉得人类也是函数。就像如果你有一个思想实验，然后将程序中的LLM替换为人函数，

我们会给程序的答案与LLM会给程序的答案并没有什么不同。因此，如果我们有一天真的都连接到服务器上，并且可以作为Lambda的函数被调用，那么我将同意已经创建了智能体。

这就是智能体。Mechanical Turk不正是这样吗？或者甚至是你的收件箱。之前在首尔有一家亚马逊Go超市。我认为他们当时正在宣传幕后是计算机视觉模型，识别您从超市拿走了什么。

但后来人们发现，他们雇佣了很多人在幕后实时标记数据。因此，在这种情况下，人类就是那些今天可能……秘密特工的函数。对。被所有M取代。好吧，但这正是我想说的，对吧？实际上存在重要的创造性工作。即使是在杂货店收银员那里，对吧？你可能会天真地认为，这是一份轻松的工作。实际上，这根本不是一份轻松的工作，对吧？所以你可以把这个

并进行转移，对吧？你可以用自动化之类的东西把它压缩一下，但它永远不会真正消失。哦，是的，绝对的。是的。好的。因此，鉴于所有这些，公司应该如何考虑为其智能体定价？按座位？按令牌？按任务？提示，现在判断可能还为时过早。通常……

如果您引入一个全新的产品类别，对吧，您通常会最初设定一个与现状相比较的价格，对吧，无论您在某些情况下替换还是增强什么。但让我们假设我们有一个直接的替代品，对吧？我认为这就是这个想法的来源，哦，这取代了人类，它没有。但如果它会，对吧，那么你可以收取，你知道，X金额，对吧？通常，随着时间的推移，竞争会开始，对吧，你的价格实际上取决于

你的竞争对手收取多少费用。你开始某种侵蚀。然后这取决于许多事情，例如你拥有多少模式？你是否有客户锁定，对吧？等等。长期来看，会趋于生产的边际成本，对吧？我的意思是，如果我看看今天的大多数智能体，它可能非常低，对吧？任何你可以在软件中纯粹建模的智能体……

几次LLM调用，你可以以非常低的成本运行。成本随着时间的推移而下降。而且我认为这实际上已经发生了，在实践中，大多数人工智能应用程序，特别是如果我们想称它们为人工智能智能体应用程序，

你知道，他们围绕着你应该付给我们X美元，因为我们正在为你节省开支进行销售宣传。你知道，这就像一个经典的投资回报率计算。建立价值。是的，完全正确。基于价值的定价，你知道。但在实践中，我认为大多数买家实际上对幕后发生的事情非常了解。而且正如你所说，他们知道这很简单的事情正在发生。所以就像，嘿，运行所有这些GPU要花多少钱？我们会支付比这更高的溢价。我认为这就是现在许多供应商在实践中定价的方式。我的意思是……

从长远来看，你会期望相当可观的利润率，就像在SaaS中一样，对吧？传统上，软件的利润率非常高。这太有趣了，因为我们总是建议公司不要根据利润率定价，而是根据您增加的价值定价，无论那是什么。它可以与市场上的其他供应商进行比较。它可以与仅仅是，你知道，内部构建的东西进行比较。传统上，对于基础设施而言，一个经验法则（并非总是如此）是，如果表面由人类使用，则为感知的定价利润率。

如果它是其他机器使用的服务，则为基于用量的定价。而我实际上不知道该把智能体放在哪里。

它可以被两者使用，对吧？它可以被两者使用。

他们可能对他们都在使用它做什么没有很强的了解。一旦他们这样做，对吧，你会看到更多这种情况，他们试图更多地垂直化并针对特定用例提供特定产品，代码显然是其中最重要的一种。你知道，然后你就能看到价格赶上我的假设。这让我想起了你提到的开场白

我一直在考虑人工智能伴侣，因为这最接近感知的人类定价。例如，你不能向某人收取他们与伴侣交谈的每一句话的费用，尽管一些基础模型确实如此。有一些服务会按回复向您收费。

我没有使用过它们，但它们确实存在。我明白了。哇。好的。所以通常向某人收取类似于购买令牌的费用（你与伴侣交谈的次数），而不是像固定的月费那样有点奇怪。感觉不像真正的朋友。对。完全正确。这是非常交易性的。

这是，听着，这都是理论，对吧？人们喜欢坐在一起聊天，哦，我们将按人收费，按任务收费，按，你知道，我们拯救的世界经济收费。你知道，这都是编造的，对吧？我认为Guido的观点完全正确。让我们看看我们现在称之为智能体的实际技术，它们被部署在哪里以及为什么。老实说，定价、营销、销售策略，所有这些都源于他们实际销售的东西。如果我销售的东西看起来像一个智能体，但我还没有真正弄清楚我为用户提供的价值，

当我弄清楚这个价值时，我该如何证明价格上涨是合理的？你只需要销售解决方案而不是产品，对吧？这是企业上市的非常成熟的专业知识。对于代码，你现在可以多少看到价格与底层技术的脱钩，因为它确实有效。对于使用它的人来说，投资回报率非常明确。因此，作为工程副总裁或首席技术官，您可以查看此内容并说，好的，我实际上节省了很多钱，我的员工效率也提高了很多。我可以做一个正常的投资回报率。而且他们更快乐了。是的。

是的，所以你有点像是在购买解决方案，对吧？你从供应商那里购买的东西可以为你解决问题，这同样是微软、甲骨文、Salesforce 的人一直在做的事情。一旦我们开始看到更多这样的情况，我认为这些东西就会成为真正的产品，并使定价脱钩，看起来更像真正的企业。

我认为这是由高级应用程序决定的。我给你举个例子。我是一个 Pokémon Go 玩家。对于玩过 Pokémon Go 的人来说，一旦你收集到足够的宝可梦，你的口袋里就没有存储空间了。所以你需要额外付费购买一个新的背包，虚拟背包，这样你就可以放更多宝可梦了。

作为一名基础设施投资者，我投资于存储业务。然后当我查看我需要为额外 30 只宝可梦支付多少费用时，它比存储的费用贵了数千倍。所以它实际上提醒了我。我很惊讶它只有几千。它是 10 的 15 次方左右。事实证明，宝可梦存储有一个完整的价格曲线。

因为这基本上是一个 JSON 对象。对，它是一个 JSON 对象。我知道。他们向你收取 5 美元。是的，然后宝可梦，普通的宝可梦玩家，他们不会考虑这个问题，比如你的存储成本是多少，对吧？像一个普通的宝可梦玩家会想，哦，这个功能，我很乐意支付比我在某个地方拥有一个 S3 存储桶更多的钱。所以其中一个是垄断。这是一个应用程序层的垄断，你无法在其他任何地方存储宝可梦。

其次，这是一个用例。它面向不同的受众。他们不会问这些问题。他们会考虑净新增值是什么？如果我要获得这个价值，我愿意为账单支付多少净新增成本？这是一个有趣的游戏吗？这是一个有趣的游戏。再加一百美元。

是的，我认为这完全正确。而你所说的隐含意思是，产品或解决方案必须真正为他们工作，对吧？对于一个不太懂技术的人来说，这个人不会试图自己配置存储桶来自行托管他们的宝可梦。为了让他们参与宝可梦的直播，是的。

而且它也相当具有防御性和差异性，因为，你知道，Pokémon Go 不是开源的。Pokémon Go 没有其他替代品。只有一个 Pokémon Go。所以只有一个地方你愿意为宝可梦存储支付这么多钱。加上非常强大的品牌。加上你有一点网络效应，因为你们可以一起玩。是的，然后我们会看到这个的 AI 代理版本。我迫不及待地想看到这个的 AI 伴侣版本。为 AI 伴侣的衣橱付费存储。是的。

随着 AI 市场继续洗牌和发展，代理功能最终将存在于何处？例如，它们可以存在于大型语言模型内部，还是必须调用外部工具？谁最终最有可能影响这一点？超级有趣的问题，对吧？系统如何构建代理的视角是什么？我个人认为，从架构上讲，

你今天典型的 SaaS 软件和代理在构建方式上并没有什么区别。让我解释一下原因。在代理中，我们说你有一个包含大型语言模型和提示的整体循环，它会自我反馈，并使用外部工具。大型语言模型本身，你可能希望运行一个单独的基础设施，因为它非常专业化。你需要这些庞大的 GPU 集群。你今天无法轻松地在单个 GPU 上运行大型语言模型。所以这是一个非常专业化的外部基础设施。所以大型语言模型调用是外部的。

状态管理

好吧，在今天的 SaaS 应用程序中，我们在数据库或类似的东西中外部进行所有状态管理。所以你可能也希望将其外部化，对吧？然后剩下的就是相当轻量级的逻辑，对吧？我基本上是在获取我以某种方式从数据库中检索到的上下文。我将其组合成一个提示。我运行提示。然后我偶尔会调用工具。也许我用 MCP 或类似的东西与外部服务器一起这样做。但是核心循环实际上非常轻量级，对吧？我可以在一台服务器上运行数百万个代理。

不是很多，而是在一台服务器上运行许多代理。我不需要为此付出大量的计算性能。这听起来对吗？是的，是的，我完全同意。对我来说，有趣的问题一直是，你如何处理可能出现的非确定性？我们所有人都在使用和喜爱的许多成功的 AI 应用程序

只是将模型输出返回给用户，对吧？就像聊天机器人或图像生成器一样。就像，“嘿，我调用了大型语言模型。这就是我得到的。祝你好运。”当你试图将大型语言模型的输出实际合并到程序的控制流中时，这实际上是一个非常困难、尚未解决的问题。正如你所说，今天架构上的差异相对较小，但这实际上可能会在未来推动更重大的变化。

我实际上认为赢家将是专家，而不是基础模型。这是那些将在基础模型之上构建或微调基础模型的人。一个非常艺术的例子是，我过去两周一直在写作。

提示吉卜力使用他们的图像模型。它非常擅长卡通，所以它非常擅长漫画。它可以拼写，所以它有一个故事情节。但是后来我意识到它只擅长两种或三种风格。它擅长吉卜力，擅长漫画，然后在这个领域还有风格的变化。

所以现在艺术的意义在于，市场喜欢非分布式艺术。每个人都不想一遍遍地看到相同的东西，因为这就是他们评价艺术的方式，一些与众不同的东西。理想情况下，也许吧。总而言之，我们应该将艺术定义为非分布式样本。是的。艺术可以像波普艺术一样是分布式的，对吧？

它也可能是非分布式的。就像多年前印象派出现时，每个人都在画印象派。当时，之前的画家们想，你的眼睛怎么了？你为什么画模糊的图像？所以风格来来去去。

但正因为如此，我认为这是一个推动分布式的问题，基础模型永远无法覆盖所有的一切。所以这实际上取决于人类和下一波专家提出新的数据、新的工作流程、新的美学来推动这种分布。当然，最终，代理只有在其可以访问的工具和数据一样有用。那么，如果主要的网络平台决定阻止代理访问它们的数据会发生什么？

我认为今天关于代理最困难的事情之一是数据模式。在某些情况下，仅仅是因为它们在技术上很困难，我正在尝试访问数据。代理正在尝试访问数据，并且与该系统集成非常困难。在某些情况下，这是非常故意的。我的 iPhone，照片无法通过任何 API 访问，因为它是一个封闭式花园。所以你说的就是数据孤岛。是数据孤岛。那么这是在阻碍代理还是使它们更难？或者更进一步，

消费类公司传统上往往反对提供对其服务的自动化访问，因为他们想要用户参与。他们希望有时间向用户做广告。这会限制我们部署代理的程度吗？

一旦我们有了可以浏览网络和浏览手机的浏览器原生代理，这种情况会改变吗？好问题。是的。我认为我认为横子完全正确。你知道，这就像拥有关于，你知道，物理实体的数据的人，你知道，

人、企业等等，有强烈的动机将它们保留给自己，对吧？尤其因为他们可能害怕 AI 会对他们做什么，顺便说一句。所以他们紧紧抓住他们所拥有的东西。这些问题很少通过定义一个新的协议并简单地说，“嘿，如果我们让人们很容易放弃他们的核心资产，他们就会这样做”来解决。你知道，显然，你知道，这不太可能奏效。但是

最终有人会通过说，“嘿，如果你的数据是公开可见的，我们会获取它。”来解决这个问题。就像，“顺便说一句，这实际上不是你的数据。这是关于我的数据，所以你为什么应该持有它？”实际上，我觉得模型的新进展可能会改变数据模式，有点像今天，使用代理进行网络浏览效果不太好。它非常慢。它非常笨拙。你必须多次尝试才能完成任何任务。

但想象一下，如果我们有基础模型的能力，可以让代理能够访问任何网站，以人类身份登录。我们将搁置这个问题。我还不知道代理身份是如何工作的。或者通过 SSH 登录到服务器，例如执行某些命令或启动虚拟机以移动或访问设备，设计一个设备农场来玩 Pokémon Go。

也许这些数据传统上只能由该帐户下的用户访问，现在可以由代理访问。也可能发生相反的情况，对吧？基本上所有消费类网站都开始使用越来越复杂的防代理 CAPTCHA。

试图阻止代理，因为他们只希望那些有注意力的人来到这些网站。我的意思是，我最近确实使用过这些深度研究工具之一，一个主要的大型语言模型之一，如果你仔细查看它，我经历的所有步骤都像是，你知道，试图看看我如何才能绕过网站的捕获机制。这是一个实际的推理步骤，对吧？它知道我想要什么信息，并且被阻止访问它。那么，你知道，未来会多么反乌托邦呢？它实际上解决了这个问题。是的。

我的意思是，这太有趣了。这是一个非常早期的机器学习例子。我不知道你们是否记得 Gmail 首次实施广告时的情况。这是一个很大的争议，因为他们基本上说，好吧，我们不会阅读你的电子邮件，但我们的算法会阅读你的电子邮件，我们会根据此建议你应该观看或点击的广告。我认为我们都忘记了并习惯了它。我仍然认为我们不喜欢这个想法，但我们还是接受了它。但是一些数据提供商通过说，

从电子邮件中删除数据，对吧？所以亚马逊现在很有名，当你订购东西时，他们会向你发送一封确认电子邮件，上面写着：“嘿，你刚刚订购了东西。点击此处了解你订购了什么，它什么时候到达，或者你可能想知道的任何信息。”所以实际上在这个例子中确实发生了这种情况，主要的数据持有者找到了保留它的方法。看看现在是否仍然可能做到这一点将会很有趣。但是同样的数据是从我安装的广告网络的客户端抓取的。

哦，当然。是的，总有其他方法。也许不完全相同，但相当好的代理。也许那

区分大型语言模型和人类比区分经典 API 调用机制和人类要困难得多。这可能会改变动态。最后，Guido、Matt 和 Yoko 回答了一个关于我们可能拥有清晰可见性的最长时间线上的明显问题。在接下来的两年内，需要发生什么才能使代理成为真正具有改变游戏规则的创新？

我认为积极的愿景是，在两年内，我们弄清楚了代表我工作的代理如何使用我可以访问的大多数工具。我认为哪些部分缺失也很清楚，对吧？我们还没有弄清楚代表我工作的代理的安全、身份验证和访问控制，对吧？我们还没有弄清楚

数据保留是如何工作的。你知道，我们还没有弄清楚与可能想要阻止该代理的消费者网站的关系。但是如果你有了它，它可以使许多任务变得容易得多，对吧？今天，如果我的数据存储在我的 Google Drive 中，对吧，

我可以对该数据与其他更分散的数据源中的数据进行推理的难易程度。这会产生令人难以置信的差异。所以我认为这是乐观的情况，对吧？你拥有可以访问你可以访问的所有数据的代理，它们可以代表你访问数据并代表你执行任务，对吧？并为你节省大量时间。它可以让你，取决于你做什么，比如，你知道，比你今天高出几倍的生产力。我对这个问题的回答实际上是基础模型上的不同模式。今天它仍然非常基于文本，这对于编码和基于文本的任务非常有效。

但是对于更多视觉优先的测试，根本没有一对一的映射。即使对于网络浏览，它也像每隔几秒钟截取一次屏幕截图并将其发送回基础模型一样笨拙。所以我实际上会在多模式方面下注，如果我们用点击网站上的按钮、浏览网络、使用不同的设备、绘图、制作矢量艺术的不同轨迹来训练模型。

我认为模型可以在代理级别解锁新的东西。你可能猜到我的答案了。如果我们在两年后或五年后不使用“代理”这个词，我认为这是一个巨大的胜利。哥伦比亚的一些人发表了一篇有趣的论文，我认为，叫做《AI 是正常技术》。他们有点认为存在一种错误的二分法。就像，

AI 要么会带来乌托邦，要么会带来反乌托邦，这意味着一切都会很棒，因为我们有 AI，或者一切都会很糟糕。这是一种民族论述。但是如果你只是把它想象成正常的，对吧？就像水或电力或互联网或类似的东西一样，我认为这就是我们前进的方向。代理是一种帮助我们到达那里的方式。所以这是我的目标。我的意思是，这些东西非常强大。我们了解如何使用它。我们了解用例，我们正在，你知道，我们正在为我们自己使用它。

感谢收听 A16Z 播客。如果您喜欢本集，请在 ratethispodcast.com/A16Z 上留下评论。我们还有更多精彩的对话即将到来。下次再见。

What Is an AI Agent? 36:19 Share

a16z Podcast

Deep Dive

Shownotes Transcript

What Is an AI Agent?