在本期 AI + a16z 节目中,a16z Infra 合作伙伴 Guido Appenzeller、Matt Bornstein 和 Yoko Li 讨论并辩论了目前科技行业最热门的词语之一:AI 代理。三人从多个角度深入探讨了这一话题,包括:是否存在 AI 代理的统一定义;如何区分代理、大型语言模型和函数;如何考虑代理的定价;代理能否真正取代人类;以及数据孤岛对可以访问网络的代理的影响。他们并不声称拥有所有答案,但他们提出许多问题和见解,应该会让任何构建、购买甚至营销 AI 代理的人都感兴趣。 了解更多信息: 对全栈编码的 AI 代理进行基准测试 使用 MCP 和 AI 代理自动化开发者电子邮件 深入探讨 MCP 和 AI 工具的未来 代理体验:为 AI 时代构建开放的网络 DeepSeek、推理模型和大型语言模型的未来 代理、律师和大型语言模型 推理模型正在重塑专业服务 从 NLP 到大型语言模型:对可靠聊天机器人的追求 AI 代理能否最终解决客户支持问题? 在 X 上关注所有人: Guido Appenzeller Matt Bornstein Yoko Li 查看 a16z 在人工智能方面所做的一切,包括文章、项目和更多播客。</context> <raw_text>0 我几乎觉得,对于我们描述的所有用例,所有代理都具有的一个要素是推理和决策。我实际上觉得它是一个多步骤的 LM 链,带有一个决策树。一个动态决策树。一个动态决策树。是的,我认为这是公平的。我认为我们都被技术细节难住了。我只是觉得,你知道,我们是计算机科学家,所以我认为我们没有做好准备。
当它是一个比特时,它不仅仅是零或一,它可能介于两者之间,我们只是经常谈论它。我们喜欢尝试将其强制转换为一个值或另一个值。是的。欢迎回到 A16Z AI 播客。我是 Derek Harris。已经有一段时间了,但我们将用一场关于 AI 代理究竟是什么的有趣且富有洞察力的讨论来弥补这一差距,包括我们应该如何定义它们,我们应该如何考虑它们所做的工作,以及构建它们的公司应该如何考虑它们的定价。
除此之外,讨论还涵盖了代理工作流程、API 调用和函数之间的区别,以及登录墙和数据孤岛如何影响代理最终影响的尚未解答的问题。本期节目邀请了 A16Z 合作伙伴 Guido Appenzeller、Matt Bornstein 和 Yoko Lee,你将在整个过程中听到我的声音,以使主题之间的过渡更加流畅。我们录制这期节目玩得很开心,你将听到所有内容,从以下披露之后关于是否存在 AI 代理的统一定义的问题开始。
提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对 A16Z 基金的任何投资者或潜在投资者。更多详情,请访问 a16z.com/disclosures。
所以我认为有些事情可能很容易说,那就是 A,对什么是代理存在相当大的分歧。我们已经听过很多不同的定义,我认为在技术方面是这样,在某些情况下,在市场营销和销售方面也是如此,因为与之相关的一些销售模式。所以让我们从技术方面开始。我认为这里存在一个连续体。
你知道,我听到的最简单的被称为代理的东西基本上只是在某种知识库或某种具有这种聊天类型界面的上下文中的一种巧妙提示。所以从用户的角度来看,这看起来就像人类代理一样,对吧?例如,我问它,嘿,我的产品 XYZ 出现了一个技术问题。它查看知识库并返回一个预设的回复。
但不必有知识库,对吧?MARTIN SPLITT:它甚至不必是知识库。我明白了。知道了。好的。所以它可能只是一个训练好的模型。所有知识都在模型权重中。所以它更简单。所以根据某种定义,代理可能只是一个带有聊天界面的大型语言模型或类似的东西,对吧?
我认为在频谱的另一端,有些人基本上说,要成为一个真正的代理,它必须是相当接近 AGI 的东西,对吧?它需要长期存在。它需要能够学习。它需要有一个知识库。它需要能够独立地解决问题。如果你采用最广泛的定义,可以说它现在还不能工作吗?我认为是这样。它现在还不能工作。它会永远工作吗?
这是一个哲学问题。好的。公平的。非常公平。非常公平。所以如果我们采用两者之间的连续体,至少有一种方法可以将其分成几类,也许是代理行为的程度?
和不同类型的代理。有一些艺术代理可以帮助艺术家想出新的、更繁忙的曲线。有一些编码代理,我们喜欢将其称为当天的代理。是的,我们使用它。还有一些代理只是大型语言模型的包装器。没错,是的。我可能是这个小组中的反对者。好吧。听着,我认为代理只是 AI 的一个词。是的。
对。任何使用 AI 的东西都可以是代理。现在,在我们开始这次谈话之前,我实际上只是上网刷新了一下关于一些更有趣的 AI 代理观点。我发现 Karpathy 几年前做了一个关于代理的非常酷的演讲,我可以稍微描述一下。但真正有趣的部分是在 YouTube 推荐的下一个视频中,它
就像 AI 代理将彻底改变你的生活方式,以及超级智能 AI 的兴起,你知道,这就像市场营销一样。所以我确实认为这就是很多情况下发生的事情。我见过的最清晰的代理定义就是做复杂规划的东西。
以及与外部系统交互的东西。这个定义的问题是,现在所有大型语言模型都在做这两件事,对吧?在许多情况下,它们都内置了规划功能,并且它们至少会从互联网上获取信息,也许是从通过 MCP 或其他协议公开信息的某些服务器上获取信息。所以这条线真的很模糊。而且,你知道,Karpathy 的演讲如此有趣的原因是,他基本上,他将其与自动驾驶汽车联系起来,并说,你知道,
AI 代理是一个真正的问题,但它就像一个 10 年的问题。它就像一个我们需要努力解决的十年问题。我认为我们现在在市场上看到的大部分内容都不是这个问题的十年版本。它就像这个问题的周末演示版本。这就是为什么我们会产生如此多的困惑。你拥有这种定义不明确的模糊事物,大型语言模型随着时间的推移会不断吞噬自身。所以我认为我们拥有的任何东西都不是真正的代理。代理本身可能是一个定义不明确且含义过多的术语。但是如果有人愿意努力工作,
并准确定义它就像成为一个数字形式的人,并花 10 年时间让它真正发挥作用。你知道,这就是我期待看到的。好的。所以定义代理是一项艰巨的任务。也许谈谈人们如何使用他们称之为代理的工具以及代理行为的不同程度更容易一些?我
我想知道对话的一部分是否在于重新定义代理,因为我们都知道代理作为一个术语并不是一个很好的术语。它对很多人来说意味着很多东西。如果剖析它很有趣,例如,我们的意思是?不同的人在说代理时是什么意思?我们可以利用我们称之为代理的这个过程的不同方法是什么?在我看来,如果我们试图定义代理,甚至可能是代理行为的程度,这可能更容易一些。
它具有一定的用户界面方面,对吧?其中一些纯粹的副驾驶,用户基本上来回切换,
使用 LM 来完成一项特定任务,这通常不被称作代理。公平吗?副驾驶与代理 UI 模型之间存在一些差异。是的,我想我们认为构成代理行为的要素是什么?正如 Matt 提到的,规划可能是一个。代理可能会做出决定。必须在某个地方有一个 LM。
但好奇你的看法,我认为……我们最近从 Anthropic 听到的另一个定义是,代理是在循环中运行并使用工具的 LLM,其中有两个重要的部分,一个是它不仅仅是一个单一的提示,甚至不仅仅是一个单一的静态
提示序列,对吧?但某些东西,其中 LLM 获取提示的输出,将其反馈给自己,并根据此决定下一个提示是什么,以及何时中止,例如何时完成任务。我认为对于真正的代理或更具代理行为的代理,我认为这是一个相当不错的定义。我认为另一件事……但仅仅根据这个定义,在这个世界中,每个聊天机器人实际上都是一个代理吗?例如,如果我只是去
chatgpt.com 并使用他们的最新推理模型进行网络搜索,对吧?使用工具并将它的输出输入到新的提示中以进行某种思维链。思维链介于两者之间。如果它只是一个返回结果的单一提示,那么它就不会具有这种规划和执行更长期概念以及自行决定何时完成的概念,对吧?如果你有一个思维链推理,我正在给出一个更复杂的任务,这开始看起来像一个代理。我只是觉得很难
根据某人对它的说法来定义一个系统,对吧?因为这些设计上是非结构化输入。这些系统会接受任何东西。所以当然,如果你告诉它,你知道,今天的天气如何,我会同意这不是代理,对吧?这只是从 API 中获取信息。如果你要求它定义一种新的天气哲学,对吧,它会很乐意去做。所以如果你问它一件事,它就是一个代理,但如果你问它另一件事,它就不是一个代理。我认为这就是市场上很多困惑的原因。
围绕这一点。如果我们用你刚才提到的术语来说,Guido,例如,嘿,这是一个循环中带有工具的 LLM,我认为这实际上是一种更有成效的谈论方式。是的,是的。我的意思是,也就是说,我们似乎在某种程度上看到用户界面的专业化朝着两个方向发展,对吧?有
比如说,一个光标或类似的东西,它真正强调了用户和 LLM 以及我正在处理的事物之间的紧密反馈循环。所以我想在我做某事时立即获得满足感,所以响应时间很重要。
然后还有更多后端作为源代码管理系统类型的插件,它更多的是关于通过可能回答几个问题来将某些东西扔过墙。然后你试图最大限度地延长代理可以独立工作的时间。所以看起来——我认为你是对的,两者之间没有明确的系统定义划分。但似乎存在一些用户界面专业化。这是一个公平的陈述吗?
对于我们描述的所有用例,我几乎觉得所有代理都具有的一个要素是推理和决策。你会不会把对 LLM 的调用称为,将此文本翻译成 JSON?这可能不是一个代理。
但是如果你要求 LM 说,嘿,决定这个回复去哪里并为我路由它,它比以前更像一个代理。所以它几乎感觉像是规划。我实际上不确定。代理需要规划还是需要决定?也许两者都需要。我实际上觉得它是一个多步骤的 LM 链,带有一个决策树。
一个动态决策。一个动态决策。是的,我认为这是公平的。我认为我们都被技术细节难住了。我只是觉得人文主义者喜欢分类,他们会在不同类型的物体、实体等等之间进行细致的区分。我们是计算机科学家。你知道,人文主义没有什么错,但我们不是那样。所以我认为当
当它是一个比特时,它不仅仅是零或一,它可能介于两者之间。我们只是经常谈论它。我们喜欢尝试将其强制转换为一个值或另一个值。是的。当然,代理不仅仅是纯粹的技术。它们也正在成为产品,这意味着它们需要进行营销。
以及某人如何定位他们的产品会对其定价产生重大影响。更重要的是,任何给定代理的最终价值(对于绝大多数代理来说,这仍然有待确定)在于它们能够在多大程度上真正取代或仅仅是增强人类劳动者。
有一个有趣的观点,我认为代理存在市场营销角度。我从几家初创公司那里听到过这种说法,他们忙着说,嘿,你知道,我们可以将我们正在构建的软件的价格定得高得多,因为这是一个代理。所以我们可以去一家公司说,你正在用这个代理取代一个人类员工。这个人类员工每年赚 50,000 美元。因此,这个代理,你每年只需支付 30,000 美元。
乍一看这听起来非常有说服力。而且实际上,我的意思是,在早期阶段它确实具有一定的价值,因为它对于必须做出购买决策的人来说,本质上很容易理解比较价格。现在,另一方面,我们都知道,产品的成本随着时间的推移会趋于生产的边际成本。对。所以今天,如果我过去使用翻译器,也许是翻译一页文本,今天你使用 ChatGPT。我没有像支付我的翻译员那样支付 ChatGPT。
我支付了极少的一部分美分,对吧,这是通过 API,这是实际成本。所以我有点想知道代理辩论有多少是由市场营销和定价驱动的。我只是觉得这是一个非常有趣的话题。你能想到哪些领域实际上正在遭受 AI 或 AI 代理的完全替代吗?这是一个设置,我会警告你。我之后会说另一个极端的观点。但是你能想到哪些领域正在发生这种情况吗?是的。
不是完全的,但绝对是部分的,因为有很多,例如,语音代理取代了接待员,那些会,你知道,回复客户的人。所以肯定有很多工作量。
已经从传统上做这项工作的人那里卸载了。但我认为他们并没有,你知道,被 100% 取代。他们可以做其他事情。但我们确实看到某些领域的员工增长正在放缓。所以不是现有工作被取代了。更像是他们雇佣新员工的速度变慢了。我认为这完全正确。我的意思是,我认为在极少数情况下,人类会被 AI 取代。在大多数情况下,不会。
两个人会被一个使用 AI 更有效率的人类所取代。或者也许他们保留了两个员工。也许他们会雇佣三个员工,因为现在他们的效率更高了。是的,对。这是一个非常有趣的问题。我认为它与代理非常相关的原因是,我认为代理的精神和围绕代理的困惑的一部分是,我们实际上会开发人类替代品。
而我们称之为代理的东西,顺便说一句,这是一个人的名字。在我们拥有 AI 之前,我们有被称为代理的人,我们仍然有各种被称为代理的人。而且这似乎并没有发生,对吧?不是在替代意义上。你提到了 Yoko 与代理。我们一直都有,你知道,客户支持自动化。我们有 1-800 号码,你可以按 1 键进行销售。另外,你知道,这已经存在很长时间了。这显然是一种更好的形式。翻译也是一个很好的例子,Guido。这些系统可以非常出色地执行翻译,但是
但是你可能不会只是将某些东西粘贴到 ChatGPT 上,然后将其发布在你的网站上。实际上需要进行一些工作。我认为这样做的原因是,人类所做的大多数事情中都存在一些根本性的创造性工作。我认为从我们在硅谷的视角来看,我们有时会忘记,全国各地的人们都在从事各种各样的工作,这些工作实际上是艰巨的,而不仅仅是艰巨的
在有人必须做它的工作意义上,而是在它确实需要思考和人类决策的意义上,而我不知道 AI 是否拥有我们认为的决策能力或意图。它仍然是一个系统,有人必须按下按钮,对吧?它可能在某个地方运行。它可能会做得很好,或者其他什么。仍然有人必须给它一个提示,并且
点击开始。对我来说,这就是围绕代理的许多困惑。我们都在某个时候认为,一个有目的、有创造力和思考能力的人类将被取代。我只是不确定这在理论上是否可能。说 AI 系统正在为自己思考几乎就像一个矛盾,因为有人必须创造它。我现在正在谈论旧的科幻哲学,但是,我确实认为这是造成困惑的一个重要原因,你知道,我们现在正在经历的。这很有趣,因为我们已经在谈论两种
类型的代理。有一种类型的代理正在取代人类,与人类一起工作,做人类可以做的事情。还有一种类型的代理是更低级的系统流程。它们相互协作。它们将任务相互传递。在某种程度上,代理在这种情况下就像系统中的技术细节。但当我们谈论代理时,我们的意思是两者兼而有之。
在这种情况下,代理和函数之间实际上有什么区别吗?我认为是这样。我认为代理将是中间带有 LLM 的多个函数。如果我有一个低级代理,并且我给这个低级代理一个任务,并且我得到了一个任务结果,它看起来有点像一个经典的 API 调用。但在中间有一个 LLM 来决定对该 API 调用做什么。我明白了,但这正是这个函数内部的工作方式?是的。在某种程度上?是的。对吧?是的。所以从外部……
我会在意吗?你不会在意。就像大多数时候,当我们看到 AISDR 时,当我们谈论 AISDR 代理时,我们的意思是当代理可以访问 CRM、提取某些内容,然后过滤列表、起草电子邮件并发送电子邮件时。所以这感觉更像是流程级别而不是人类级别。是的,完全正确。是的。这就是我的意思。如果你不知道这个东西内部是如何工作的……
一个经典函数和一个代理变得无法区分。完全正确。我完全同意。但是当你,作为一个程序员,当你编写函数时,你会定义代理,那就是这个。我们稍后会回到定价问题。但首先,让我们更深入地探讨一下与代理交互与传统基于软件的函数有何不同或相似之处。
关于这个话题,这里有一个有趣的事情需要考虑。我完全同意你的观点,Guido,我认为你也同意,如果你那样看待它,它实际上就是一个函数。可共享、可重现的函数从来都不是一件事情。这长期以来一直是……
市场上的人们试图说,哦,我可以编写一个函数,然后地球上的任何人都可以使用它,对吧?例如,你知道,我们有你可以下载一个包含各种功能的整个包的包,但实际上只有一个你可以共享的函数。如果你稍微眯起眼睛看一看,现在有了 AI,这有点存在,因为你拥有这些模型,它们是由某人训练的
其他人可能会下载它,微调它,训练 Elora,将其打包成一些新的有趣的方式。然后它实际上可以立即供其他人使用托管服务或 Hugging Face 等。所以虽然它似乎只是一个实现细节,无论你是否使用 LLM,都存在这样一个有趣的事情,即模型本身占据了函数中的大部分功能。它只是一种不同的动物,与普通的代码相比。它实际上更多的是,它默认情况下是共享的。
在某种程度上,因为没有人每次编写代码时都会去训练自己的模型。你知道,它显然很重。它更难移动。与普通函数相比,它具有所有这些不同的特性,其中一些实际上是非常理想的。有些是不希望看到的坏特性,但许多特性都很有趣。我认为从长远来看,我们将看到围绕此构建新的基础设施、新的开发工具。我认为这是有道理的。我的意思是,如果我们回到过去,我们上次发明构建系统的主要新组件可能是网络。我们在网络之前如何考虑调用函数,之后发生了很大变化。完全正确。围绕它的 API 的复杂性和基础设施在今天完全不同。这是一个非常好的观点,因为我现在想到它,我觉得人类也是函数。如果你有一个思想实验,然后将程序中的 LLM 替换为人,
例如,我们会给程序的答案与 LLM 会给程序的答案并没有什么不同。所以如果我们有一天真的都连接到服务器上,并且可以作为 Lambda 的函数被调用,那么我将同意已经创建了代理。
这就是代理。Mechanical Turk 不是正是这样吗?或者甚至是你的收件箱。之前在首尔有一家亚马逊 Go 超市。我认为他们当时正在宣传幕后是计算机视觉模型,识别你从超市拿走了什么。
但是后来人们发现,他们幕后雇佣了很多人来实时标记数据。所以在这种情况下,人类就是那些今天可能……秘密代理的函数。对。被带有……LLM 取代了。但是这正是我的观点,对吧?实际上存在重要的创造性工作。即使在杂货店收银员那里,你天真地认为,哦,这是一份轻松的工作。实际上,这根本不是一份轻松的工作,对吧?所以你可以把这项
工作转移,你可以用自动化等方法压缩它,但它永远不会真正消失。哦,是的,绝对的。是的。好的。那么,鉴于所有这些,公司应该如何考虑为他们的代理定价?按座位?按令牌?按任务?提示,现在真正判断可能还为时过早。通常,
如果你引入一个全新的产品类别,你通常会最初设定一个针对现状定价的价格,对吧?无论你在某些情况下替换还是增强什么。但是让我们假设我们有一个直接的替代品,对吧?我认为,这就是这个想法的来源,哦,这取代了一个人,它没有。但是如果它会,那么你可以为此收取 X 数量的费用。通常,随着时间的推移,竞争会开始,你实际上是按价格定价。
你的竞争对手收取多少费用。你开始某种侵蚀。然后这取决于许多事情,例如你拥有多少模式?你是否有客户锁定,对吧?等等。长期来看,会趋于生产的边际成本,我的意思是,你看,如果我看看今天的大多数代理,它可能非常低,对吧?任何你可以在软件中纯粹建模的代理……
通过几次 LLM 调用,你可以以非常低的成本运行。成本随着时间的推移而下降。而且我会争辩说,这实际上已经发生了,在实践中,大多数 AI 应用程序,特别是如果我们想称它们为 AI 代理应用程序,你知道,它们围绕着……
围绕着,你应该支付我们 X,因为我们正在为你节省开支。这就像一个经典的投资回报率计算。建立价值。是的,完全正确。基于价值的定价。但在实践中,我认为大多数买家实际上对幕后发生的事情非常了解。并且正如你所说,他们知道发生的事情非常简单。所以这就像,嘿,运行所有这些 GPU 需要花费你多少钱?我们会支付你超过这个价格的一些溢价。我认为这就是现在许多供应商在实践中定价的方式。
我的意思是,从长远来看,你会期望相当可观的利润率,就像在 SaaS 中一样,对吧?传统上,软件具有非常好的利润率。这太有趣了,因为我们总是建议公司不要根据利润率定价,而是根据你增加的价值定价,无论那是什么。它可以与市场上的其他供应商进行比较。它可以与仅仅是,你知道,内部构建的东西进行比较。传统上,对于基础设施来说,一个经验法则(并非总是如此)是,如果表面由人类使用,则为感知定价。
如果它是一项服务,则由其他机器使用。它是基于用量的定价。而我实际上不知道该把代理放在哪里。它可以被两者使用,对吧?它可以被两者使用。代理可以使用代理,或者人类可以使用代理。听着,我认为你的分析完全正确。现实情况是,大多数 AI 公司还不知道他们正在创造什么价值。这太新了,太初生了,这就像,嘿,我们只是要收取一些不会让我们亏钱的费用。而且
而且,你知道,在 OpenAI 的情况下,他们有多少百万用户?他们可能对他们都在使用它做什么没有很强的了解。一旦他们这样做,并且你看到更多这种情况,他们就会尝试更多地垂直化,并针对特定用例提供特定产品,代码显然是一个重要的用例。然后你将能够看到定价赶上,这是我的假设。这让我想起了你提到的 OpenAI 的观点。
我当时正在考虑 AI 伴侣,因为这最接近感知的人类定价。例如,你不能向某人收取他们与伴侣交谈的每一句话的费用,尽管一些基础模型确实如此。有一些服务会按回复向你收费。我没有使用过它们,但它们确实存在。我明白了。哇。好的。所以通常按令牌向某人收费,即你与伴侣交谈的多少,而不是像固定费用那样,这有点奇怪。
如果按卡收费,感觉不像真正的朋友。这是非常交易性的。听着,这都是理论,对吧?人们喜欢坐在一起谈论,哦,我们将按人收费,按任务收费,按……我们拯救的世界经济收费。这就像,都是编造的,对吧?我认为 Guido 的观点完全正确。让我们看看我们现在称之为代理的实际技术,它们在哪里被部署以及为什么。老实说,定价、营销、销售策略,所有这些都源于他们实际销售的东西。
如果我销售的东西看起来像一个代理,但我还没有真正弄清楚我为用户提供的价值,那么当我弄清楚这个价值时,我该如何证明价格上涨是合理的?
你只需要销售解决方案而不是产品。这在企业市场营销中是相当成熟的经验。代码,你可以看到价格与底层技术的脱钩。现在,因为它确实有效,所以对于使用它的人来说,ROI非常清晰。因此,作为工程副总裁或首席技术官,你可以看看这个,然后说,好吧,我实际上节省了很多钱,我的员工也变得更有生产力了。我可以评估,我可以做一个正常的ROI。
是的。所以你是在购买解决方案,对吧?你从供应商那里购买的东西可以为你解决问题,这同样是微软、甲骨文、Salesforce等公司一直在做的事情。一旦我们开始看到更多这样的情况,这些东西就会成为真正的产品,并使定价脱钩,看起来像真正的企业,我认为。我认为这是由高级应用程序决定的。我给你举个例子。我是一个口袋妖怪Go玩家。对于那些玩过口袋妖怪Go的人来说,一旦你收集到足够的口袋妖怪,你的口袋里就没有存储空间了。
所以你需要额外付费购买一个新的背包,虚拟背包,这样你就可以放更多口袋妖怪了。作为一个基础设施投资者,我投资于存储业务。然后当我看看我需要为额外30只口袋妖怪支付多少钱时,它比存储的成本贵了数千倍。
所以它实际上让我想起了……我很惊讶它只有几千。它是10的15次方左右。事实证明,口袋妖怪存储有一个完整的价格曲线。因为这基本上只是一个JSON blob。这是一个JSON blob。我知道。他们向你收取5美元。然后口袋妖怪正常……
口袋妖怪玩家不会考虑这个问题,比如存储成本是多少,对吧?就像一个普通的口袋妖怪玩家会想,哦,这个功能,我很乐意支付比在某个地方拥有一个S3存储桶多几千美元的费用。所以其中一个是垄断。这是一个应用程序层的垄断,你无法在其他任何地方存储口袋妖怪。
其次,这是一个用例。它面向不同的受众。他们不会问这些问题。他们会考虑净新增值是什么?如果我要获得这个价值,我愿意为此支付多少净新增成本?这是一个有趣的游戏吗?这是一个有趣的游戏。再花一百美元。是的,我认为这正是正确的。而隐含的是你所说的这个想法,即
产品或解决方案必须真正为他们工作,对吧?对于不太懂技术的人来说,你知道,这个人不会尝试自己配置存储桶来自己托管他们的口袋妖怪。而且它也是相当可防御的差异化,因为,你知道,口袋妖怪Go不是开源的。没有其他口袋妖怪Go的替代品。只有一个口袋妖怪Go。所以只有一个地方你愿意
为口袋妖怪存储支付这么多钱。——加上非常强大的品牌,加上你有一点网络效应,因为你们可以一起玩。——是的,我会看到这个的AI代理版本。我迫不及待地想看到这个的AI伴侣版本。为AI伴侣的衣橱玩存储。——随着AI市场的不断发展和演变,代理能力最终将存在于哪里?例如,它们可以存在于LLM内部,还是必须调用外部工具?谁最终最有可能影响这一点?
超级有趣的问题,对吧?代理构建的系统视角是什么?我个人认为,从架构上讲,
从构建方式来看,当今典型的SaaS软件与代理之间并没有真正的区别。让我解释一下原因。在代理中,我们说你有一个包含LLM和提示的整体循环,它自身会反馈,还会使用外部工具。LLM本身,你可能想要运行一个单独的基础设施,因为它非常专业化。你需要这些庞大的GPU农场。你今天无法轻松地在单个GPU上运行大型元素。所以这是一个非常专业的外部基础设施。所以LLM调用是外部的。
状态管理……好吧,今天在SaaS应用程序中,我们在数据库或类似的东西中进行所有状态管理。所以你可能也想要将它外部化。然后剩下的就是相当轻量级的逻辑,我基本上是从数据库中以某种方式检索到的上下文,我将其组合成一个提示,我运行该提示,
然后我会偶尔调用工具。也许我用MCP或类似的东西与外部服务器一起做。但是核心循环实际上非常轻量级,我可以在一台服务器上运行数百万个代理。不是数百万,而是在一台服务器上运行许多代理。我不需要为此付出大量的计算性能。这听起来对吗?是的,我完全同意。对我来说,有趣的问题一直是,你如何处理可能出现的非确定性?我们所有人都在使用和喜爱的许多成功的AI应用程序,
只是将模型输出吐回给用户,对吧?就像聊天机器人或图像生成器。就像,嘿,我调用了LLM。这就是我得到的。你知道,祝你好运。当你试图将LLM的输出实际合并到程序的控制流中时,这实际上是一个非常困难、尚未解决的问题,正如你所说,今天架构上的差异相对较小,但这实际上可能会在未来推动更重大的变化。
我实际上认为赢家将是专家,而不是基础模型。这是那些将在基础模型之上构建或微调基础模型的人。这方面的一个非常艺术的例子是,我过去两周一直在
提示吉卜力使用他们的图像模型。它非常擅长卡通,所以它非常擅长漫画。它可以拼写,所以它有一个故事情节。但是后来我意识到它只擅长两种或三种风格。它擅长吉卜力,擅长漫画,然后在这个领域还有风格的变化。
所以现在艺术的意义在于市场喜欢非主流艺术。每个人都不想一遍遍地看到相同的东西,因为这就是他们评价艺术的方式,一些与众不同的东西。理想情况下,也许吧。总而言之,我们应该将艺术定义为非主流样本。是的。艺术可以像波普艺术一样是主流的,对吧?
它也可能是非主流的。就像多年前印象派出现时,每个人都在画印象派。当时,之前的画家们会说,你的眼睛怎么了?你为什么画模糊的图像?所以风格来来去去。
但正因为如此,我认为这是一个推动分布式的问题。基础模型永远无法覆盖所有的一切。所以这实际上取决于人类和下一波专家提出新的数据、新的工作流程、新的美学来推动这种分布。当然,最终,代理只有在其可以访问的工具和数据一样有用。那么,如果主要的网络平台决定阻止代理访问它们的数据会发生什么?
我认为今天代理最难的事情之一是数据模式。在某些情况下,仅仅是因为它们在技术上很困难,我正在尝试访问数据,代理正在尝试访问数据,并且与该系统集成非常困难。在某些情况下,这是非常故意的。我的iPhone,照片无法通过任何API访问,因为它是一个封闭的花园。所以你说的就是数据孤岛。数据孤岛。那么,这是否阻碍了代理的发展或使它们变得更加困难?或者更进一步地说,
消费类公司传统上往往反对提供对其服务的自动化访问,因为他们想要用户参与。他们希望有时间向用户做广告。这会限制我们部署代理的程度吗?一旦我们有了可以浏览网络和浏览的浏览器原生代理,这种情况会改变吗?好问题。是的。是的。我认为我认为横子完全正确。你知道,就像用户有很强的激励。
拥有关于物理实体、人员、企业等数据的人,想要将数据保留给自己,对吧?尤其因为他们可能害怕AI会对他们做什么,顺便说一句。所以他们紧紧抓住他们所拥有的东西。这些问题很少通过定义一个新的协议并简单地说,“嘿,如果我们让人们很容易放弃他们的核心资产,他们就会这样做”来解决。显然,这不太可能奏效。但是它
最终会有人通过说,“嘿,如果你的数据是公开可见的,我们会获取它。”来解决这个问题。就像,“顺便说一句,这实际上不是你的数据,而是关于我的数据,所以你为什么应该持有它?”实际上,我觉得模型的新进展可能会改变数据模式。就今天而言,使用代理进行网络浏览效果并不好。它非常慢,非常笨拙,你必须多次尝试才能完成任何任务。
但想象一下,如果我们有基础模型的能力,可以让代理访问任何网站,以人类身份登录。我们将搁置这个问题。我还不知道代理身份是如何工作的。或者通过SSH进入服务器,例如执行某些命令或启动虚拟机以移动或访问设备农场,设计一个设备农场来玩口袋妖怪Go。就像,
也许这些传统上只有该帐户下的人类才能访问的数据现在可以提供给代理了。也可能发生相反的情况,对吧?基本上,所有消费类网站都开始使用越来越复杂的防代理验证码来阻止代理,因为他们只希望那些有注意力的人来到这些网站。我的意思是,我最近确实使用过这些深度研究工具之一,一个主要的LLM之一。
如果你仔细查看它,我经历的所有步骤都像是,你知道,我如何才能绕过网站的验证码机制。这是一个实际的推理步骤,对吧?它知道我想要什么信息,并且被阻止访问它。
那么,你知道,未来会多么反乌托邦?它实际上解决了这个问题。我的意思是,这太有趣了。这是一个非常早期的机器学习例子。我不知道你们是否记得Gmail第一次实施广告时,这是一个很大的争议,因为他们基本上说,好吧,我们不会阅读你的电子邮件。
但是我们的算法会阅读你的电子邮件,我们会根据此建议你应该观看、点击的广告。我认为我们都忘记了并习惯了它。我仍然认为我们不喜欢这个想法,但我们还是接受了它。但是一些数据提供商通过,你知道,
从电子邮件中删除数据来做出反应。因此,亚马逊现在很有名,当你订购东西时,他们会向你发送一封确认电子邮件,上面写着,嘿,你刚刚订购了东西。点击此处了解你订购了什么,何时到达,或任何你可能想知道的信息。所以这实际上在实践中确实发生了,在这个例子中,主要的持有人
找到了隐藏它的方法。看看现在是否可能做到这一点将会很有趣。但是同样的数据是从我安装的广告网络的客户端端抓取的。哦,当然。是的,是的,是的。是的,总有其他方法。是的,也许不完全相同,但相当好的代理。是的,是的。也许……
区分LLM和人类比区分经典API调用机制和人类要困难得多。这可能会改变动态。最后,Guido、Matt和Yoko回答了一个关于我们可能拥有清晰可见性的最长时间范围的显而易见的问题。在接下来的两年内,需要发生什么才能使代理成为真正具有变革意义的创新?
我认为积极的愿景是,在两年内,我们已经弄清楚了代表我工作的代理如何使用我可以访问的大多数工具。我认为也很清楚为此缺少哪些部分,对吧?我们还没有弄清楚代表我工作的代理的安全、身份验证和访问控制。我们还没有弄清楚
数据保留是如何工作的。我们还没有弄清楚与可能想要阻止该代理的消费者网站的关系。但是如果你有了它,它可以使许多任务变得容易得多,对吧?今天,如果我的数据存储在我的Google云端硬盘中,对吧,那么
我如何对该数据与其他更分散的数据源中的数据进行推理。这会产生令人难以置信的差异。所以我认为这是大胆的案例,对吧?你拥有可以访问你可以访问的所有数据的代理,它们可以代表你访问这些数据,并代表你执行任务,从而节省大量时间。这可能会让你,取决于你做什么,像,你知道,比你今天高出几倍的生产力。我对这个问题的回答实际上是基础模型的不同模式。今天,它仍然非常基于文本,这对于编码和基于文本的任务非常有效。
但是对于更多视觉优先的测试,根本没有一对一的映射。即使对于网络浏览,它也像每隔几秒钟截取一次屏幕截图并将其发送回基础模型一样笨拙。所以我实际上会押注多模态,如果我们用点击网站上的按钮、浏览网络、使用不同的设备、绘图、制作矢量艺术的不同轨迹来训练模型。
我认为模型可以在代理级别解锁新的东西。你可能猜到我的答案了。如果我们在两年后或五年后不使用“代理”这个词,我认为这是一个巨大的胜利。哥伦比亚的一些人发表了一篇有趣的论文,我认为,叫做《AI是普通技术》。他们有点认为存在一种错误的二分法。就像,
AI要么会带来乌托邦,要么会带来反乌托邦,这意味着一切都会变得很棒,因为我们有AI,或者一切都会变得糟糕。这是一种民族论述。但是如果你只是把它想象成普通的,像水、电或互联网或类似的东西,我认为这就是我们前进的方向。代理是一种帮助我们实现这一目标的方式。所以这是我的目标。我的意思是,这些东西非常强大。我们了解如何使用它。我们了解用例,我们正在,你知道,我们正在为我们自己使用它。
这就是来自A16Z Infer团队对AI代理的周到而有见地的看法。如果你喜欢这一集,请对播客进行评分和评论,并将其广泛分享给你的朋友和同事。敬请期待未来几周更多精彩剧集。