On today’s podcast episode, we discuss the many definitions of an “AI agent”, why they’re so hard to build right, and what comes next. Join Senior Director of Podcasts and host Marcus Johnson, Analyst Jacob Bourne, and Vice President of GenAI Dan Van Dyke. Listen everywhere and watch on YouTube and Spotify. Follow us on Instagram at: https://www.instagram.com/emarketer/ For sponsorship opportunities contact us: [email protected] For more information visit: https://www.emarketer.com/advertise/ Have questions or just want to say hi? Drop us a line at [email protected] For a transcript of this episode click here: https://www.emarketer.com/content/podcast-behind-numbers-next-gen-ai-assistants-autonomous-agents-beyond © 2025 EMARKETER </context> <raw_text>0 本期节目由联合航空的 Connective Media 提供支持。联合航空的 Connective Media 正在重新定义旅行者媒体,它拥有全球首个全渠道网络,从机上到在线和应用内体验,一流的技术帮助品牌在最关键的地方吸引旅行者。你准备好产生影响了吗?当然可以。在 connectivemedia.com 了解更多信息。Connective 拼写带 K。
大家好,今天是 4 月 18 日星期五。不知不觉就到了。丹、雅各布和各位听众,欢迎收听《数字背后》,这是一档新的由联合航空 Connective Media 提供支持的 Marketers 视频播客。我是马库斯,今天我们将讨论人工智能的未来。加入我一起进行这场对话。我们请来了两位嘉宾。让我们现在就来认识他们。首先是我们的 Gen AI 副总裁,他来自纽约,他是丹·范戴克。
感谢你的邀请,马库斯。是的,先生。当然。我们还请来了另一位嘉宾,我们的技术分析师,他来自加利福尼亚州的湾区。他是雅各布·伯恩。感谢你的邀请,戴夫·马库斯。当然,当然。好的,今天的趣闻来了。
在我们开始录音之前,丹说:“我有一个趣闻。”所以我今天花三个小时在我的趣闻上。但我对丹说,我们要竞争。所以雅各布将担任裁判。丹,你先来。好的。今天我了解到树懒,我最喜欢的动物,它们只会在——我这么说比较宽泛——一周一次上厕所。
它们会从树上下来,排泄出相当于体重三分之一的粪便,三分之一。它们会花时间挖个洞,然后埋起来,在这个过程中冒着生命危险。没有人知道为什么。这就是我今天的趣闻。很有趣。新陈代谢缓慢,我想。是的,我想是的。
马库斯,我认为这是树懒在过去几天里第二次被提及了。是的,真的吗?是的,我认为,是的,我认为之前我还在谈论它们可以屏住呼吸 40 分钟。
什么?我不知道你为什么需要这个。我的意思是,也许是为了在大堡礁进行深海潜水。这是真的吗?40 分钟。是的。是的。令人震惊的时长。我认为这是最长的,如果不是,是的,一定是的。好吧,也许是最长的。这是怎么回事,丹?哦,我只是在 Reddit 上看到的。好的。就是这样发生的。好的,很酷。这个不错。我也有一个。
雅各布,不要被影响,但我确实邀请你参加节目。好的,丹麦保持着吉尼斯世界纪录,自 1625 年以来一直持续使用他们的国旗,这是最长的。他们一直使用同一面国旗。因为我很酷,所以我深入研究了国旗。我发现很多国旗看起来非常相似,这是关于国旗的另一个趣闻。乍得和罗马尼亚的国旗完全相同。嗯。
罗马尼亚的国旗早了 100 年。好的,乍得。所以你偷了他们的国旗。塞内加尔和马里的国旗相同,但塞内加尔的国旗中间有一颗小星星。印度尼西亚和摩纳哥的国旗都有两条水平条纹,红白相间,但尺寸不同。新西兰和澳大利亚的国旗相同,但星星不同。
颜色。委内瑞拉、厄瓜多尔、哥伦比亚的国旗都是黄、蓝、红三色水平条纹,但中间的图案不同。还有两个。卢森堡和荷兰的国旗都是红、白、蓝三色条纹,但蓝色色调略有不同。斯洛文尼亚、俄罗斯和斯洛伐克的国旗都是白、蓝、红三色水平条纹,但纹章不同。有两个反应。第一,这就像 42 个趣闻。第二,你能够在不结巴的情况下说出所有这些,真是太了不起了。我非常敬佩。我练习过了。谁赢了?雅各布。
来吧,雅各布。你知道,我的意思是,树懒总是……任何关于动物的东西都令人难忘。啊,你说的很有道理。当然他赢了。但这让我第一次想到了一些事情,那就是,嗯,我们在国旗方面并没有太多创新,对吧?是的,根本没有。没有太多创意。根本没有,没有。而且它们都聚集在一起,所以我想……
地区会发生变化,但你知道国旗会根据设计国旗的国家所在位置保持非常相似,但是的,没有太多创意……是的,丹绝对赢了,当然,这根本不算什么,所以真正的主题是人工智能代理的黎明,以及人工智能原生公司
好吧,《华尔街日报》的伊莎贝尔·布斯克特写道,每个人都在谈论人工智能代理,但几乎没有人知道它们是什么。她指出,人工智能代理通常被理解为可以代表人类采取某些行动的系统,例如购买杂货或预订餐馆。但在某些情况下,构成行动的问题是模糊的。丹,我先问你,什么是人工智能代理?
是的,我最近对此进行了一些学习。我正在与一家人工智能原生公司的一家供应商交谈,正在向他们演示。我使用“代理”这个词用错了。电话或 Zoom 另一端的人
礼貌地告诉我,实际上从像 ChatGPT 这样的聊天机器人到像严格编排但比聊天机器人更强大的工作流程,到符合经典意义上的“代理”一词的整个范围。所以代理意味着基于人工智能的
工具,它可以根据预定义的任务自主地采取行动并使用工具。这就是定义代理的标准。但是雅各布,你实际上已经写过关于这个主题的文章,所以我很想知道这是否与你的定义相符。是的。我的意思是,我认为
首先,它现在是一个流行词。所以你的故事,丹,是相关的,因为这些是技术术语,它们被商业化并成为消费者市场的一部分,然后它就有了新的含义。但我认为区分 Gen AI 聊天机器人或 Gen AI 工具和代理,我认为这实际上是关于自主性水平的问题。对于聊天机器人,你必须为每个小任务提示它。对于人工智能代理,
它可以在不需要逐步提示的情况下采取行动。因此,它可以在后台执行你没有明确告诉它执行的操作,但所有这些操作都围绕着你想要的目标进行。好的。所以,我的意思是,你说错了。你说你用错了。我的意思是,不同?
也许吧。感觉上,如果你问 100 个人,你会得到 101 个答案,即使你谈论的是技术术语。来自 Gartner 高级总监分析师汤姆·科肖的一个答案是:“人工智能是否做出决定,人工智能代理是否采取行动?”软件需要自行推理并根据上下文知识做出决定才能成为真正的代理。这里还有来自 Akamai Research 首席技术官罗伯特·布鲁姆霍夫的另一段话。
技术,并表示他今天所说的许多用例更类似于辅助代理,而不是自主代理,需要人类用户在采取行动之前进行指导,并且仅限于个别用例。他确实说这有点自相矛盾,辅助代理和代理应该为你做这件事。但你对这些
定义的变体怎么看?我认为这反映了构成代理的标准正在发生变化的事实。目前,这就像,下一步是什么?阈值由自主性水平和对工具的访问来定义,但基线的性能,所以你可以在 ChatGPT 中获得什么,
实际上与你马库斯所描述的许多特征非常相似,因为 ChatGPT 可以根据你提出的请求决定搜索网络。它可以调用不同的工具,例如图像生成。这算不算代理?因此,虽然能够为构成代理的标准提出一个清晰具体的定义会很好,
但这是一个模糊的术语,定义随着时间的推移而变化。是的。雅各布,这有不同的级别,对吧?我很惊讶。我的意思是,对于自动驾驶或相当多的参考文献,有从零到五的六个级别不同的自动驾驶汽车。
我很惊讶代理没有类似的东西,因为为该杂志撰稿的林琳说,人工智能代理可以执行简单的任务,例如订购办公用品。最终,一些企业希望让它们进行财务交易和招聘新员工。但这在难度上差异很大。是的,我的意思是,我认为你在这里做了一个很好的类比,或者说是一个比较,与自动驾驶汽车相比。我认为这里的区别在于,自动驾驶汽车正在执行一项非常具体的任务。
驾驶你的汽车,对吧?对于人工智能来说,我的意思是,它可能是任何东西,对吧?人类可以做的任何事情,至少这是人工智能的愿景。我认为这真正突出了这里存在着人工智能部门、构建此类人工智能的公司以及当前技术水平之间的脱节。
因此,愿景是无限的自动化,本质上是。可以做人类可以做的任何事情的人工智能。我认为这是愿景,但距离实现还有很长的路要走。因此,许多术语成为实现最终目标的增量步骤。如果你考虑一下最初推出的代理,例如 OpenAI 的 TAS,
自动化程度非常有限,功能非常有限,但我们仍然称它们为代理。我认为这只是,它们确实是朝着最终目标迈出的增量步骤,即你拥有的人工智能工具或,我的意思是,代理可以真正地,你知道,
处理人类会执行的非常复杂的任务。实际上,这意味着人们将许多微观决策权让给了真正运行在后台的人工智能。这实际上很有讽刺意味,风险投资家佐伊·温伯格说,看到一个最初用来描述人类能动性的术语,
被用来谈论它的对立面——技术在几乎没有或根本没有人工监督的情况下运行——是很有讽刺意味的。丹,我们在录音前谈到了《纽约时报》艾琳·格里瑟的这段话。她说,在人工智能代理之后是能动的人工智能。它们有什么不同?
我不知道我是否同意这是接下来的事情。哦,很有趣。好的。至少根据我的定义。我们已经谈到了这些定义的主观性和不一致性。我定义能动人工智能的方式是一种涵盖……
真正意义上的代理和能动人工智能。所以雅各布,你刚才谈到了任务。OpenAI 还发布了 Operator,它可以代表用户浏览互联网并执行预订航班或 Deep Research 等操作,它可以通过浏览大量来源来撰写研究报告。所以这些都是真正的代理,但还有一个中间地带,它有点高于 ChatGPT 的能力。
但低于真正代理的能力。例如,我正在构建许多工作流程来帮助我们的研究团队从 Feedly 收集内容,对其进行整理,并撰写所谓的“研究博客文章”,这是一种内部工具。虽然它是由大量大型语言模型串联在一起的,虽然这个工作流程中存在高度的
提示和复杂性。我不会称它为代理。我会说它属于能动人工智能的范畴。但对于你关于下一步是什么的问题,我会说多代理工作流程是下一步。这意味着,想想 Deep Research,它可以编写报告,可以与……
编写一份最终触发 10 个操作员去完成 10 个不同任务的报告,所有这些都是为了满足用户的请求。这就像开始构建一个组织,所有这些组织都齐心协力地朝着共同的目标努力。
是的,我完全同意这一点。我认为这实际上是关于这些不同的人工智能或不同类型的人工智能,它们本身具有不同的技能,共同完成更多任务。我认为下一步也是人工智能代理能够预测用户的需求,因此你几乎不需要任何提示。它知道你将来需要什么,并且已经在后台处理了。不过,我认为对于人工智能来说,
日常用途,最终,我们已经看到这些术语可以互换使用。所以我认为,最终,更深层次的含义或技术含义可能会丢失。是的。是的。我喜欢你说的这种总括性术语,著名的人工智能研究员安德鲁·翁博士说,存在一个灰色地带,能动性是一个总括性术语,它包含的技术并不严格是代理,
但它们具有类似代理的特性。我们谈到了其中一些代理,我认为丹,你提到了 OpenAI,也许雅各布,OpenAI 任务。我们还有哪些其他例子?目前一些流行的人工智能代理有哪些例子?
我的意思是,来自大多数科技巨头,领先的人工智能公司都有各种各样的代理。我的意思是,亚马逊通过云端提供其 Bedrock 代理。谷歌有其 Vertex AI 代理构建器。此外,谷歌还有 Agent Space,它刚刚宣布其代理现在具有编码能力,即自主编码。好的。
丹提到了 OpenAI 的 Operator。Oracle 拥有用于医疗保健的临床人工智能代理。英伟达拥有能动人工智能蓝图,允许组织创建自己的自定义代理。
微软 Salesforce 拥有 Agent Force,等等。还有更多特定行业的代理平台。那么它们是否可以互操作,雅各布?它们可以互相交流吗?我的意思是,丹刚才谈到了多代理世界。这是否属于谷歌的范围,属于亚马逊生态系统的范围,或者它们跨公司互相交流?好吧,我认为这是,这是愿景的一部分。我认为他们正在努力实现互操作性,但我不会说我们已经实现了。
最近让我们更接近的两项措施是,我想最近对于这一项来说有点牵强。首先,引入了 MCP。所以 MCP 代表模型上下文协议,由 Anthropic(Clods 的创建者)发布。模型上下文协议只是一种让代理能够访问工具的方法。所以想想,你知道,访问 GitHub 代码库或访问……
数据库或 Zapier 用于自动化,这是一种非常优雅的简单方法,并且正在成为连接人工智能与存在于开放互联网上甚至用户计算机上的本地文件(如果他们允许访问)的主流公认标准。然后第二,新的 A2A
Alex Blanche:协议,由谷歌发布,旨在通过允许代理以一种共同的语言进行通信来补充 MCP 的功能。Alex Blanche:因此,这种互操作性的愿景开始变得更加清晰。
但现实是相当分散的,正如雅各布所描绘的那样,每个人都想成为代理的事实上的家园。我认为我们最终将走向整合,因为一个提供商将开始处于领先地位。但目前,它只是变得越来越拥挤、竞争激烈和分散。是的。所以……
有很多不同的代理可供选择。《华尔街日报》的贝尔·林指出,OpenAI 这家人工智能公司发布了一个平台,允许公司创建自己的 AI 机器人来完成客户服务和财务分析等任务。丹,我认为我们上周谈过,你对我说过,这场对话的一部分
也许没有被充分讨论的部分是,人工智能代理很难构建好。你这是什么意思?我的意思是,它们很容易构建,仅此而已。所以如果你有足够的专业知识,你可以用……
几个小时就能拼凑出一个原型,而且它会非常令人印象深刻。一旦你试图将其推向生产以满足组织的实际需求或构建面向客户的东西,你就会开始遇到困难。这就是为什么评估过程实际上是最关键的
衡量代理效能的部分,许多人会停滞不前,因为他们会意识到,对于一项特定任务,他们真正需要的是 95% 的准确率才能达到他们与人的基线,而人工智能代理可能一开始就能达到 80% 的准确率,但最后 15% 实际上占了 80% 的工作量,所以
我之前描述的一些我与我们的研究团队一起构建的工作流程实际上变成了一个非常漫长的过程,即找出评估方法,将新的迭代推送到研究团队,让他们回到我这里,然后意识到,哦,
我没有要求这个功能,但它实际上至关重要。然后一次又一次地这样做。这与研究团队无关。你只是不知道要问什么,直到你真正将它们部署到现实世界中并看到它们在哪里失败。所以这是一个更……
困难的过程,而不是表面上看起来那样,将一些非常有前景的概念验证转化为实际投入生产并开始创造价值的东西,这并不是说这是不可能的。事实上,我一直在为研究团队描述的事情,
他们对此非常积极。它现在非常有用。但我已经在研究新的功能,这将使其更有用。所以这绝对是一段旅程,很容易被炒作所吸引,并认为它会很快。
是的,是的,只是补充一点,我的意思是,我认为我们都知道聊天机器人产生幻觉的问题……有很多例子可以证明这一点……但是,你知道,风险在于,好吧,你在聊天机器人中有一些问题,输出是……你知道,错误的或以其他方式有问题的,但是当你有人工智能代理可能在网上进行交易时
如果他们弄错了,那么风险就会更高。所以我认为这使得在技术层面难以实施保障措施以降低这种情况发生的可能性,而且仅仅是商业部署,知道存在这种风险,我认为这使得它变得困难。是的。是的。
是的,这不是一夜之间就能发生的事情。Deco Group 高级运营副总裁兼人工智能主管格雷格·舒梅克说了一段很好的话:“公司应该将代理视为一种技术部署,而更多地视为需要入职和培训的数字员工。”丹,你提到了一个我认为很有趣的词,我认为你说了类似的话,那就是某种技术能力。进化论,也许。
仅仅是因为你必须对这些东西的工作原理有一定的技术理解。我想知道这是否是问题的一部分,因为这很难。OpenAI 甚至表示,要使用其人工智能代理构建平台,企业开发人员仍然需要具备全面的技术背景。那么,你必须对人工智能有多熟练才能构建其中一个代理,并按照你的观点,丹,正确地构建它呢?
好吧,我已经报道人工智能领域大约八年了,但主要是在金融服务领域,我以前是 eMarketer 金融服务研究主管。
最近,我会说两年前,随着 ChatGPT 的出现,如果我的时间线正确的话,我开始将越来越多的工作时间,现在是 100%,放在人工智能上,并开始构建概念验证和应用程序,这些应用程序
已经过渡到成为我的全职工作。所以在这么长的时间里,比如说两年半的时间里,我已经到了现在感觉自己足够熟练的地步,是的,我可以构建概念验证。是的,我可以进行评估,这将有助于将某些东西投入生产。事实上,我已经做过这些事情。但这确实花费了数年时间。这段时间花在了弄清楚诸如
如何设置 GitHub 帐户?以及将环境变量不硬编码到推送到生产中的存储库中的重要性?所有这些神秘的术语,如果你谈论的是你正在构建的应用程序,将其发布到世界上,否则就会变成一团乱麻,并很快受到黑客攻击,你就会成为一个警示故事。
我认为你说的很好,确实存在你仍然必须克服的学习曲线,但随着像 Cloud 3.7 这样的工具变得更有效的助手,学习曲线正在迅速下降。这导致了所谓的“氛围编码”的出现,就像我刚才描述的那样,“这是我想要的。
我足够熟练,可以描述,这是我希望你使用的平台。这是我希望你避免的事情。我可以时不时地指导一下,但这就像,我遇到了错误,然后我说,帮我修复这个错误,我会给你提供文档,这会有所帮助。但我不想夸大其词。这通常是一项令人沮丧、令人麻木的工作,希望随着时间的推移会越来越少。
但这很好地说明了内部人员如何学习它。你知道,你不必从外部聘请学习过它的人,并且拥有……你知道,拥有博士学位,并且在一家公司工作了 20 年。内部人员,实际上内部人员了解内部流程以及公司需要什么,并且与公司中的那些人也有关系。因此,可以说,也许这更好,雅各布。对。是的。只是还要注意,我的意思是,我认为
情况正在发生变化。我的意思是,就在昨天,谷歌云宣布了其新的无代码代理设计器,该设计器专门用于解决这个问题,即非技术人员如何……你知道,利用开发他们自己的代理。所以我认为我们会看到更多这样的情况来满足这种需求。所以,听,当这些代理……
人工智能代理的采用,似乎到目前为止非常有限。我有一个来自我之前提到的来自加纳的科肖先生的数据点。他说只是
在最近一次关于该主题的 Gartner 网络研讨会上,3400 人中只有 6% 的人表示他们的公司已经部署了代理,只有 6%。有人可能会说,你看,你已经部署了一个。也有人可能会说,是的,但是你部署得好吗?它有多先进?丹,你刚才说你可以做到,但它们很难做好。丹,我先问你这个问题。什么……
你认为未来几个月人工智能代理的部署情况会如何?是的,我们现在才四月。所以也许我应该只说 2025 年,因为几个月后,正如我在节目开始前所说,圣诞节就要到了。
我认为到年底,如果你重新进行同样的研究,你可能会达到 10% 到 20% 的采用率,如果我必须猜测的话。这将是因为更多公司发布了能动平台,以便渴望构建这些工具的开发人员团队
可以在他们已经在使用的已获授权的安全平台上进行构建。此外,你将开始看到内部人员的涓涓细流。我想到的是 eMarketer 内部非常高级的人工智能用户,例如亨利·鲍德利,例如,开始学习技能并构建他们自己的工具。
所以我认为随着这两组人开始构建更多代理,我们将看到融合。我很高兴看到这种情况在 2026 年继续增长。是的。我同意丹的预测。马库斯,我认为那个 6% 的数字是,
它看起来确实很低,特别是考虑到其他数据表明采用率更高。我认为这里的问题回到了我们对构成人工智能代理的标准的讨论。
较低的数字表明,我认为真正代理的采用率非常低。但我认为,确实有更多被称为代理的人工智能助手的采用,这在采用率方面提高了数据。随着时间的推移,我们将继续看到这一点,即
好吧,你实际上是否使用了代理?但是随着技术的改进以及我们实现了更高水平的自动化,我认为随着时间的推移,这将变得更加清晰。——是的,丹提到了亨利,亨利·帕德利。他和加西亚·塞维拉一起,
两人都谈到了在工作中使用人工智能。两部分的剧集或系列,如果你愿意的话。我认为是 3 月 31 日和 4 月 4 日,这两集都播出了。所以请查看这些内容。不幸的是,这就是我们今天这一集的时间。非常感谢我的嘉宾今天与我一起度过。首先感谢雅各布。
感谢你今天邀请我,马库斯。感谢你。是的,先生。当然感谢丹。谢谢。当然。感谢整个编辑团队,维多利亚、约翰·兰斯和丹尼。斯图尔特负责领导团队,索菲负责我们的社交媒体。感谢大家收听《数字背后》,这是一档新的由联合航空 Connective Media 提供支持的 Marketers 视频播客。我们下周一再见,祝大家周末愉快。♪