We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Can AI Agents Finally Fix Customer Support?

Can AI Agents Finally Fix Customer Support?

2024/12/18
logo of podcast AI + a16z

AI + a16z

AI Deep Dive AI Insights AI Chapters Transcript
People
J
Jesse Zhang
K
Kimberly Tan
Topics
Jesse Zhang: 我认为随着时间的推移,AI智能体将越来越依赖自然语言,因为这是大型语言模型(LLM)的训练方式。理想情况下,一个超级智能的AI智能体就像一个熟练的员工,可以学习、理解反馈并更新自身。它能够处理各种信息,并根据用户的反馈不断改进。我们构建AI智能体的目标是让它像一个熟练的员工一样工作,而不是依赖于复杂的决策树。 Decagon专注于为客户服务构建AI智能体,灵感来源于我们自身与客服电话沟通时的糟糕体验。我们关注的是围绕AI智能体的工具建设,以便人们可以更好地构建、配置和管理这些智能体,而非将其视为黑盒。我们的品牌建立在为AI智能体提供周全的工具和支持之上,使其不成为一个黑盒。 从消费者产品转向企业软件,是因为企业软件的问题更具体,有实际的客户、需求和预算,更容易优化和解决问题。 与传统的决策树相比,大型语言模型(LLM)在客户支持方面具有更高的灵活性和个性化能力,能够处理更复杂的问题。LLM的灵活性使其能够更好地个性化客户支持,提高解决问题的效率和客户满意度。LLM赋能的AI智能体能够实时提取数据、执行操作以及进行多步骤推理,从而处理更复杂的用户问题。LLM的出现使得AI智能体在处理客户支持方面取得了显著进步。 Decagon定义的AI智能体是一个协同工作的LLM系统,能够串联多个LLM调用,甚至递归调用,以提供更好的用户体验。AI智能体能否从演示走向实际应用,关键在于其应用场景的特性,而非技术堆栈。AI智能体应用场景的ROI必须可量化,例如通过解决问题的百分比来衡量,才能说服客户付费使用。AI智能体应用场景需要具有增量性,即使不能完美解决所有问题,也能带来显著价值。 AI智能体与人类交互的体验取决于客户的选择,有些客户希望将其拟人化,有些则希望明确其AI身份。Decagon通过整合用户和业务逻辑上下文,实现AI智能体的个性化,从而提升用户体验。企业客户在部署AI智能体时,最关注的是安全防护措施,例如规则、监督模型和对恶意行为的检测。AI智能体的安全防护措施包括规则设定、监督模型和恶意行为检测等。Decagon的核心理念是赋能用户自主构建和管理AI智能体,包括自定义安全防护措施。Decagon专注于提供工具和基础设施,让用户能够自主构建和管理AI智能体,并自定义安全防护措施。Decagon致力于提供易于使用的工具,即使是非技术背景的用户也能轻松构建和管理AI智能体。 企业可以通过优化知识库结构和API设计,更好地支持AI智能体的应用。企业可以通过改进知识库结构和API设计,提高AI智能体的效率和准确性。未来AI智能体的交互方式将越来越自然,更像与人类的对话。未来AI智能体的交互方式将越来越自然,更像与人类的对话,而不是依赖复杂的决策树。构建一个真正可投入生产的AI智能体比简单的GPT封装要复杂得多,需要解决许多实际问题。Decagon销售的是软件,LLM只是其组件之一,客户购买的是软件的整体功能,包括监控、报告、反馈等。将AI智能体投入生产环境需要解决许多问题,例如幻觉、恶意攻击、延迟和语气等。许多企业选择Decagon是因为他们不想自己处理AI智能体部署过程中遇到的复杂问题。通过将敏感操作放在确定性系统中,可以有效降低AI智能体面临的安全风险。企业通常会进行安全测试,例如红队测试,来评估AI智能体的安全性。Decagon鼓励客户进行安全测试,例如红队测试,以识别和解决潜在的安全漏洞。未来可能会出现针对AI智能体的新的安全认证标准。 作为一家应用AI公司,Decagon需要在保持产品路线图可预测性的同时,及时跟进最新的技术发展。Decagon的软件开发工作与传统的软件开发类似,主要挑战在于及时评估和选择合适的LLM模型。Decagon会定期评估新的LLM模型,并根据评估结果进行切换。Decagon更关注LLM模型的指令遵循能力,而非推理能力。Decagon内部的评估基础设施对于快速迭代和确保AI智能体性能至关重要。Decagon内部的评估基础设施对于快速迭代至关重要,因为它可以帮助团队快速评估模型变化的影响。多模态对于AI智能体很重要,但其普及取决于技术和市场需求。在构建了完善的工具和逻辑之后,添加新的模态(例如语音)对Decagon来说并不困难。多模态AI智能体的普及取决于客户的接受程度和技术成熟度。从文本开始是合理的,因为文本更容易被客户接受和监控。语音AI智能体面临的技术挑战高于文本AI智能体,例如延迟和自然度。 Decagon在早期阶段就得到了很多客户的积极回应,这出乎意料。客户对Decagon的AI智能体解决方案表现出极大的兴趣,这与该解决方案的时机和应用场景密切相关。企业在采用AI智能体时,更关注的是其价值和客户满意度,而非幻觉问题。AI智能体的定价不应该基于传统的每用户许可模式,而应该基于其工作产出,例如每次对话或每次解决问题。传统的每用户许可模式不适用于AI智能体,因为AI智能体的价值不取决于用户数量,而是取决于其工作产出。AI智能体的定价应该基于其工作产出,例如每次对话或每次解决问题。Decagon采用按对话付费的模式,因为它比按解决问题付费更简单、更可预测。按对话付费的模式比按解决问题付费更简单、更可预测,也更能避免一些潜在的激励问题。 未来,AI智能体在工作场所中的应用将显著增加对AI管理人员的需求。AI管理人员需要具备观察、解释和构建AI逻辑的能力。一些对错误容忍度极低的行业,AI智能体可能更多地扮演辅助角色而非完全自主的角色。 Kimberly Tan: 如果一个想法看起来很明显,但没有一个明确的解决方案,那么就意味着这个问题实际上还没有得到解决。Decagon在早期阶段就获得了大量客户的关注,这表明市场对AI原生客户支持解决方案的需求巨大。AI智能体的采用率取决于其ROI是否清晰可衡量。企业在采用AI智能体时,更关注的是其价值和客户满意度,而非幻觉问题。 Derrick Harris: (节目主持人的角色,没有表达核心观点)

Deep Dive

Key Insights

Why are AI agents gaining popularity in customer support?

AI agents offer higher personalization, flexibility, and the ability to handle complex workflows, which improves customer satisfaction and resolves more inquiries compared to traditional chatbots or decision trees.

What is the difference between a chatbot and an AI agent?

Chatbots rely on predefined decision trees and simple NLP, often leading to frustrating experiences. AI agents, on the other hand, use LLMs to handle complex inquiries, adapt to different situations, and provide personalized support by chaining multiple LLM calls and integrating business logic.

Why do most customers prefer a per-conversation pricing model over per-resolution?

Per-conversation pricing offers simplicity and predictability, as defining what constitutes a resolution can be ambiguous and lead to misaligned incentives. Per-resolution pricing could encourage deflecting difficult cases, which customers dislike.

What challenges do incumbents face when adopting AI agents?

Incumbents struggle because AI agents cannibalize their traditional seat-based pricing models. They also have less risk tolerance due to their large customer base, making it harder for them to iterate quickly and improve products compared to startups.

What are the key skills needed for an AI supervisor in the future workplace?

AI supervisors will need skills in observability (understanding how AI makes decisions) and decision-making (providing feedback and building new logic). They will also need to monitor AI performance and ensure it aligns with business goals.

How do AI agents handle security concerns in enterprise settings?

AI agents use deterministic APIs for sensitive tasks, reducing the risk of non-deterministic outputs. Enterprises often conduct red teaming to stress-test the system, ensuring it can handle potential attacks or misuse.

What is the role of personalization in AI agents for customer support?

Personalization involves tailoring responses to both the user and the specific business logic of the customer. This requires context about the user and access to business systems, enabling the agent to provide a more accurate and relevant experience.

Why is the customer support use case well-suited for AI agents?

Customer support has quantifiable ROI (e.g., percentage of inquiries resolved) and allows for incremental adoption, meaning agents don’t need to be perfect from the start. This makes it easier for businesses to adopt and scale AI solutions.

What are the technical challenges of implementing voice-based AI agents?

Voice agents require lower latency and more natural interaction, which makes them technically more challenging to implement than text-based agents. They also need to handle interruptions and respond in real-time, which adds complexity.

How does Decagon manage the rapid evolution of LLMs?

Decagon evaluates new models whenever they are released, using internal eval infrastructure to ensure they don’t break existing workflows. They focus on instruction-following intelligence, which benefits their use case, even as models improve in other areas like reasoning.

Shownotes Transcript

你如何实际构建一个代理?我们的观点是,随着时间的推移,它会越来越像基于自然语言的,因为这就是代理思考的方式,或者说这基本上是LLM的训练方式。最终,如果你有一个完全像超级智能的代理,它基本上就像一个人,你可以向它展示东西,你可以向它解释东西,给它反馈,它就会在它的心中进行更新。就像你想到团队中一个非常称职的人一样,他们来了。

你教他们一些东西,他们开始工作,然后你给出反馈,你可以展示新的东西。你可以向它展示新的文档或新的图表等等。最终,它会朝着这个方向发展,事情会变得更加自然,语言也会更加自然。人们不会仅仅使用这些权宜之计,比如构建巨大的、复杂的决策树来捕捉你想要的东西,但这些决策树很容易崩溃。

美好的一天,欢迎来到A16Z AI播客。我是德里克·哈里斯。今天加入我的还有Decagon的联合创始人兼首席执行官Jesse Tsang,以及A16Z的合伙人Kimberly Tan。Kimberly与Jesse进行了讨论,Jesse分享了他迄今为止在Decagon公司和产品建设方面的经验。

如果您不熟悉,Decagon是一家为企业提供AI代理以协助客户支持的初创公司。它们既不是聊天机器人,也不是单一的API调用LLM包装器,而是高级的、可调整的代理,可以根据公司的特定需求进行个性化定制,并能够处理复杂的工作流程。

除了解释他们为什么创建Decagon以及它是如何架构来处理不同的LLM和客户环境之外,Jesse还谈到了每会话业务模型的好处以及AI代理将如何改变负责客户支持的人员所需的技能。还值得注意的是,Kimberly最近写了一篇题为“RIP to RPA:智能自动化的兴起”的博客文章,我们在节目中简要讨论了这篇文章。

这是了解这种类型的自动化在业务流程中如何起飞的一个很好的起点。我们将在节目说明中发布指向该文章的链接。

提醒一下,请注意,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且不针对A16Z基金的任何投资者或潜在投资者。更多详情,请访问a16z.com/disclosures。

简单介绍一下我的背景,我在博尔德出生和长大。从小就参加很多数学竞赛之类的事情。在哈佛大学学习计算机科学,之后创办了一家也由A16Z支持的公司。我们最终被Niantic收购。然后我们在这里创建Decagon。

我们所做的,是为客户服务构建AI代理。当我们刚开始的时候,对我们来说,我们想要构建一些对我们自己来说非常非常贴切的东西。所以,当然,没有人需要被教导客户服务的AI代理能做什么,对吧?我们都曾在电话里等待航空公司或酒店的接听。所以这就是这个想法的起源。我们只是与许多客户交谈,以了解我们应该具体构建什么。

我认为对我们来说,特别突出的一点是,当我们更多地了解AI代理时,我们开始真正思考当有很多AI代理时未来会是什么样子。我认为每个人都相信会有很多AI代理出现。因此,对我们来说,一件有趣的事情是,围绕AI代理工作的人会做什么?他们会有什么工具?他们对他们正在使用或管理的代理有什么样的控制或可见性?

所以这就是我们围绕它构建公司的基础。我认为这是迄今为止使我们与众不同的事情,我们拥有所有这些围绕这些AI代理的工具,供我们合作构建、配置它们的人使用,并且不会真正成为一个黑匣子。这就是我们创建品牌的地方。

是什么激励了你?因为你的上一家公司是一家基于消费者的视频公司,对吗?是的。转向企业软件的原因是什么?好问题。我认为就主题而言,当创始人考虑主题时,通常会与主题无关,因为实际上当你进入一个新的领域时,你通常会很天真。因此,对事物有新的视角有一些优势。

因此,当我们进行构思时,几乎就像没有主题是禁止的。我认为这是一种非常常见的模式,也包括我自己,就像更多量化的人一样,在你尝试过消费产品之后,你会更多地转向企业软件,因为问题更加具体。就像你拥有实际的客户,他们有实际的需求、预算等等,你可以针对这些需求进行优化和解决问题。

而消费者也很令人兴奋,但它比运行实验更依赖直觉。我认为就我个人而言,这更适合我。

也许只是为了开始,Decagon今天处理的最常见的支持类别是什么?再多谈谈你实际上是如何利用LLM来解决这个问题的,以及现在可能以前做不到的事情。当然。所以如果你考虑之前的自动化,你可能会有决策树。你可以做一些简单的NLP来确定在决策树中走哪条路。

但我们都使用过聊天机器人。这是一种非常令人沮丧的体验。你通常不会有一个可以通过决策树完全解决的问题。因此,你最终会沿着与你所问的问题相关的路径前进,但实际上并非如此。

现在,你有了LLM。因此,正如我们都使用过ChatGPT一样,LLM的神奇之处在于它们非常灵活,可以适应许多不同的情况。它们只是拥有基本的智能。因此,当将其应用于支持或支持查询或人们提出的问题时,你可以更加个性化。这就是第一点,对吧?个性化因素大大提高了。

这会在各方面解锁更高的统计数据。你可以解决更多问题。人们更快乐了。客户满意度更高。

然后自然而然地下一步是,好吧,如果你拥有这种智能,那么你应该能够做更多人类可以做的事情。人类可以做的事情是,他们可以为你实时提取数据。他们可以采取行动。他们可以推理多个步骤。如果你带着一个相当复杂的问题出现,就像,好吧,我想做这个和那个。也许AI只准备好了第一件事。LLM足够聪明,可以识别这里有两个问题。并且,首先,让我解决第一个问题,然后我会帮助你解决第二个问题。

在LLM出现之前,这基本上是不可能的。这就是为什么我们现在看到技术由于LLM而能够做的事情有了阶跃式发展。

在这种情况下,你如何定义AI代理?因为人们对代理这个词的用法非常广泛。我很想知道在Decagon的背景下,它实际上意味着什么?我会说代理或多或少是一个一起工作的LLM系统,对吧?所以你有一个LLM调用,你基本上发送一个提示,然后得到一个响应。对于代理,你希望能够将多个这样的调用链接在一起,甚至可以递归地进行,其中一个LLM调用可能会决定如何处理消息。然后这会导致其他调用

引入更多数据,并可以采取行动,并根据用户的所说内容进行迭代,并可能提出后续问题,所以对我们来说,代理你可以认为几乎就像一个LLM调用、API调用或其他逻辑的网络,所有这些都一起工作以产生一个

更好的体验。关于这一点,如果我们再多谈谈你构建的实际代理基础设施,我认为一件非常有趣的事情是,现在到处都有AI代理的演示,但很少有真正投入生产的。从外部很难知道什么是真实的,什么不是。因此,在你看来,今天的AI代理擅长做什么,为了使它们变得强大和可靠,还需要哪些技术突破?

我对这个问题的看法略有不同,即AI代理只是演示还是所谓的“实际工作”之间的区别,与其说是技术堆栈,因为我认为大多数人可能都会使用大致相同的技术。我认为一旦你走得更远,就像我们一样,我们已经存在了一年多。你已经创建了非常适合你的用例的东西。

但归根结底,人们可以使用相同的模型。人们可以使用相同的技术。我认为区分某些东西是否有效最大的区别实际上是用例的形状。当你刚开始的时候很难知道这一点。但回顾过去,你可以进行反思。我会说有两个属性对于某些东西超越演示非常重要。

首先,你正在解决的用例,ROI必须非常容易量化。这非常重要,因为如果不是这样,那么很难说服人们实际使用你并花钱在你身上。因此,在我们的案例中,可量化的指标是你解决了多少百分比的支持请求?

因为这里有一个确切的数字,人们可以证明,好吧,如果你解决得更多,让我将其映射到我目前正在花费的费用以及这目前需要的时间。因此,如果你有这个,那么对我们来说另一个指标是客户满意度。所以

因为量化ROI非常容易,人们实际上会采用它。第二个方面是用例必须是增量的。因此,如果你基本上需要一个代理来达到超人的水平,并在一开始就解决近100%的用例,那也很困难。因为众所周知,LM是非确定性的。你必须能够有一些后备方案。并且

幸运的是,支持具有这个很好的特性,你可以随时升级到代理。即使你只解决了其中的一半,这对人们来说也是非常有价值的。因此,我认为支持用例恰好具有使其适合AI代理的特性。我认为还有很多其他领域,人们可以在其中创建一个令人印象深刻的演示,你甚至不必费力就能看出为什么AI代理会有用。但是,也许它必须在一开始就完美无缺。如果是这样的话,那

没有人真的愿意尝试它或使用它,因为它不完美的后果相当严重。例如安全之类的东西,对吧?人们运行模拟,这是一个非常经典的想法,就像,哦,如果LLM可以阅读这个就好了。但我很难想象有人会说,好吧,AI代理,去吧,去做吧。我会相信你这样做,因为如果它犯了一个错误,你就完蛋了。我与之互动的程度有多清晰?

AI代理与与人类互动,或者像,是否试图使其看起来很自然?它就像,这实际上,很明显你正在与LLM互动,并相应地进行操作。这通常取决于我们的客户来决定。我们看到差异很大。例如,在频谱的一端,你有一些人真的试图将他们的代理人格化。所以有一个人的头像,有一个人的名字。它只是自然地回应。在频谱的另一端,它称自己为AI。它基本上把它说得很清楚。我认为不同的公司有不同的立场。例如

通常,如果你在一个受监管的行业中,你必须说清楚。我认为现在真正酷的是,你开始看到客户的行为发生了转变。因为很多我们的客户,他们会收到大量的社交媒体帖子,比如,天哪,这是我尝试过的第一个真正感觉真实的聊天体验,或者这太神奇了。这对他们来说很棒,因为现在他们正在他们正在

他们的客户正在学习,嘿,如果这是一个AI体验,它实际上可能比人类更好。过去并非如此。因为过去,我们可能都打过电话,就像,好吧,AJ,AJ,AJ,对吧?你几次提到了这个想法,就像,个性化,无论是在

每个人都在后台使用相同的技术基础设施,但它关乎个性化支持。你的一些客户想要不同类型的个性化。你能更多地谈谈这个吗?以及你究竟做了什么,才能获得导致人们在线上说,哦,哇,这是我用过的最好的支持体验?对我们来说,

有一种个性化来自对用户的塑造。你需要了解用户本身的上下文,对吧?这就像你需要额外的上下文。然后,你需要了解我们客户的业务逻辑的上下文。如果你将这两者结合起来,

你将获得非常好的体验。显然,这听起来很容易。实际上获得所有需要的上下文非常困难。因此,我们构建的大部分内容都是,你如何构建正确的基元,以便当有人部署我们时,他们可以很容易地决定,好吧,

这就是我们想要的业务逻辑。首先,你需要执行这四个步骤。如果第三步失败,你必须进入第五步,诸如此类,你希望能够非常轻松地教AI,同时让它访问,好的,这是用户的帐户详细信息。如果你需要获取更多内容,你可以点击这些API。这就是位于模型之上的层——我认为它有点像编排层。

这使得代理成为现实。听起来在这种情况下,你需要访问很多业务系统,你需要很多关于用户的信息,你可能还需要很多关于客户实际上如何喜欢与他们的用户互动的信息。我想这可能是非常敏感的数据。所以你能更多地谈谈,

当涉及到实际部署AI代理时,企业客户通常需要哪些保证?你如何考虑处理这个问题的最佳方法,因为你的解决方案确实提供了更好的体验,但对于许多第一次体验代理的人来说,它也是新的?是的,这归结于护栏。随着时间的推移,因为我们已经做了很多这样的实施,很清楚人们关心哪种类型的护栏。

例如,最简单的一种可能是你可能只需要遵循一些规则。你知道,如果你与一家最终服务公司合作,你不能提供财务建议,因为这是受监管的。因此,你必须将其调整到代理中,并确保它永远不会这样做。因此,通常你可以做的是,你有一个主管模型或某种设置好的系统来运行这些检查,然后再将结果发送出去。你可能拥有的另一种护栏是,如果有人进来并且只是

试图与你作对。他们看到这是一个生成系统,他们试图让你说,好吧,我的余额是多少?好吧,把它乘以10,诸如此类。你也想能够检查一下。所以我们已经发现了许多这样的类型,我想,在我们部署这些代理的几个月到一年时间里。对于每一个,你可以分类,好的,你需要这种类型的护栏,然后

随着你构建越来越多,系统变得越来越巩固。每个护栏对每个客户或每个行业的独特性如何?当你吸引越来越多的客户,处理各种各样的用例时,你如何考虑大规模地构建它?这又回到了我们的核心论点,那就是在几年内,代理将无处不在。

因此,真正重要的是为人们提供工具,并赋能下一代工作,我想,就像代理主管一样,为他们提供构建代理并添加他们自己的护栏的工具。因为我们不会成为为他们定义护栏的人。每个客户都最了解他们的护栏和他们的业务逻辑。因此,我们的工作实际上是成为构建工具和基础设施的最佳人选,以便他们能够开展业务。

构建代理。因此,这就是为什么我们一直在谈论很多,嘿,你的代理不应该是一个黑匣子。你应该能够控制如何构建这些护栏,构建规则以及你想执行的逻辑。因此,我认为这是迄今为止使我们与众不同的唯一一点,我们只是在这个工具上投入了很多,并且我们想出了很多有创意的方法,对于你可能甚至没有超级技术背景的人来说。

可能对AI模型的工作原理没有最深入的了解,但你仍然可以将他们大脑中的内容以及他们希望AI执行的操作下载到代理中。我认为这在未来几年将变得越来越重要。如果人们正在评估这样的工具,我认为这应该是最重要的标准之一,无论你正在评估哪种类型的代理,因为你希望随着时间的推移,你有能力使其变得越来越好。

客户或企业可以做些什么来准备他们的系统或实践以进行任何类型的自动化,但可能是像代理这样的东西,就他们如何设计他们的数据系统或如何设计他们的软件架构和业务逻辑以实现这一点而言?因为我觉得很多AI的事情,我们来处理它,它非常新。但是一旦你进入这个现有的遗留系统,就像所有事情一样,你都在处理大量的意大利面条代码和胶带等等。就目前正在从头开始构建而言,

有很多最佳实践可以使你的生活更轻松,对吧?你构建知识库的方式,我们已经写过这方面的内容,你可以做一些事情来使AI更容易吸收它并提高其准确性。部分原因在于拥有真正模块化的知识库块,而不是仅仅拥有包含大量答案的大型文章。

对吧?所以这是人们可以做的一件战术性的事情。当你设置你的API时,你可以使它们对代理友好,并以一种方式设置权限,并以一种方式设置输出,这使得代理更容易吸收它,并且不必在之后进行太多计算来找到答案。所以就是这样。

但我不会说有什么事情是,你必须这样做才能使用代理。这听起来像是更好的文档。总是一件好事。然后,是的,所以就像信息组织一样。听起来如果你试图教人们能够提示你的代理以一种最忠实于

像他们的客户或他们的用例一样的方式行事。在如何做到这一点的UI和UX方面,有很多实验或我会说像新的领域需要突破,因为它与传统的软件大相径庭。

我很好奇,你们是如何考虑这个问题的?像代理优先的世界中UI UX是什么样的?然后你认为它在未来几年会如何变化?是的,我的意思是,我不会声称我们已经解决了这个问题。我认为我们找到了一个对我们当前客户非常有效的局部最优解。但这对我们和许多其他人来说都是一个持续的研究领域。核心问题归结为类似于我们一直在说的,对吧,就是你有代理。

你如何,首先,准确地看到它在做什么以及它如何做出决策?然后,使用它来决定对其进行哪些更新以及对AI的反馈应该是什么。因此,这就是UI元素实际结合的地方。特别是第二部分,对吧?它就像,你如何实际构建一个代理?我们的观点是,随着时间的推移,它会越来越像基于自然语言的,因为这就是代理思考的方式,或者说这基本上是LLM的训练方式。最终,如果你有一个完全像超级智能的代理,

它基本上就像一个人,你可以向它展示东西,你可以向它解释东西,给它反馈,它就会在它的心中进行更新。如果你只是想到团队中一个非常称职的人,就像他们来了,你教他们一些东西,他们开始工作,然后你给出反馈。你可以展示新的东西。你可以向它展示新的文档或新的图表等等。所以我认为最终,它会朝着这个方向发展,

事情会变得更加自然,语言也会更加自然。人们不会仅仅使用这些权宜之计,比如构建巨大的、复杂的决策树来捕捉你想要的东西,但这些决策树很容易崩溃。过去我们不得不这样做,因为那是我们所拥有的一切,对吧?我们没有LM。但是现在,随着代理变得越来越好,UX和UI将变得更加自然。

一年前,也就是Decagon成立大约一年多前,人们普遍认为,很多对LLM来说非常好且非常实用的用例也将只是人们所说的“GPT包装器”,这意味着公司只需对基础模型进行一次API调用即可立即解决他们的支持挑战。但显然,我们看到公司选择使用Decagon而不是这样做。到目前为止,情况似乎并非如此。我想

想知道你是否可以解释一下原因。像,内部构建它比人们预期的要复杂得多的是什么?人们对这个整个概念有什么误解?成为一个GBT包装器没有什么错。

你基本上说Vercel就像一个AWS包装器或类似的东西,对吧?我想当人们说这个词时,通常是贬义的。我想我对这个问题的看法是,我认为如果你正在构建一个代理,那么根据定义,你将利用LLM作为工具,对吧?所以你是在构建一些东西的基础上......

你通常会在AWS或GCP或类似的东西之上构建。我认为如果我们真的遇到麻烦,那就是你正在构建在LLM之上的软件不够厚或不够复杂,以至于有人会觉得,好吧,这里实际上存在差异。但对我们来说,我认为回顾过去,

我们销售的东西主要是软件。我们基本上就像一家普通的软件公司。我们使用LLM作为软件的组件和工具之一。但是当人们为这样的产品付费时,他们主要想要软件,对吧?他们希望能够拥有监控和报告AI的工具。他们希望能够深入了解AI进行的每一次对话。他们希望能够给予反馈并构建它等等,对吧?所以这就是很多......

软件的来源。即使对于代理本身,人们遇到的问题是,制作演示非常酷,但是如果你试图使其准备好投入生产并面向客户,你必须消除非常长的尾巴,例如,是的,防止幻觉,防止不良行为者进入,例如试图与你作对。

我们真的在改进延迟、语气等等。因此,我们与许多团队进行了交谈,他们自己做了一些实验并构建了初始版本。然后他们说,好吧,是的,很清楚。我们不想成为构建这个长尾的人。我们也不想成为不断为CX团队构建新逻辑的人。

就像客户团队一样。所以就像,好吧,选择某个人是有道理的。你提到了一点,你必须消除很多不同的东西,不良行为者等等。我相信很多正在收听的人,他们考虑使用AI代理,都担心,你知道,当你开始将LLM引入画面时,会出现新的安全攻击媒介。或者当你引入代理时,可能会出现新的安全风险。

你们是如何考虑这个问题的,以及如何考虑处理代理并确保你仍然拥有顶级企业安全的总体最佳实践?

在安全方面,你可以做一些显而易见的事情。所以这些是我提到的其中一些事情,对吧?就像你只想设置保护措施一样。核心是,你可以做的事情——人们对LM感到害怕的是它们不是确定性的。但好消息是你实际上可以将大部分确定性的——就像大部分敏感和复杂的东西放在一个确定性的墙后面,当它调用API时,计算就会发生在那里。所以你并没有把它留给LM。这基本上消除了很多核心问题。

但是,你仍然会遇到这种情况,比如,会有不良行为者出现,或者人们试图让它产生幻觉之类的事情。因此,我们看到的是,在我们合作的所有大型客户中,他们的安全团队基本上会介入并对我们的产品进行红队测试,他们会花几周时间用他们能想到的所有不同方法来尝试破坏它。

随着代理变得越来越普遍,我们可能会越来越多地看到这种情况,因为这是真正获得信心的最佳方法之一:这是否有效?就像你只是对它进行红队测试并向它扔很多东西一样。这就是为什么我喜欢,是的,我知道现在有一些服务,它们是试图构建红队工具或让人们自己做这件事的初创公司。

但我认为这是我们迄今为止看到的一件很酷的事情。因此,我们合作的许多公司,比如在销售周期的后期,他们只是拥有自己的安全团队,或者与一些外部团队签订合同,他们只是对其进行压力测试。

为了合作,我们必须在这方面做得很好。这就是问题的关键。MARK MANDEL:这是你鼓励你的客户做的事情吗?因为我知道当我们谈论人工智能政策时,我们谈论的一件大事是应用层,并将责任放在LLM的用户和运行应用程序的人身上,而不是模型本身是危险的东西。就像,是的,红队测试并找出你有哪些具体的用例、攻击和漏洞需要保护,而不是仅仅依赖于OpenAI或任何其他机构已经实施的措施。

当然。我还认为,可能会出现新的认证,因为你知道每个人都像针对不同行业的SOC 2和HIPAA一样。然后,大多数时候,当你销售正常的任务时,人们会要求进行渗透测试,就像我们总是必须提供我们的渗透测试一样。对于人工智能代理来说,这将是类似的事情,可能有人会为它创造一个新名称。但这就像对代理进行健壮性测试一样。

一件有趣的事情是,人们显然对大型实验室推出所有新的模型突破和技术突破感到非常兴奋。作为一个应用人工智能公司,你显然不会自己进行研究。你正在利用这项研究并在其周围构建大量软件以交付给最终客户。但是你正在建立在下面非常快速变化的基础之上。我很好奇,作为一个应用人工智能公司,你如何同时能够

预测你自己的产品路线图并为用户想要的东西而构建,同时还要了解所有新的技术变化及其如何影响你的公司。更广泛地说,你认为面临类似情况的应用人工智能公司正确的策略是什么?好吧,你堆栈的不同部分,对吧?所以你有LLM,如果你只是考虑应用层,LLM在底部。你可能在中间有一些工具可以帮助你管理LLM或进行评估等等。是的。

然后顶部的部分主要是我们构建的,这再次类似于标准的SaaS。因此,我们所做的工作大部分与普通的软件并没有太大区别,只是我们显然还有LLM变化如此之快的额外研究组件。我们可以用它们做什么?他们擅长什么?我们应该为这项任务使用哪个模型?这是一个很大的问题,OpenAI正在推出新事物,Anthropic正在推出新事物。Gemini现在也越来越好了。

因此,你必须拥有自己的评估方法来设置人们擅长什么,以便你可以在正确的情况下使用正确的模型。有时你想要微调,然后问题就变成了何时微调?什么时候值得?这些可能是与你可以做的LLM相关的研究性问题。但至少到目前为止,感觉沙子并没有那么快地移动,因为我们现在并不那么依赖中间层。所以主要变化的是LLM。

它们并没有那么频繁地变化,即使它们确实变化了,也主要是升级,所以3.5 sonic几个月前进行了更新,现在的情况是,好吧

我们是否应该将其替换掉并使用它而不是旧版本?你只需要运行一堆uvalves。当你替换它时,你只需要停止考虑它,因为你现在使用的是新模型。01发布了,情况类似。你用它做什么?在我们的案例中,对于我们大多数面向客户的用例来说,它有点慢。因此,我们可以将其用于更多后端的事情。

这或多或少就是我们所要做的。我们只需要有良好的系统来进行模型方面的研究。你多久评估一次新模型并将其替换掉?每当出现新模型时,我们都会对其进行评估。你只需要确保即使......

这是一个更智能的模型。它不会以某种方式破坏你的用例所依赖的一些东西。这种情况可能会发生。该模型总体上可能更智能,但在某些极端情况下,它在你的某个工作流程中选择A或B方面很糟糕。这就是评估的目的。我认为,总的来说,我们非常重视的那种智能——我会将其描述为更像指令遵循,我们希望模型在指令遵循方面越来越好。如果是这样的话,它只会严格地对我们有利。这太棒了。

最近的许多研究似乎都围绕着更多推理类型的智能,在编码方面变得更好,在数学方面变得更好,诸如此类的事情。这对我们也有帮助,但不如第一种类型那么有帮助。

你几次提到的一件非常有趣的事情,我认为这也是Decagon独有的,那就是你们在内部构建了许多评估基础设施,以确保你们确切地知道每个模型在你们提供给它的测试集中的表现如何。你能更多地谈谈这个吗?例如,内部评估基础设施的核心是什么?它如何让你和你的客户都充满信心?因为其中一些也是面向客户的,代理正在按照你希望的方式执行。

我认为这非常重要,否则我们很难快速迭代。因为如果你觉得你将要做的每一次改变都有很大的机会毁掉某些东西,那么你就不会很快做出改变。但是如果你建立了评估,那么,好吧,我们有这个很大的改变,我们有这个模型改变,或者我们有这个......

新创建的东西,让我们对所有评估进行运行,如果它们很好,那么你可以感觉,好吧,我们改进了东西,或者我们可以知道,在不那么担心的情况下发布它,所以在我们的领域中,有趣的事情是,评估需要来自客户的输入,因为客户,比如我们的客户,是决定某事是否正确的人,我们显然可以检查一些高级事物,但通常情况下,

他们会提出一个具体的用例,这是正确的答案,或者它必须这样做,它必须具有这种语气,它必须这样说。这就是评估的基础。因此,我们必须确保我们拥有强大的系统。我们刚开始自己构建这个系统。维护它并没有那么困难。因此,我们知道市面上有一些评估公司,我们已经探索过其中一些公司。也许在某些时候,我们会看看采用它们是否有意义。但是评估系统不再是我们一个巨大的痛点。

你知道,今天一个热门话题是多模态,即人工智能代理应该能够跨越人类今天所做的一切形式进行交互,无论是文本、视频、语音等。我的意思是,我知道Decagon最初主要是基于文本的。所以我很好奇,从你的角度来看,多模态对于人工智能代理来说有多重要?时间范围是多少?你认为它何时会完全成为主流,甚至成为预期?

从公司的角度来看,这很重要,因为添加新的模态并没有那么困难。我的意思是,这并非微不足道,但从核心来看,如果你解决了其他问题,比如我提到的所有问题,对吧,比如实际构建人工智能、监控它并拥有逻辑的工具,那么添加新的模态就不是最难的事情。

因此,对我们来说,拥有所有模态并扩展我们的市场非常有意义。我们基本上是模态不可知的。我们为每个模态都有自己的代理。总的限制因素是,首先,我们的客户已准备好采用新的模态。

我认为从文本开始很有意义,因为人们更积极地采用它,而且对他们来说风险较低。而且更容易监控,更容易合理化。另一个重要的当然是语音。我认为,人们对语音的接受度还有很大的提升空间。我认为现在我们看到早期采用者实际上正在采用语音代理,这令人兴奋。

然后,另一部分显然是在技术方面。所以我认为大多数人都会同意,语音的门槛更高,对吧?如果你正在与某人进行电话交谈,你需要延迟非常清晰。如果你打断他们,他们必须非常自然地回应。因为延迟较低,你必须更巧妙地进行计算。如果你在聊天中,回复需要5到8秒,你几乎不会注意到。感觉很自然。

如果在电话交谈中回复你之前需要5到8秒,那么这感觉有点奇怪。因此,我认为语音方面存在更多技术挑战。因此,随着这些技术挑战得到解决,市场对采用语音更感兴趣,

这将解锁像这样的新模态。在我们继续之前,因为我想更多地谈谈人工智能代理的商业模式是什么样的。在你第一次构建人工智能代理时,或者当你与客户讨论他们使用的系统、处理的数据、他们担心的问题时,有什么事情让你感到意外?Decagon为了最好地服务企业客户而必须做哪些非直观或令人惊讶的事情?正确的。

我认为令人惊讶的是,当我们刚开始的时候,人们多么愿意与我们聊天,因为我们只有两个人。我的意思是,我们之前都创办过公司,所以我们认识更多的人,但仍然是每个人,创办过公司的人,这是非常相关的,对吧?你试图进行介绍性对话,如果你谈论的内容对人们来说并不那么有趣,那只是一次相当不温不火的对话。当我们开始谈论这个用例时,它是

我想说的是,人们对谈论它感到多么兴奋,这让我感到非常惊讶,因为这是一个如此明显的想法。你会认为,好吧,因为它是一个明显的想法,所以有人在做这件事,或者有解决方案,或者人们已经想到了某种解决方案。但我认为时机很好。这是一个很大的用例。人们真的关心这个问题。而且由于我之前提到的原因,该用例非常适合采用人工智能代理并将它们推向生产,因为你可以逐步进行,你可以跟踪投资回报率。我认为这令人惊喜。但显然,这我的意思是,之后还有很多事情要做。比如你必须与客户合作,你必须构建产品,你必须弄清楚要走哪个方向。但我认为在早期,这有点令人惊讶。

Kimberly,我的意思是,如果我不提到你写了这篇关于RPA的博客文章,我可能会疏忽,这篇文章涉及到很多自动化类型的任务和初创公司。这是你在这些自动化任务中看到的东西吗?或者只是解决方案不理想的事情?所以人们总是寻找更好的方法来做这件事?是的,我绝对这么认为。我想就此说几件事。首先是如果

如果一个想法对人们来说很明显,而且没有一家明确的公司在解决这个问题,每个人都指向它并说,哦,你应该只使用它,那么这意味着这个问题实际上还没有得到解决。从某种意义上说,对于公司来说,这是一个非常广阔的机会去构建它。因为,你知道,自从一开始我们就与Decagon一起投资。我们看到他们

经历了想法的迷宫。当他们专注于支持并开始与客户聊天时,很明显,所有客户都渴望拥有某种人工智能原生支持解决方案。这很常见。这是我之前问过的一个问题,关于,人们普遍认为这只是一个GPT包装器。Decagon在早期从客户那里获得的兴趣程度让我们很早就相信,许多这些问题比人们预期的要复杂得多。

所以我认为我们在各个行业都看到了这一点,无论是客户服务,还是特定垂直市场的更利基的自动化。我认为被低估的一点是Jesse之前所说的,知道你正在执行的自动化任务有明确的投资回报率。因为如果你要让某人采用人工智能代理,他们在某种程度上是在冒险,因为这对很多人来说是一个非常陌生的领域。

如果你正在自动化一个非常具体的流程,该流程要么是明确的创收流程,要么是业务之前的瓶颈以获得新的需求,那么采用人工智能代理就容易得多。或者它是一个主要的成本中心,它与客户增长或收入增长线性扩展等等。能够解决这样的问题,并真正使其产品化,以便它能够像传统软件一样扩展,我认为这非常引人注目。也许。

在我们继续之前,关于这个话题的最后一个问题可能是,你知道,我记得一件事,Jesse,当我和你过去谈话时,我们总是认为,当企业采用软件或采用人工智能代理时,幻觉将是他们面临的最大挑战,或者幻觉将是他们最担心的事情。我记得你告诉我的一件事是,实际上情况并非如此。我很好奇你是否可以详细说明这一点,以及关于幻觉的哪些方面在公众中被误解了,以及人们实际上更关心的是什么。

我认为人们确实关心幻觉,但他们更关心可以提供的价值。因此,我们合作的几乎每个企业都关心相同的事情,比如字面上的相同的事情。你能解决多少对话?我的客户有多开心?

然后幻觉可能会被归入第三类,即准确性如何?通常,当你进行评估时,前两项很重要。假设你正在与一家新企业交谈,并且你在前两项上完全击中了目标。领导层和公司中的每个人都会有很多认同,就像,天哪,这不仅会改变我们的客户群,而且是

客户体验不同了。现在每个客户的口袋里都有他们自己的私人管家。他们可以随时联系我们。我们正在给他们提供好的答案。他们实际上很开心,任何语言,全天候。所以这是一方面。而且你节省了大量资金。因此,有很多认同。并且有很多顺风因素可以完成一些事情。幻觉显然必须解决,但这并不是他们心中最重要的事情,对吧?所以你解决幻觉的方法是我之前提到的那些方法。比如人们会测试你。

可能会有一个概念验证阶段,你实际上正在进行真实的对话,并且他们的团队成员正在监控事情并检查准确性。如果这很好,那么通常你就可以放心了。正如我之前提到的,你可以对敏感信息采取一些强有力的保护措施。比如你不必让敏感信息生成。所以对于大多数交易来说,这是一个谈话点,它不是一个

不重要的主题,你会经历这个过程,但这从来都不是任何对话的重点。现在转向人工智能代理的商业模式。正如你所知,今天谈话的一个重要话题是如何对它们进行定价。历史上,许多SaaS软件都是按座位销售的,因为你正在销售专门为个体员工提高生产力的工作流程软件。

但人工智能代理并不与个体员工的生产力相关联。因此,许多人认为,可能正确地认为,基于座位的定价在未来不再那么有意义。我很好奇,在早期,你们是如何考虑这个困境的,以及你们是如何决定对Decagon进行定价的。以及你认为随着人工智能代理变得越来越普遍,软件定价的未来更广泛地走向何方。我们对这个问题的看法是,过去,软件是按座位定价的,因为这大致是

根据可以利用该软件的人数进行缩放。对于大多数人工智能代理来说,

你提供的价值并没有真正根据维护它的人数进行缩放。这就像工作输出量一样,对吧?这与我之前所说的内容一致,如果投资回报率非常可衡量,那么很清楚你看到了什么水平的工作输出。我们对这个问题的看法是,好的,按座位定价肯定没有意义。你可能会根据工作输出进行定价,对吧?所以这就像你想要提供的定价必须是一个模型,你做的工作越多,获得的报酬就越多。

因此,对我们来说,有两种明显的方法可以做到这一点。比如你可以按对话付费,或者你可以按解决方案付费,比如人工智能实际解决的对话。我认为我们学到的一件有趣的事情是,大多数人都选择了按对话付费的模式。原因是,按解决方案付费的主要好处是你为人工智能所做的事情付费。但接下来会立即发生的事情是,什么是解决方案?

首先,没有人想参与其中,因为那样的话,好吧,如果有人进来,他们非常生气,你把他们打发走了,为什么我们要为此付钱给你?所以这是一个奇怪的情况。然后它会使人工智能供应商的激励机制有点奇怪,因为那样的话,好吧,我们按解决方案付费。那么为什么我们不尽可能多地解决问题,并在有很多情况下将人们打发走呢?这有点难以取舍,更好的体验应该是升级,客户不喜欢那样。对。所以按对话付费的模式会创造更多简单性和可预测性。你认为这种定价在未来会持续多久?因为,你知道,现在当你谈论投资回报率时,它通常是关于某种历史上使用的劳动力支出或类似的东西。随着代理变得越来越普遍,你认为长期来看你会与劳动力进行比较,这是合适的基准吗?

还是不?如果不是,你如何看待长期定价超越劳动力成本的价值?我认为这可能主要会产生劳动力成本,因为这就是代理的令人兴奋之处,对吧?这是你

过去在服务上花费的所有支出,这种支出的规模可能是软件支出的10到100倍。因此,很多支出将转向软件。因此,当这种情况发生时,自然的基准当然是劳动力。对于我们的客户来说,投资回报率再次非常清晰,对吧?如果你节省了X百万的劳动力成本,那么采用这样的解决方案是有意义的。但这可能介于两者之间,对吧?因为还会有其他代理出现

即使它们不如我们好,它们也会在这种经典的SaaS情况下设定价格,在这种情况下,你正在争夺业务。你认为在人工智能的世界中,当前SaaS巨头的未来是什么?鉴于他们的产品可能并非设计为人工智能原生产品,或者他们的定价方式是基于座位的,因此他们并没有真正适应以结果为首的定价模式。是的,如果巨头试图推出代理,这有点棘手,因为它会蚕食他们的基于座位的模式,对吧?是的。

如果你不再需要那么多代理,那么如果你正在推出的新事物只是吞噬了你目前的收入,那就有点棘手了。这是巨头的一个问题。但这也很难说。巨头总是拥有权力,嘿,我们有分销权,对吧?产品不必那么好,但如果产品只有80%那么好,人们就不想费力地采用新的供应商。所以首先,如果你是一家像我们这样的公司,你必须确保你的产品比巨头的产品好3倍。

然后,第二,问题是,这就像经典的巨头与初创公司之间的对抗。巨头自然地风险承受能力较低,因为他们拥有大量的客户。如果他们快速迭代,而事情进展不顺利,这对他们来说将是巨大的损失。而年轻的公司总是可以更快地迭代。然后迭代过程本身就会导致更好的产品。这就是循环。对我们来说,我们总是希望以交付速度、产品质量以及团队在交付方面有多么努力为荣。这就是我们赢得当前交易的方式。我喜欢

我希望你能对未来工作场所中人工智能的未来做出任何预测,无论是它将如何改变人员需求或能力,还是人类员工和人工智能代理将如何互动,或者你认为随着人工智能代理变得越来越普遍,哪些类型的最佳实践或规范将成为工作场所的常见做法。是的。最重要的事情是。

我们非常相信,人们在未来工作场所中花费在构建和管理代理上的时间,就像人工智能主管类型的角色一样,将直线上升。即使你的职位名称不是正式的人工智能主管,就像你过去所做的事情一样,很多时间现在都将用于管理代理,因为代理给了你很多杠杆作用。

我们也在许多部署中看到了这一点,即团队中的领导者,他们花费大量时间监控人工智能,检查是否需要改进任何东西,或者进行更改,并监控进展如何?整体统计数据是什么样的?我们需要关注的特定领域是什么?知识库中是否存在差距,可以帮助人工智能变得更好?人工智能能否为我填补这个空白?与代理一起工作会带来所有这些事情。

人们用于与代理一起工作的工作时间将直线上升。这是我们公司的核心论点,对吧?正如我提到的。这就是为什么我们的整个产品都是围绕着让人们能够使用工具、可见性、可解释性和对人工智能代理的控制而构建的。我认为一年后,这将是一件大事。说得通。你认为未来人工智能主管需要哪些能力?这种技能是什么?

MARK MIRCHANDANI:它有两方面。有一方面是可观察性、可解释性,你能否非常快速地理解人工智能在做什么,它如何做出决策?

另一方面是决策或非决策,比如如何提供反馈?你如何构建新的逻辑?我认为这是硬币的两面。你认为在中长期内,人工智能代理无法处理哪些类型的工作,实际上人类仍然需要能够管理和正确地执行这些工作?我认为这主要取决于我之前提到的关于某些事情需要多完美的问题。我认为有很多工作,错误的容忍度非常低。因此,在这些情况下通常会发生的是,任何人工智能工具最终都更像是一个副驾驶,而不是一个完整的代理。也许在医疗保健或安全等更敏感的行业中,你必须几乎完美无缺。是的,那么我认为代理将不那么自主,这并不是说它们不会有用。就像我认为风格会有点不同。而在像我们这样的领域,你实际上只是

你实际上是在部署这些代理以使其自主并完成整个工作。就是这样。另一集结束了。如果你觉得这很有趣和/或信息量很大,请对播客进行评分并广泛分享。在我们为新年重新调整工具之前,我们应该在这个月再发布一集。所以感谢收听。根据你听到的时间,祝你节日快乐。