We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 857: How to Ensure AI Agents Are Accurate and Reliable, with Brooke Hopkins

857: How to Ensure AI Agents Are Accurate and Reliable, with Brooke Hopkins

2025/1/28
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript
People
B
Brooke Hopkins
Topics
Brooke Hopkins: 我是 Coval 的创始人兼首席执行官,我们构建了一个用于语音和聊天代理(最终目标是任何自主代理)的模拟、评估和监控平台。我们借鉴了 Waymo 自动驾驶汽车开发中的经验,旨在帮助公司在运行大量昂贵测试与实现高测试覆盖率之间取得平衡,解决在分布式系统上大规模运行复杂模拟、简化流程以及衡量和解读结果等问题。我们通过模拟多步骤代理工作流程,帮助客户自动化可靠的模拟和评估,解决手动测试耗时且难以管理上下文和状态的问题。我们的平台设计目标是将复杂的事情简化,让AI工程师能够专注于其他问题。Coval 的用户流程:从简单的单一提示测试开始,逐渐增加复杂性,并通过模拟测试、指标创建和生产监控迭代改进代理。我们应对AI代理级联错误的策略包括构建自愈型代理(例如后台“过度思考者”)、冗余系统和优雅的故障处理机制。我们使用多层指标,结合自动化指标和人工审查,并关注趋势而非绝对值来评估AI代理性能。Coval 提供了多种指标来评估AI代理的性能,包括工作流程遵循度、函数调用正确性以及与人类表现的比较。Coval 的实时监控功能可以帮助客户及时发现并解决问题,例如基础设施故障或新的用户行为模式。我们选择从语音代理入手,是因为语音代理领域正在快速发展,并且语音作为一种相对受限的媒介,更容易开发先进的指标和工作流程。语音代理的潜力远不止于取代电话,它可以创造全新的交互方式和应用场景,例如建立企业间的通用自然语言API。Y Combinator 的经历帮助我完善了 Coval 的业务方向,并从其他创业者那里获得了灵感和支持。 John Krohn: (对 Brooke Hopkins 的观点进行提问和引导,并总结讨论内容)

Deep Dive

Chapters
This chapter introduces Brooke Hopkins and Coval, a platform for simulating and evaluating AI agents. It highlights Brooke's background and Coval's recent success, setting the stage for a discussion on AI agent reliability and the future of AI.
  • Brooke Hopkins, founder and CEO of Coval
  • Coval is a simulation and evaluation platform for AI agents
  • Coval recently closed a $3.3 million fundraise
  • AI agents are poised to be the next major platform shift after mobile

Shownotes Transcript

Brooke Hopkins 与 Jon Krohn 讨论了 AI 代理在技术领域的新前沿,这些代理将如何影响社会、工作和我们的创意产业,以及这对我们数据驱动型未来可能意味着什么。您将了解 Coval(一个用于 AI 语音和聊天代理的模拟和评估平台)如何帮助公司在做出少量让步的同时平衡精度和可扩展性。本期节目由 ODSC(开放数据科学大会)赞助。有兴趣赞助 SuperDataScience Podcast 节目?请发送电子邮件至 [email protected] 获取赞助信息。在本期节目中,您将了解: (07:49) Coval 的功能和平台运作方式 (21:16) Coval 的工作流程 (37:40) AI 代理的未来 (46:28) 评估性能的指标 (55:08) 我们距离实现 AI 代理自主还有多远 其他资料:www.superdatascience.com/857</context> <raw_text>0 这是第 857 集,与 Coval 的创始人兼首席执行官 Brooke Hopkins 对话。本期节目由 ODSC(开放数据科学大会)赞助。

欢迎收听 Super Data Science Podcast,这是数据科学行业收听率最高的播客。每周,我们都会为您带来有趣且鼓舞人心的人物和理念,探索机器学习、人工智能和相关技术的尖端领域,这些技术正在使我们的世界变得更好。我是您的主持人 John Krohn。感谢您今天的收听。现在,让我们化繁为简。

欢迎回到 Super Data Science Podcast。今天,我很高兴能与充满活力的 AI 企业家 Brooke Hopkins 交流。Brooke 是 Coval 的创始人兼首席执行官,Coval 是一家获得 Y Combinator 支持的、位于旧金山的初创公司,它提供了一个用于 AI 代理的模拟和评估平台。他们最近还完成了 330 万美元的融资,包括 General Catalyst、Mac 和 Y Combinator 等重量级风险投资公司。

此前,Brooke 曾担任 Waymo 的技术主管和高级软件工程师,在那里她从事 Waymo 自动驾驶汽车的模拟和评估工作。在此之前,她是 Google 的软件工程师。她拥有纽约大学阿布扎比分校的计算机科学和数学学位。尽管 Brooke 拥有高度技术性的背景,但我们的谈话主要是在概念性和高层次上进行的,让任何对开发和部署代理 AI 应用程序感兴趣的人都能享受今天的节目。

在今天的节目中,Brooke 详细介绍了她的 Coval 团队如何将受自动驾驶汽车开发启发的模拟和测试最佳实践应用于使 AI 代理在现实世界中变得有用和值得信赖。她谈到了为什么语音代理有望成为继移动设备之后的下一个重大平台转变,从而创造出与技术互动的新方式。

她谈到了公司如何使用创造性的策略(例如后台“过度思考者”)来使 AI 代理更强大。“过度思考者”本身也是 AI 代理。她还向我们展示了 AI 代理的兴起对人类工作和创造力的未来意味着什么。确实,代理将如何改变整个社会。好了,准备好收听这期精彩的节目了吗?让我们开始吧!♪

Brooke,欢迎来到 Super Data Science Podcast。我很高兴能邀请你来到这里。你今天从哪里打电话来的?我从旧金山打电话来。我和你在旧金山见过面。我将要弄错这个活动的具体名称,但我参加的是由 Gen AI Collective 举办的活动,我认为这是他们的官方名称。

这是一个创业竞赛。据我了解,有大量的初创公司申请参加这个 Gen AI 竞赛,可能超过 100 家,甚至几百家 Gen AI 初创公司。你是 10 家被选中在这个 Gen AI 集体上展示产品的公司之一。所以这是一件很酷的事情,你只有两分钟的时间来演示产品。你不允许使用幻灯片。

而且你不仅是 10 家被邀请参加这项活动的公司之一,这本身就是一个极高的门槛,而且你还赢得了比赛。

是的,那真是令人兴奋的一天。我们实际上也在那天在 Product Hunt 上推出了产品。这次活动是由 Product Hunt 联合主办的,Product Hunt 的首席执行官也在场,Gen AI Collective 的所有人员也在场。所以那天非常令人兴奋,我们在 Product Hunt 上推出产品,在 Product Hunt 上排名第一,然后参加了这次活动。气氛非常热烈,非常令人兴奋。是的,这是一个非常酷的活动。而且我

我很高兴你抽出时间在我之后与我交谈,并且你对参加 Super Data Science Podcast 感兴趣。谢谢你,Brooke。让我们深入探讨一下你为什么在 Gen AI Collective 活动中凭借你的公司 Coval 赢得了比赛。你之前领导了 Waymo(谷歌的自动驾驶汽车项目)的评估工作基础设施。我个人非常喜欢 Waymo。我

喜欢乘坐它们。当我乘坐 Waymo 时,我感觉非常安全。所以在我乘坐过旧金山的 Waymo 后,当我再次自己开车时,我会对自己说,像 Waymo 一样开车,要有耐心。

完全正确。我认为乘坐 Waymo 非常有趣,因为它每次都感觉很神奇。我认为 Waymo 能够将对自动驾驶汽车的恐惧和不确定性转变为另一个极端,现在你乘坐 Waymo 时会比乘坐其他拼车服务时感觉更安全,这确实,我认为,体现了令人惊叹的技术才能和部署。

是的,乘坐人类驾驶的汽车,感觉就像身处狂野西部。你会想,这是什么狂野?完全正确。而且偶尔,你会遇到一些有点疯狂的鲁莽司机。这让你……

是的,更希望有 Waymo。绝对的,是的。在第 849集(我们每年都会做的一期节目,预测下一年的趋势,数据科学趋势)中,我的嘉宾多年来一直是 Sadie St. Lawrence。今年我们做了一些新的尝试,除了对 2025 年进行预测外,我们还……

我们创建了一些奖项,例如我们今年最令人惊叹的时刻、我们最大的失望、我们认为哪家公司在过去一年中在人工智能方面取得了最大进展等等。而我们今年最令人惊叹的时刻是乘坐 Weimark。

哇,太棒了。我很高兴听到这个消息。这绝对会成为我过去五年的年度时刻。是的,这是其中一件事。它现在是我的常用例子,我从人们、外行人、朋友、家人那里得到的一个问题是,他们说,关于人工智能,我们需要知道什么?自从我在 2024 年北半球夏季乘坐过 Waymo 以来,我的常用答案是,

我,呃,我的常用答案是你可以去旧金山,使用像 Uber 这样的应用程序,让一辆无人驾驶的汽车来接你,然后把你送到城市中的任何地方,把你放下。当你向人们转述这一点并让他们思考这如何表明未来几年将发生巨大的变化时,你会感到安全。它只是,嗯,它只是还没有在世界各地普及。

百分之百同意。我认为未来已经到来,只是分布不均。这是非常真实的,只是分布不均。这就是我一直在寻找的引言。是的,我认为,我认为看到 Waymo 向新城市部署的速度之快也是这方面非常令人兴奋的部分,因为你

从山景城到旧金山需要很长时间。可能需要,你知道,Waymo 是 10 年前成立的。我们直到两年前才在旧金山全面部署无人驾驶汽车。而现在我们已经在洛杉矶、凤凰城部署了。他们正在向各种新城市扩张。而且对于每个新城市来说,部署速度都在加快。我认为这说明了很多发展,包括

模型开发的工作方式,以及模拟如何能够提供帮助,你不需要在所有这些城市中进行大量的实际部署。你不需要运行几乎那么多的驾驶日志,因为我们的模拟已经变得非常准确,并且你可以将它们扩展到以前无法达到的水平。是的,是的。说到模拟,Waymo,

你是 Coval 的创始人兼首席执行官,这是一个用于 AI 代理的模拟和评估平台。所以你从语音和聊天助手开始。你能为我们解释一下这意味着什么吗?也许你可以使用 Waymo 作为类比,因为在这种情况下,很容易想象你在 Waymo 所做的模拟和评估工作是如何运作的。

然后是如何将 Waymo 的知识转移到你正在做的、我认为是世界上最热门的话题(尽管作为人工智能人员我显然有偏见)——AI 代理,将 Waymo 的知识应用于现在这个超级热门的 AI 代理领域。完全正确。是的,Coval 正在做的是,我们正在为语音和聊天代理构建一个模拟、评估和监控平台,但最终我们希望能够做任何自主代理平台。

自主代理是指在世界中导航并对世界做出反应的代理。所以想想像网页浏览代理、语音代理或聊天代理,它们都在对你说的话做出回应。

因此,与 Waymo 从 A 点驾驶到 B 点一样,它需要对过马路的行人做出反应,或者需要对道路上可能发生的变化做出反应,例如施工或新建道路。有一些汽车部件。所有这些不同的变化环境。

我们试图从我们在 Waymo 如何克服这个问题中吸取教训,以便创建真正强大、可扩展的自动驾驶软件,并将其转化为如何构建真正可靠、强大的语音和聊天代理或能够在自主情况下导航的网络代理,同时平衡如何平衡

运行大量非常昂贵的测试,同时具有非常高的覆盖率。因此,这些是我们 Waymo 做出的许多权衡,以及如何在分布式系统上运行这些非常复杂的模拟?如何大规模地进行?如何将这些复杂性的大部分内容提炼成对模型、机器学习和人工智能工程师来说真正易于理解的东西,以便他们能够专注于他们正在处理的其他难题?

然后还有如何衡量这一点?指标是什么样的?如何解释结果以及如何从所有这些海量数据中获得信号?是的,我认为我们现在将深入探讨所有这些主题领域。在我深入探讨这些事情之前,例如平衡准确性和可扩展性、在您有一系列 AI 代理时遇到的复合错误问题、实时监控等等 Coval 提供的功能,也许你可以阐明

为我们的听众说明一下。这在仅限音频的格式中可能有点棘手。事实上,上周我有幸看到你向我演示了你的平台,分享了你的屏幕并向我展示了它。所以我的脑海里有一些关于平台运作方式的画面。但也许你可以使用一个或两个客户的案例研究。如果你没有被授权向客户透露他们的姓名,那么你不必一定要说出他们的姓名。但只是描述一下客户所处的状况以及 Coval 如何能够可靠地自动化他们的模拟和评估。完全正确。所以当您开发代理时,我们看到的一个常见模式是,为了测试这些多步骤

代理工作流程,有一些事情使其变得非常困难。因此,首先,手动测试这通常需要更多时间,因为您不必只输入一个输入,例如单击按钮或从调用中获得 LLM 响应,您必须经历多个步骤。因此,对于电话呼叫,这可能需要与电话呼叫一样长的时间,这可能是几分钟甚至 15 分钟。

或更长。然后,您还必须重新创建所有这些不同的上下文和状态。这些都很难管理。即使您愿意花时间去做这件事,您也必须记住,好的,我走过了这条路径,但我还没有测试过这条路径。然后我能记住我第一次测试它时是什么样的吗?因此,与自动驾驶汽车类似,您有

要从 A 点到达 B 点,您可以走所有这些可能的路径,其中一些是正确的,一些是错误的,还有一些很难分辨。因此,您真正想要做的是运行所有可能的路径,或者至少是这些路径的代表性子集,以便您可以对您正在测试的内容有很高的信号和很高的信心。

然后您想看看某些类型的事件发生的频率。例如,我多久会看到代理卡住?我多久会看到代理发音错误?

太完美了。我喜欢这个。就像我一样。就像人类一样。那么,你多久会看到转录错误?你多久会看到逻辑错误?所有这些事情。你想看看他们多久会把谈话弄错或弄对。因此,我们的一些客户,例如,我们的许多客户是客户服务代理。因此,这是我们在语音代理中看到真正爆炸式增长的一个领域。

因此,您有一位客户正在给您打电话,他们想预约。所以他们想预约明天的约会或下周的约会,或者他们想预约下一个可用的时间或 24 号星期二。你应该假设这是在 2025 年,或者预约的所有这些不同的排列组合。因此,我们的客户会模拟

预约,这个模拟的提示将是预约未来某个时间或只是预约。然后您可以使用温度和其他因素来改变这些模拟的确定性或非确定性,然后能够绘制所有这些不同的路径。或者,如果您更关心的是,我想测试明天的预约,因为我看到了一些与这种情况相关的错误。我会提示它

预约明天的约会,然后运行 10 次或 100 次。看看它失败的频率。如果我觉得有时它有效,有时它无效。我能看到它多久无效吗?我们还可以做的一件事是,我们可以根据转录重新模拟。如果您是用户,您可以进入您的日志并找到您的语音代理以意外方式执行的示例。

因此,您可以进入您的日志,找到这些示例,然后通过我们的模拟系统重新模拟它们。因此,这实际上也是从自动驾驶中借鉴来的。这是一种非常常见的开发人员工作流程,我们会手动在路上行驶里程,或者我们会驾驶有监督的自动驾驶里程,从生产中获取这些日志,然后通过我们的模拟系统重新模拟它们。因此,这允许您以比使用完全合成数据时更精细的粒度来重现问题。

人工智能正在改变我们开展业务的方式。但是,我们需要的人工智能解决方案不仅要有雄心壮志,而且还要实用和适应性强。这就是 Domo 的人工智能和数据产品平台的用武之地。借助 Domo,您和您的团队可以将人工智能和数据转化为创新的用途,从而产生可衡量的影响。

虽然许多公司专注于狭窄的应用或单一模型解决方案,但 Domo 的一体化平台更加强大,具有值得信赖的人工智能结果,安全的 AI 代理可以连接、准备和自动化您的工作流程,帮助您和您的团队轻松地获得见解、接收警报并采取行动,并通过针对您角色量身定制的引导式应用程序。该平台提供灵活的选择,可以选择使用哪些 AI 模型。

Domo 不仅仅是提高生产力。它可以改变您的流程,帮助您做出更明智、更快速的决策,并推动真正的增长。世界一流的公司都依赖 Domo 来做出更明智的决策。了解如何利用 Domo 释放数据的全部潜力。要了解更多信息,请访问 ai.domo.com。网址是 ai.domo.com。

为了形象地说明这一点,并使类比更生动一些,我最近在德克萨斯州奥斯汀,看到 Waymo 汽车在有人坐在驾驶座的情况下行驶。这是一个例子。你谈到了向新的地区扩张。因此,在这种情况下,可能有人会拍摄一些特定于德克萨斯州奥斯汀的东西,这些东西很难从旧金山或山景城的数据中模拟出来。现在有了 Coval,开发人员可以体验聊天,并经历他们认为非常重要的特定流程,然后也基于此进行模拟,以获得更多可变性,而无需付出所有努力。完全正确。我认为这就是为什么 Waymo 实际上是一个很好的类比,或者我们可以从中吸取很多教训的地方

因为与 Waymo 不完全依赖其模拟一样,它用于过滤人类真正应该关注的内容?我们如何才能更快地行动?我们如何才能更快地发现问题?

以及我们如何才能比仅进行手动测试时获得更大的规模覆盖率?但这并不意味着你没有人类来审查所有性能或调查特定问题。因此,同样地,你如何才能使用手动驾驶时间来确保软件达到标准,并且软件正在按照我们的预期运行,然后找到那些非常长尾的情况?

或者只是证明 Waymo 的真正可靠性,而我认为,以前在机器人技术中,很多事情都是手动完成的。你会手动测试所有这些不同的场景,然后尝试每次都重现这些场景。

所以我认为这就是我们看到的。这就是我们现在看到语音 AI 的地方,人们正在手动来回使用他们的代理。这就是大多数公司正在做的事情。这非常痛苦。

因此,Koval 所做的是,我们来,许多公司,许多工程师整天都在来回使用他们的代理。在最好的情况下,他们可能有一个脚本在模拟转录,但我们帮助那些来回使用代理的工程师能够减少开发人员的时间,然后也运行比他们使用 Koval 能够运行的更多的测试。

仅靠手动测试。很好。是的,所以我意识到在没有视觉效果的情况下这将很难,但你能解释一下,即使只是在高层次上,这在平台上是如何发生的?我知道很多

设计工作已经投入到有效地构建你的平台中,以达到在使 Coval 即使对于第一次使用的用户也易于使用,同时提供你所描述的资深用户可能想要的功能范围之间的平衡。完全正确。我认为这是开发人员工具的一个惊人的挑战,我们肯定有像 Vercel 或 Linear 这样的闲置公司,它们将非常复杂的事情提炼成非常简单的产品。

我认为开发人员工具,做得非常好的开发人员工具,会将非常复杂的事情变得显而易见,让你知道下一步应该做什么。因为我认为,归根结底,人工智能工程师同时要解决许多复杂的问题。你知道,语音、语音视频、流媒体,就是这样。

这是一个超过十年的难题。我认为处理音频片段、视频流媒体等仍然是多么困难,这令人惊叹。还有提示和处理模型的复杂性、构建你的 RAG 基础设施、构建基础设施、传统基础设施、

了解你的用户、填写正确的工作流程。因此,测试这只是另一个部分,通常不是这些公司的核心竞争力,也不应该成为核心竞争力。因此,我们试图做的是让它变得非常简单和显而易见,这样他们就不必花费大量时间来思考他们的评估策略,弄清楚他们应该如何评估这些设置,弄清楚我们如何才能构建指标,我们如何才能构建出真正复杂的系统来进行此评估,而是

我们简化了这个过程。因此,下一步该做什么变得非常明显,他们的系统中存在哪些问题也变得非常明显。很好。是的,这就是设计挑战。你如何解决它?一件令人高兴的事情是,我们在 Waymo 多次构建了这个系统。我们构建了几个迭代版本,并看到了在您拥有复杂的模拟配置文件时会发生许多常见的设计模式。因此,我们从那里吸取了很多教训

当我们认为某些事情会非常明显或我们认为某些事情会长期保持简单时,要知道它随着时间的推移可能会如何发展。例如,模拟器的配置文件、其中包含哪些类型的参数?即使我们今天没有,我们将来可能会去哪里?我认为这对了解

如何模块化事物非常有帮助,这样您就可以拥有小的、易于理解的组件,例如,我们有模拟器、我们有指标、我们有分析,但同时也要确保您不必拥有数千个不同的配置部件。我认为这是我们从那里吸取的很多教训。

另一个方面是通过我们的 UI 使许多事情变得非常易于使用。所以让它

从视觉上看,我认为这很大程度上是一个用户体验问题,即如何获取大量数据并为用户提炼它们,以便他们能够理解他们正在模拟的内容以及结果的含义。这两件事虽然说起来很简单,但我认为这是一个非常困难的问题,我们在 Waymo 花费了大量时间来解决这个问题,即如何告诉用户他们正在模拟什么,并使其在视觉上非常清晰。

通常,故障模式之一是您只是运行了错误的测试,对吧?您的数据集不能代表您正在尝试测试的所有情况。您的配置没有启用正确的模块。您以某种方式没有运行正确的设置。因此……

对于我们的代理来说,弄清楚我们如何提炼这一点非常重要,以便它能够清楚地显示他们正在模拟什么以及他们正在分析什么。很好。所以假设我是你的客户,我有一个客户服务代理,我第一次进入 Coval 平台,一片空白。

我该怎么做?我去哪里才能让我的生活更轻松,并开始进行全面的测试和模拟?是的,作为用户,流程是什么样的?我将讨论整个开发人员生命周期。所以是第一天。你正在构建一个语音代理。你可以找到一个非常易于使用的平台来构建语音代理,然后你构建一个 MVP。然后你可以进入我们的平台,直接迭代你的提示,这样你就可以说,

提示在一个超级基本的环境中是如何发挥作用的?甚至不启用语音,我只是看看这个单一提示的对话是如何进行的?这通常是第一阶段。然后你可能会使你的代理更复杂一些。你可能会添加一些 reg,或者添加多个代理,或者添加一些流程。

然后你可以做的是模拟,通过我们的系统设置一些模拟测试。你将创建一个测试集。该测试集可能包含许多不同的场景,例如预约、预约下周、致电退款、抱怨你最近在航空公司上的经历等等。你将通过我们的模拟器运行所有这些场景。

然后你将有一堆模拟对话。这本身就非常有帮助,因为现在你可以查看许多不同的内容,你可以一次运行一百个模拟对话,然后消化那些可能未能完成或带有标记、失败指标的对话,

也许它表明对话突然结束,或者用户无法实现他们的目标,或者约会没有成功预约。因此,您可以进入并手动查看这些内容,并尝试了解正在发生的事情。在这里,我们的用户真正迭代了他们的评估和系统。因此,您可能会进入并意识到,这些是我试图手动检测的内容。我将创建一个指标来检测这些内容。

然后我意识到我正在打断用户。因此,我将更改一些参数,以便我不那么急切地打断用户。然后我将通过模拟重新运行它,并能够说,好的,现在很清楚我的中断减少了吗?

因此,一旦你有了良好的工作流程,你就可以自动化这些流程,然后开始监控你的系统在生产中的运行情况。很好。我可能会打断你,或者你可能已经完成了开发人员生命周期,但我有一些问题要问你。你一开始就提到,第一天,开发人员选择一个

代理,你有没有,你能透露你可能有的或 Coval 可能有的作为首选代理提供商的偏好吗?这是你做的事情还是你可以在公开场合提供指导的事情?是的。所以我认为不一定有一个正确的平台或一个万能的平台。我之所以这么说,是因为我们已经看到这个方法有效,我们已经看到各种不同的平台都运行良好。

我们还想成为一个与你使用的框架无关的评估框架,因为这允许你非常轻松地在平台之间切换。语音 AI 的发展速度非常快。而且,随着价格上涨或你的需求变化或你的产品发展,不同的解决方案在不同的时间可能对你有意义。

所以我认为我们并没有偏向于任何一方。我认为有很多方法对不同的用例都有意义。而且我将根据几个方面来做出这个决定。例如,在低代码到更可配置的范围内,你拥有更多面向业务所有者或任何非工程背景的低代码解决方案,他们可以像设置电子邮件通讯或任何其他服务一样轻松地设置语音代理。

易于配置的系统。

但是在这里,你的可配置性会少很多。设置函数调用或 RAG 会受到更多限制。而更高的可配置性选项,例如一些开源语音协调器,它们将让你对函数调用、能够添加不同的基础设施以及将它与你自己的内部构建的基础设施混合和匹配有更多的控制。

因此,我认为弄清楚你在哪个范围内,然后看看哪些公司能够满足你正在寻找的开发人员需求。我们看到的一些其他考虑因素是

因此,在构建语音代理时,有一些重要的事情,例如指令遵循、函数调用、工作流程遵循、对话或语音的自然程度、创造力。如果你正在构建一个像朋友一样与你交谈的应用程序,而你正在构建一个必须遵循非常严格的工作流程才能为患者入院收集一定数量数据的应用程序,或者一个

呃,一个语音应用程序,它正在调用来执行许多函数调用,例如更新记录或预约。嗯,

或者您身处一个合规性要求极高的行业,指令遵循非常重要。它真的需要按照您指示的那样去做。所有这些都是不同的权衡,我认为不同的平台在不同方面各有优势。例如,对于对话和创造力,您可能需要考虑与以下情况不同的模型:如果您非常关心函数调用并确保您可以进行非常复杂的函数调用,这可能不适合于

那些更固执己见的平台,它们要求您按照它们确定的方式设置所有内容。话虽如此,有些平台允许您以非常漂亮的方式设置工作流程,这使得它非常容易,因此您不必编写这个巨大的混乱。

所以这些是我们所做的权衡。我们实际上与我们的客户合作,找出适合他们的正确平台。如果您有这些疑问,请联系我,我很乐意与您一起讨论一些想法。我很高兴地宣布我的朋友们,第十届年度ODSC东部会议,开放数据科学会议东部会议,您在2025年不容错过的唯一会议,将于5月13日至15日返回波士顿。我将在那里主持一个关于代理人工智能的实践研讨会。

此外,您可以在明天开始学习。您的ODSC东部通行证包括从1月15日至2月6日举行的AI构建者峰会,您可以在峰会上深入了解大型语言模型、检索增强生成和AI代理。无需等到五月。无论您的技能水平如何,ODSC东部会议都将帮助您获得将职业提升到更高水平的AI专业知识。不要错过。早鸟折扣即将结束。了解更多信息,请访问ODSC.com/Boston。很好。是的,你刚才提到,布鲁克,如何……

代理人工智能平台的设计旨在提供易用性,它们可能具有图形可视化功能来实现这一点。这让我想起了您上周在Coval向我演示时,平台的图形方面允许用户创建节点以及节点之间的连接以规划对话流程,您可以想象这在客户服务示例中非常有用,用户

有人进来,您可以有一个流程来处理他们遇到的问题或预约。然后在这个图的问题分支上,您可以有一堆常见问题或流程,当有人遇到问题时会发生,而当有人想要预约时则会发生。对话的进行方式完全不同。

这是一个例子,说明Coval是如何尝试结合或成功结合精确性和可扩展性的,因为这些通常是相互冲突的目标。因此,当您考虑尝试让AI代理有效工作时,最精确的做法是,但是

但这将非常耗时,可能是创建数千甚至数万个不同的对话流程,涵盖各种可能性,并真正全面地涵盖用户可能经历的所有可能场景,这可能是无法实现的,但让我们假设,让我们假设可以做到所有这些覆盖。这将需要数千、数万个手动创建的对话流程。

这不可扩展。您对平台进行更改,提供更多灵活性,向不同类型的客户群开放,任何这些,都可能是非常小的变化。然后突然之间,哇,我们需要数千个额外的对话流程来处理我们正在覆盖的这个新利基市场以及我们的AI代理具有的这个新功能。这是精确性的极端,在光谱的另一端。

为了最大限度地提高可扩展性,您可以使用类似这样的方法:嘿,您可以与某种对话式生成式AI代理聊天,并说,我正在,你知道,我正在创建一个将在特定场景中工作的对话代理,为我创建大量测试。然后您只需使用它们,而无需进行审查,

所以,是的,我希望我已经对可扩展性到精确性的范围进行了可以接受的解释。是的,我很想听听您对此的看法,以及Coval是如何解决这个问题的。是的,我很高兴您已经意识到这一点,因为我认为这是难题中不明显的一部分,但这不仅是能否运行正确的测试并从中获得信号,而且还应该运行什么?我该如何让它工作?

我该如何权衡可扩展性和信号?我们在Waymo做了很多这样的权衡,基本上总是平衡成本和延迟与信号。很明显,您可以始终花费更多来加快速度并运行更多场景。但这显然是以成本更高的代价为代价的,它会延长您的开发人员迭代周期。

另一方面,您可以不运行任何场景,这将非常快且便宜,但您将无法了解您的系统。因此,这实际上是我们与客户合作以确定在工作流程的哪些点应该运行多少场景的因素。那么,在您提交的每个PR上运行什么是有意义的,或者每六小时或每晚运行什么是有意义的。然后,您应该创建哪些类型的集合来运行回归集或在大型版本发布之前运行?我认为这是一个非常大的问题,那就是不仅要弄清楚一旦我知道要运行什么以及如何从运行中获得信号,例如运行正确的指标,那么当我添加更多客户、添加更多用例时,我该如何扩展它?

我认为这里也是我提到的那种开发人员体验非常重要的方面,能够展示您正在运行的数据集的分布是什么?您正在运行多少个示例?它们是否都在同一个主题上,或者它们是否在不同的主题上?它们与您在生产中看到的内容相比如何?它们与生产中的那些示例非常相似,还是您正在运行与我们在生产中看到的示例完全不同的示例?

因此,我们认为拥有这种端到端工作流程非常重要,您可以从监控、模拟、测试开始,然后查看它在生产中的行为,然后能够通过模拟重新运行这些日志或匹配我们正在测试的内容,实际上是发现了我们在生产中看到的那些问题。很好的答案。我喜欢这个。答案非常清晰。

除了精确性与可扩展性这种复杂性之外,AI系统,代理AI系统发生的另一个大问题是,经常会出现漫长的级联。您之前提到了工具调用的这个想法。所以你可以有一个,你可以有,

一个AI代理正在对呼叫进行分类,它正在弄清楚,好的,根据目前的对话,看来我需要调用工具A。然后,在对话的后期,他们可能需要调用工具B。或者,为了有效地完成其工作,工具A可能需要调用工具C。

这是一个有点含糊的例子,但它旨在说明您最终可能会得到多个代理按顺序进行的这种级联,可能并行发出请求或使多个事情按顺序发生,多个调用按顺序发生,所有这些都并行发生。AI代理负责所有这些,而无需人工参与。

所以在那种情况下,即使是很小的错误,尤其是在早期,例如,如果分类代理在一开始就弄错了怎么办?它调用了工具A,而它应该调用工具D。完全正确。这会导致蝴蝶效应,即早期步骤中的一个小错误可能会导致对话后期出现巨大的错误输出,对吧?

那么,我们可以采用哪些策略来减轻这种蝴蝶效应?当这些错误发生时,您如何确保优雅地失败?

完全正确。我认为这就是为什么代理的评估和多步骤评估与大型语言模型或任何具有某些输入和某些输出的调用的评估如此不同的原因之一,因为您不仅具有单个调用的不确定性,而且还具有所有可能的评估途径的不确定性。

这些级联故障点在可能的路径和可能的故障类型方面都会激增。还有一个有趣的案例,它偏离了轨道,但代理却挽救了它。它意识到自己犯了一个错误,这

让我想到,我认为许多途径,许多人解决这个问题的方法是某种自我修复代理,我看到的一些有趣的事情是让后台有一个代理,对于语音来说,您有一个更便宜、更快的语音

低延迟模型提出响应,但您在后台又有一个过度思考者,它正在查看整个对话,也许它需要更长的时间才能做出这个决定,但只要它在后台并且可以帮助提示代理让它回到正轨,说,你搞错了这个顺序或者你忘记问一些事情。

您还可以采用其他策略来优雅地处理故障,例如在系统中具有多个冗余。我认为我们也可以从航空航天和自动驾驶中学习很多东西,在那里,我认为自动驾驶已经掌握了优雅的故障处理方法,它具有回退机制。有一些方法可以停车或向我们的系统提出问题。有

到位的所有系统,因此它不仅仅依赖于语音代理或正在使用的代理中的任何一个系统。我认为这如何转化为语音代理是

语音代理能否自行确定请求是否过于复杂?这在今天已经经常发生。我想说的是,我们大多数客户已经能够在他们确定任务过于复杂时转接给人工。是的,这是我之前从未想到的事情,当然。正是如此。这是一个冗余系统的例子。但我认为我们可以通过所有其他方式创建冗余。关于

与那些说语音代理永远不会足够可靠的人形成对比,我认为这很有趣。它们本质上是不确定的,很难将其控制成可靠地执行任务。我认为我们已经看到了

在基础设施中,情况并非如此,因为服务器本质上非常不可靠。他们仍然能够在云上或各种不可靠的系统上创建云,创建基础设施,理论上所有这些都应该累积成巨大的错误百分比。

我们已经看到为这些系统创建了六个九的可靠性。这是通过冗余实现的,这是通过回退机制实现的,这是通过各种其他工程技术实现的。因此,我认为我们将看到代理也会发生同样的事情,您可以从不可靠的系统中创建可靠性。经典的卢德分子认为,这永远不可能实现。然后我可以向你指出卢德分子的方向……

Waymo,你知道,这是人们常说的事情,哦,是的,这和核聚变一样。就像自动驾驶汽车总是20年后才会出现一样,几十年来都是如此,但现在它正在发生。这与语音代理、越来越多的代理系统的情况相同。您给出的服务器示例非常棒,因为它

是的,你知道,六个九的可靠性是代理系统可以实现的,因为大型语言模型本身越来越擅长不在单个调用中出现幻觉,而且随着这些冗余的构建,就像您一直在讨论的那样。所以……

这是不可避免的。这并非不可能。这是不可避免的。这就是将要发生的事情。如果您认为代理在未来几年将无法处理大量复杂的任务,

那您就错了。您在这里首先听到这个消息。是的,是的,是的。这甚至不是我来说这件事的冒险的事情。这就是正在发生的事情。正如越来越多的城市将会有来自越来越多的提供商的自动驾驶汽车来处理更广泛的任务一样,这只是,这将会发生。所以,是的。我认为这里有一个有趣的相似之处,即一些代理如何反应

可靠地行动实际上可以帮助所有人,如果有很多关于代理在企业中成功部署的良好示例,这将创造一个环境,使更多代理能够承担越来越大的任务。我认为我们在自动驾驶中看到了这一点,因为您可以仔细、安全地扩展自动驾驶,它

这并不重要是哪家公司做到的,这将为任何公司能够开发自动驾驶创造更有利的环境。因此,我认为Coval想要做的事情也是为公司提供工具,让他们能够向客户展示这是一个将可靠运行的代理,您可以相信这不仅仅是在我向您展示的演示案例中运行,

而且,你知道,也许是障眼法,但它实际上适用于您感兴趣的所有案例。然后您可以去探索这些案例,并相信代理将按照您的预期运行,然后随着时间的推移监控它。

因此,Coval想要做的事情是,我们希望能够帮助企业了解他们的代理在一个比仅仅知道您用于会计的网络应用程序是否有效的世界中是如何运行的。您只需登录,它就可以工作或不能工作。但是对于代理来说,可见性要少得多。我认为这使得人们天生就更不信任这些系统,即使它们可以产生如此多的价值,并且技术已经存在。我刚刚意识到,我在整集节目中都在乱说你公司的发音。你一直在说Koval,就像上面所有一样,而我一直说Koval,就像Albert一样。实际上,这很有趣。我认为我们没有一致的发音,所以你不必担心。好的。

我们的名字实际上来自,我们是以索菲娅·科瓦列夫斯卡娅的名字命名的,她是第一位获得博士学位的女性数学家。然后它也是协作评估或对话评估。所以它有点双重含义。这太酷了。我喜欢这个。

我会在节目说明中添加一些关于索菲娅·科瓦列夫斯卡娅的信息。因此,您可以点击并阅读她的维基百科个人资料或其他内容。我一定会包含这些。这真的很酷。是的,我相信我正在乱说她的名字,我现在应该这样做,但是里面有很多辅音。是的,是的,是的。

我相信你比我做得更好。至少我应该像你在广播中那样发音。所以我尽量改成cove all。Cove all。是的,你可以这样做。我认为我诚实地说来回切换。我去了伸展。明白了。我认为,而且这一切都不是。我们可以做cove all。很好。好吧,太好了。我认为部分原因是对我来说似乎很对的原因是它像eval。

是的,这就是我们试图说的,就像在之后复制它一样。这就是我试图发音的方式。由于某种原因,我无法说出这个词。发音和误读。很好。好吧。所以无论如何,回到对话流程。你刚刚给了我一个关于蝴蝶效应的绝妙答案。是的。

是的,非常清晰,像Coval这样的工具将能够让我们朝着让代理处理越来越多的任务和越来越多的场景的方向前进。它们在未来将无处不在。这是不可避免的。Coval提供的另一项功能是

是自定义指标。在标准指标(仅仅是准确性)无用的复杂场景中,可能存在这种情况。我的意思是,实际上,这将是一件非常重要的事情。在一个场景中,你如何

这不像数学测试。对谈话进行评分不像数学测试那样有一个正确的答案。你只需要得到一个整数或一个浮点数,然后你就会说,好的,这就是正确的答案。算法做得很好。当您有一个代理处理一项复杂的任务时,实际上存在无限的可变性。

在那里,你知道,它可以正确地有无限多种方法。甚至不包括它也可能出错的无限多种方法。

那么,您使用什么类型的指标来评估代理是否正确执行?然后也许在此基础上,您的客户可能需要哪些类型的自定义指标?我认为您完全正确,很难找到这条界限:这是客观上好的对话,这是客观上失败的对话,而是对话的范围。

因此,我们发现效果很好的是分层指标。能够运行一套完整的指标,然后查看这些指标内的趋势。这也可以让您进行权衡。也许您在指令遵循方面稍微差一点,但是您将最关心的案例做到100%正确。因为您在这所有案例中的表现分布不像机器学习那样,您只关心

你知道,正确地获得99%的示例。因为如果您将最常用的案例弄错了,那么即使您将其他99%的案例弄对了,也没有关系,因为当有人尝试预约时,他们会失败。因此,我们看到这些模式与其他传统软件应用程序、机器学习应用程序甚至机器人技术有所不同。这其中的另一部分是能够展示

通过使用各种指标,您可以创建系统行为的完整画面。例如,简短的对话本身并不一定不好,但是如果目标没有实现并且代理应该采取的步骤没有执行,那么简短的对话就是客观上糟糕的对话。因此,您可以根据潜在的真正失败或误报来过滤

或错误失败等,您可以通过根据这些指标进行过滤来找出哪些是值得调查的。因此,我认为虽然我们的目标是为指令遵循、对话是否成功完成、所有正确的函数调用是否使用正确的参数进行调用等提供所有自动化指标,

但我认为总会有空间进行人工审查,并真正深入研究这些示例。问题是,您如何才能最有效地利用这段时间?这并不是说您永远不会查看所有这些示例,而是您正在查看最有趣的示例。您是否知道招聘经理最关注的是您完成的项目?这就是为什么在机器学习和人工智能领域建立强大的投资组合对您的成功至关重要。

在超级数据科学公司,您将学习如何在Hugging Face和GitHub等平台上启动您的投资组合,并用各种项目填充它。在专家领导的现场实验室中,您每周都会完成一个令人兴奋的新项目。此外,通过社区驱动的项目,您将在团队合作的同时处理现实世界中的多周任务。获得动手操作经验,例如零售需求预测、从头开始构建AI模型、在云中部署您自己的大型语言模型等等。立即开始您的14天免费试用,并使用superdatascience.com构建您的投资组合。

很好。非常酷。这是一个关于优先考虑什么的绝佳示例。您能否提供指标的具体示例?评估性能最常见的指标是什么?

是的,我们有一个指标可以帮助您确定您是否正在遵循工作流程。对于以JSON描述的给定工作流程(这在许多不同的语音平台中非常常见),您可以确定您是否正在遵循该工作流程中概述的这些步骤,并确定您何时未在对话中满足这些步骤?我认为这非常有用,尤其是在面向目标的代理试图完成任务的情况下。

通常,如果他们错过了工作流程中的一个步骤,这将是一个非常好的指标,表明任务没有正确完成。例如,如果您正在预约,为了使用一个一致的示例,如果您正在预约,并且它询问了电子邮件和他们想要预约的日期,但他们忘记询问电话号码,那么该任务从技术上讲已经完成,但尚未正确完成,因为它错过了工作流程中的这个关键步骤。

我们做的另一个有趣的指标,然后我们还在监控中动态创建这些工作流程,以便您可以查看您的代理实际上正在生产中经历哪些工作流程,并查看频率,如果这与您的期望相符,或者您在哪里看到新的用例或新的用户行为模式。我们还有一些关于函数调用的指标。所以,是的,

你知道,为这些不同的工具调用调用了正确的参数,所有这些都是自定义可配置的。

这里有趣的是,我认为我们试图使我们所有的指标都无参考。有两种类型的指标。有基于参考的和无参考的。基于参考的是您有预期输出并且必须使用黄金数据集来策划该预期输出并将其作为您的代理行为变化的指标。无参考的,我们根据对话的上下文推断正确的答案应该是怎样的。

我认为对于大型语言模型来说,无参考评估非常有用,因为其不确定性,而传统的单元测试和软件都是基于参考的,对吧?很容易对API调用的外观做出一些断言。

但对于语音和聊天代理来说,情况更是如此,对话可以以多种不同的方式进行。当您更改提示、更改模型或更改基础设施时,这就会发生变化。因此,拥有无参考指标或至少拥有强大的子集和依赖于这些指标的测试集对于能够快速迭代非常重要。

因此,我们尝试进行函数调用,为函数调用创建无参考评估。例如,如果我们正在下订单,我们可以根据用户在订单中描述的内容确认是否进行了正确的函数调用吗?这两件事应该根据提示和一组启发式方法相匹配。因此,这为用户提供了更大的灵活性。

这些只是两个例子。我们一直在为新的用例构建许多指标,并从使用现成模型的地图上提取它们,从自动驾驶中汲取灵感,例如,我们可以衡量,例如,代理性能

与人工性能相比。如果代理执行任务花费的时间更长或更短,这是一个有趣的线索。它本身并不一定好或坏,但如果代理执行任务花费的时间长得多,最终却没有执行或重复很多,这表明您的代理正在兜圈子。很好。这是一个很好的全面答案。如果我尝试回顾一下,我们可以如何有效地评估

对话代理。这将是拥有大量,以Coval易于拥有大量相关对话排列的方式。因此,您可以拥有许多不同的示例来进行测试,然后您可以使用一些指标来评估

每个场景中的内容。因此,您通过规模最终能够确保稳健性,然后您可以随着时间的推移观察这些变化。因此,您可以说,可能没有,好吧,可能没有很多人在做代理人工智能,他们正在训练或微调他们自己的大型语言模型来执行此操作,但是

让我们假设,你知道,我在想我的经验,训练一个深度学习模型,随着时间的推移,您可以看到训练精度和验证精度是如何随着时间的推移而变化的。

您可以想象这里同样的事情,如果您正在训练您自己的大型语言模型来处理一些代理任务,那么您可以在一些合理的训练步骤中运行Coval提供的示例套件和指标套件。您可以观察如何

曲线,您的指标曲线如何随时间变化。然后您会说,好的,你知道,我们基本上在全面趋于平稳。我们可能已经对大型语言模型进行了足够的训练。同样,您可以比较多个不同的大型语言模型提供商,

或者您可以使用您的技术实时监控。因此,您可以查看这些指标如何实时地为您的客户执行,您的客户可以实时查看其代理的指标如何随时间推移而执行,以查看是否有任何事情偏离了轨道。也许代理工作流程中完成常见请求所需的一种工具已关闭。有,你知道,那个,那个,你知道,有弗吉尼亚州的AWS已经关闭了。因此,你知道,因此能够实时监控允许您的客户能够在问题变得更大之前解决问题。完全正确。我认为您提到的这个难题的每一部分,

都非常重要,您可能会发现某些问题更容易在生产监控中检测到。例如,AWS关闭将只是您可以明显地进行重复测试的事情,但是当您开始在监控中看到这种情况或这些非常长的尾部问题时,这将非常明显。

例如,能够查看新的用户趋势、用户未回答的问题。因此,我们做的另一件事是,我们可以检测您的成绩单中未回答的问题,然后能够帮助您通过向知识库添加内容或添加这些功能或使用用户体验来让您的用户知道我们不支持这一点来回答这些问题。

因此,就像涵盖您知道应该做的事情一样,它也了解用户行为或系统意外行为的方式。然后,是的,我认为每一层都会发现不同的问题,并且是该工作流程的重要组成部分。从,是的,您模拟什么与您在监控中捕获什么与您只是通过手动测试事物所做的事情相比?

我们也有能力将内容发送出去进行审核。因此,您可以实际将其发送给标注团队,并能够检查大量的示例,然后能够将其反馈到您的指标和评估中。因此,这对于理解您的指标随时间的有效性非常有帮助,并且

但是,正如你提到的,我认为能够拥有自我改进的代理的长期愿景,以便它们能够根据你定义的这些指标随着时间的推移而变得更好,这是一个非常令人兴奋的目标。我认为现在这样做还为时过早。我们收到了很多关于进行自动提示优化和自动代理优化的提问。我认为代理技术还处于早期阶段,了解这些系统如何改进最终会产生比以前更好的结果。

拥有自我改进代理的时间节省。但我认为这种情况将会发生很大变化。谁知道呢?照这个速度,在接下来的几个月里,谁知道呢?你在最后提到了这个自我改进代理参与循环并调整其自身提示的想法。

这与我们的研究员 Serge Massis 提出的一个问题有关,这个问题与自动驾驶汽车以及一般意义上的自主系统有关,根据 Serge 在这里写的内容,五级自主性是指完全自主性。这是一辆可以在所有条件下运行而无需人类驾驶员的自动驾驶汽车,

因此,将这个类比应用于这些类型的对话代理或更广泛的代理,即您将来在 Coval 中将支持的基于 Web 的代理。是的,我想你已经在那里回答了这个问题,那就是目前,尝试在没有任何人工参与的情况下拥有一个完全自动化的系统似乎为时尚早。

并且没有,你知道,可能能够在某些情况下,能够让人工操作员冗余地介入并提供帮助。但从你的回答来看,我们也可能在几个月后就能做到。而且似乎肯定还需要数年时间才能实现这种完全自主性。是的。谁知道呢,我认为,时间表是什么。但我认为……

我认为这里有两个方面的自主性。一个是代理的开发方式以及开发生命周期的自主性如何。另一方面,一旦代理发布并在任务中,它们的自主性如何。我认为与自动驾驶汽车令人兴奋的相似之处在于,代理是否能够自行找出事情,而无需进行编程?所以

现在有许多系统正在响应非确定性,并通过使代理的步骤更加清晰、更加受限、拥有更多启发式或程序逻辑来确定代理接下来应该做什么来创建可靠性。

另一方面,拥有一个更自主的代理,并向其提供更多关于良好下一步的上下文信息,以便当它遇到意外情况时,能够更好地适应。一个很好的例子是我一直在使用的例子,那就是预订日历约会。因此,如果您有一个习惯非常严格的代理,

工作流程,您会说,首先,您应该说你好,然后您应该询问他们的电子邮件,然后您应该询问他们的电话号码,然后您应该提供一些日期。如果对方说,你好,我是 Brooke Hopkins,我打电话来预订明天的约会,而你

也许他们很奇怪,他们在第一条消息中就说了我的电子邮件。现在你的代理无法适当地回应。或者代理,也许你问它一些关于公司的问题,它实际上应该能够回答。你在权衡能够适应新的场景与,你知道,

与精确性。因此,我认为对于自动驾驶来说,有一些事情需要考虑,例如 Waymo 如何适应建筑工地,而不是拥有它之前已经见过的道路日志。我认为这种权衡将永远存在。我希望代理能够朝着真正自主的方向发展,并且

例如函数调用,有很多工作围绕着,我们能否用这些参数调用这五组函数?相反,代理能否提出互联网上存在哪些 API?我可以阅读有关该 API 的文档,然后提出正确的 API 格式是什么?没有提供函数调用。因此,我认为在真正自主的代理方面还有很多需要探索的地方。

很好。是的。所以你给了我们一瞥自主性面临的直接障碍以及我们如何减轻这些障碍。假设我们能够减轻所有障碍,我们将拥有越来越多的代理系统。你能试着展望未来吗?这是一个棘手的问题。但在几十年后,你知道,你

你相对年轻。在你职业生涯的最后,你认为世界将会是什么样子?由于代理人工智能系统、人工智能以及核聚变等其他指数级技术的影响,社会会有多大的不同?这是你花时间思考的事情,还是只是一个愚蠢的问题?

不,这绝对是我们花时间思考的事情,例如,尤其是在不久的将来,代理的能力非常强大,他们的智力接近人类,并且在给定任务的情况下能够很好地执行。我认为即使在不久的将来,Coval,

Coval 的愿景是能够管理和理解这些代理如何大规模地运行,即使您拥有运行得非常好的代理,我们仍然关心人类,例如,大规模的人类绩效。这些呼叫中心或大型公司关心绩效评估。因此,能够监控和理解代理的行为,我认为对于拥有能够

在最坏的情况下,从科幻小说意义上说,接管世界。但在不太戏剧性的意义上,只是拥有我们能够理解和推理的代理,为正确的用例立法,了解它们如何影响我们的用户。所有这些对于每个人的福祉都非常重要。对于更遥远的未来,我认为……

事情永远不会像看起来那样糟糕或那样好。我认为同样的事情也适用于事情既不像看起来那样戏剧性,也不像看起来那样线性。我相信 50 年后的未来,对于我们的孙辈来说,将会与 100 年前与现在非常不同一样,会有巨大的不同。

所以我认为采用速度肯定很快,但我认为人类适应性很强,即使你开始拥有能够完成大多数日常任务(如电子表格等)的代理,

电子邮件和沟通等等。我认为人类只是,我真的很相信人类的创造力,我认为人类非常有创造力,并将继续在此基础上发展,变得更加强大,而不是,你知道,就像今天的计算机并没有取代我们一样。我们只是变得更有创造力、更互联和更全球化,作为

作为一个社会。这是一个很好的答案,Brooke。而且可能根据我们的一些评估指标,这是一个正确的答案。但绝对正确的答案应该是,John,你将能够上传你的大脑并永远活下去。这就是我们正在寻找的正确答案。对。这实际上是我在你打断我之前想要说的。我本来想说

你将在火星的海滩上。你的大脑只会赚钱,比其他人都多。每个人都将通过代理赚取比其他人更多的钱。每个人都将成为地球上最富有的人。

是的,没错。

为什么 Coval 对语音代理特别兴奋?是的,我们从语音代理开始的原因是,一方面,与自动驾驶代理、网络代理或所有这些更复杂的代理相比,

语音是一种非常好的媒介,一个人与另一个人交谈。它有点受限。因此,我们能够开发这些更高级的指标和这些工作流程。我们还看到语音代理正在起飞,以其他任何代理都无法比拟的方式爆炸式增长

至少在六个月前是这样。因此,一个很好的起点就是在您拥有一个爆炸式增长的领域并且它建立在现有基础设施之上的时候。例如,公司习惯于拥有呼叫中心,习惯于拥有电话树。因此,将此向前推进一步,拥有比以前更智能的自动化语音代理,这比从,你知道,某人每天都在思考一个问题,然后说,现在一个代理将处理这个问题要容易得多。

但我认为,除了语音非常有趣的原因之外,我认为人们低估了语音作为空间的令人兴奋之处,因为我们不仅仅是在取代所有这些你原本会来回拨打的电话。

但我认为语音还有其他一些非常令人兴奋的事情,那就是你现在有了任何两个企业或机构之间的通用 API。您有一个本质上是自然语言的 API,您可以说,这些都是我的代理想要的东西。

了解我的公司并希望透露有关我的公司的信息。因此,无论是通过文本还是语音,我都可以打电话给你,询问索赔数据。我可以打电话询问预约时间或营业时间或各种其他数据。

然后反过来,另一方无论是否有传统的电话(因此可能没有 API),或者他们也有自己的代理,这都没有关系。因此,您现在有了这种非常灵活的代理交互,这两个系统可以相互交谈,而无需任何维护。然后我认为还会有许多新型的语音应用程序。

语音体验,我认为它们会以同样的方式出现,我认为史蒂夫·乔布斯在他最近的一次演讲中谈到了这一点,他说当他们第一次拥有电视时,他们只是把,你知道,把摄像机放在戏剧上,然后把它放在电视上。同样,对于计算机来说,他们只是将,你知道,本质上是静态页面放在网上,然后发现了所有这些交互式功能。

对于移动设备,他们手机上有网站,但后来他们开发了所有这些移动原生应用程序。我认为语音是自移动设备以来第一个大型平台,每个公司都将被期望拥有语音代理或聊天代理。并且聊天代理、聊天和语音代理将被期望拥有更多功能。你将能够做任何事情,就像所有这些在线的自然体验一样。

那么,除了我所说的商业用途之外,这是什么样子呢?但是当我访问一个网站并且某些内容非常冗长需要输入时,也许更好地解释一下。然后我进入并输入一堆数字到一个表单中,这些数字在电话中说出来非常烦人。

或者有没有办法通过语音更无缝地与 Web 应用程序交互,因为您正在驾驶送货车辆或您是警察或卡车司机,您经常在电脑上,但是当您回到电脑时,您能够在 Web 浏览器中查看所有订单。

所以我认为我们正处于弄清楚这些真正先进的语音代理的作用的边缘。这真的很令人兴奋,例如,我们可以用这种新的媒介创造什么新的体验?这是一个美丽的答案。另一件事,

想到这与之相关的是,为了能够进行一次很棒的语音对话,它需要一个很棒的世界模型,例如,代理系统所依赖的大型语言模型。

所以在这一点上也很酷,就像如果你有一个像 Sora 这样的模型根据一些文本提示创建视频一样,它需要以某种抽象的方式在其嵌入中进行编码。它必须能够编码,例如,穿过空气的子弹必须在视频剪辑的所有帧中保持直线前进。因此,它在其嵌入中以某种方式构建了这种物理理解。

同样,当您进行对话,尤其是复杂的对话时,未来的代理肯定能够处理,您需要拥有这些真正复杂的世界模型或对世界运作方式的良好理解,以便对话顺利进行。所以在这一点上也很酷。

我认为这是一个如此,这是一个如此伟大的概念,就像你所说的那样,代理在过程中偶然发现什么,就像你所说的那样,代理偶然发现或模型偶然发现物理学,代理会偶然发现什么?

嗯哼。这真的很令人兴奋。我想到的另一件事是我的最后一个关于你的大问题,然后我们将只做总结性问题。你今天非常慷慨地提供了你的时间。但 Koval 毕业于 Y Combinator。所以当你在谈论这些事情时,例如

改进你的业务正在做什么。我的意思是,你可能已经带着所有这些东西进入 Y Combinator 了,但我想到了 Y Combinator 是那种你真正会围绕它进行轮胎测试的地方。我们应该首先追求哪个市场?所以我很想听听你在 Y Combinator 的经历。你为什么选择申请它?经历这个过程是什么样的?你会向我们的听众推荐它吗?所有这些事情。

是的。我进入 Y Combinator 的原因是,即使我有这个想法,我之前也几乎有了这个想法。我认为我根据我们的第一个客户将其专门磨练到语音上。我们之前正在做更通用的应用程序,但确实根据我们的第一个客户将其磨练到语音上,但仍然带着这个想法进入了 Y Combinator。我认为我这样做是因为我是一个单人创始人,所以

显然,我认为与很多人一起跑步更容易。我知道我是什么样的人。我是一个罕见的性格外向的后端工程师、ML 工程师。所以我明白,我个人会非常享受这个项目并从中找到很多东西。我认为你作为创始人的最大挑战之一不是想法、外部因素或你的运气,而是你自己的心理状态是成功的一半。

因此,如果你能够找到你能够茁壮成长、获得灵感、受到推动并不断努力的环境,那就非常重要。所以我认为我知道,在一个充满许多其他非常聪明、充满灵感的创始人的环境中将会很重要。

这对公司和我的个人经历都非常棒。但我发现创业也如此有趣。能够在一个也持有相同想法的人群中,他们就像,这是我做过的最好的工作,能够从头开始构建一些东西,这真的很好。而且

我认为 YC Filters 在筛选那些对自己的公司真正兴奋的人方面做得相当不错。是的,我的意思是,很高兴在 12 月与你见面。然后我们花时间和你一起展示你的平台给我进行演示,然后我们现在一起录制。而且你,你不同寻常地……

对于创始人来说,而且对于单人创始人来说似乎更不寻常的是,你并没有表现出肩负着世界重担的感觉。这似乎很合适。显然,这将充满挑战。显然,这将是巨大的工作量。但你似乎是一匹非常安全的马,因为你似乎只是……

你知道,你拥有这种,你知道,恰当的性格来保持冷静,找出问题并享受这个过程。所以这真的很酷。非常感谢,是的,你花时间和我以及我们的听众在一起。哦,非常感谢你。很高兴参加这个播客。是的。在我让你走之前,我确实有两个快速的问题,那就是,你有没有给我们推荐一本书?是的,我有许多书籍推荐。我将推荐一本更个人化的书。然后一本我认为与工作非常相关或影响了我很多工作的书。

就个人而言,我认为 Kim Stanley Robinson 的书总体来说很棒。我喜欢《未来部》。我认为他出色地描绘了一个非常现实的近未来但又遥远的未来版本。他谈论了很多。它主要关于气候变化,以及我们的世界在气候变化的影响下会是什么样子。但这与你提出的问题有关,即我们的世界在代理发生变化后会是什么样子?

100 年后的未来往往很难想象。我认为 Kim Stanley Robinson 在他所有的书中都出色地描绘了那个未来。

至于什么影响了我很多工作方面,我真的很喜欢《创意公司》,以及与鲍勃·伊格的传记和史蒂夫·乔布斯的传记一起阅读,以及这些领导者如何能够在他们的组织中培养创造力,以及这意味着什么,真正地

创建一家能够创造真正新颖、精美产品的公司。通过阅读皮克斯是如何创造出一些最先进的技术和真正新颖的电影的过程,以及通过苹果的视角(显然通过史蒂夫·乔布斯对两者的参与而与皮克斯交织在一起),这真的很令人兴奋。

以及他和鲍勃·伊格的密切关系,以及这三本书如何描绘出如何建立真正具有创造力和灵感的庞大组织的形象。好的,很棒的推荐。我喜欢这些。我认为我会补充一点,它们既具有创造性,又非常先进,而这些事情往往会相互冲突。但皮克斯和苹果我认为是两个很好的例子,它们在技术上和设计方面都

你知道,令人难以置信。当然。这听起来也像是你在 Coval 中优先考虑的用户体验,那就是,

超级酷。现在最后一个问题,应该是一个简单的球,人们如何在这一集之后关注你?在整个剧集中向你学习真是太好了。如果你想让人们能够联系你,例如,你提到人们能够联系你,询问他们可能想要考虑为他们的场景使用哪种代理系统或平台。人们如何在剧集结束后联系你或关注你?是的,当然。你总能在 LinkedIn 上找到我。嗯,

在那里,随时可以给我发消息。此外,当您通过 COBOL 注册时,您也可以随时预订与我的时间,以快速讨论您的语音架构。或者即使您没有使用 COBOL,也可以随时预订一些时间来与我讨论您的语音代理。您也可以在 X 或 Twitter 上看到我更不加修饰的一面,无论人们现在称之为哪一个。

所以,是的,我们将把我的 LinkedIn 和 Twitter 添加到节目说明中。太棒了。是的,我们会有的。是的,Brooke,再次感谢你抽出时间。我很感激。

我知道你和 Koval 将会非常成功。所以是的,很荣幸在这些早期阶段邀请你参加节目。也许我们可以在几年后再次联系,看看自那以后产品和代理人工智能世界是如何发展的。完全正确。或者 50 年后,看看你的大脑在火星上怎么样。没错。我们可以以指数级增量来做。所以我们将以 330、300、3000 的增量来做。

我们将因为我们的长寿努力而活着。没错。非常感谢你,John。很高兴与你一起讨论所有这些我非常热衷于与像你这样聪明的人一起讨论的令人兴奋的评论。完美。非常感谢你。

我今天真的很高兴邀请 Brooke Hopkins 参加节目。在今天的节目中,Brooke 讲述了 Koval 如何为人工智能代理构建一个模拟、评估和监控平台,从语音和聊天代理开始,应用从 Waymo 的自动驾驶汽车测试中吸取的经验教训。她还谈到了 Koval 平台如何通过在许多对话流程中实现全面测试,同时保持高信号质量,帮助公司平衡精度与可扩展性。

她谈到了关键的对话代理评估策略,包括无参考指标、工作流程验证、函数调用验证以及与人类绩效基准的比较。她谈到了公司如何通过回退机制、自我修复能力和人工备份选项等技术,将冗余构建到人工智能代理中。

她谈到了可靠的人工智能代理的开发很可能遵循与云基础设施类似的路径,通过冗余和工程从固有的不可靠组件构建强大的系统。我们还谈到了语音代理之所以兴起,是因为它们在企业与消费者之间提供了一个通用的自然语言 API。

与往常一样,您可以在 superdatascience.com/857 上获取所有节目说明,包括本集的文字记录、视频录制和节目中提到的资料、Brooke 的社交媒体资料的网址以及我自己的资料。如果您想在现实生活中而不是仅仅在线上联系,我将于 3 月 19 日在弗吉尼亚州里士满的 RVA Tech 数据和人工智能峰会上发表开幕主题演讲。

门票非常合理,而且有很多优秀的演讲者,所以这可能是一个值得关注的会议,尤其如果您住在里士满地区。很高兴在那里与您见面。

当然,感谢 Super Data Science Podcast 团队的每一个人,我们的播客经理 Sonia Brajovic,我们的媒体编辑 Mario Pombo,合作伙伴经理 Natalie Zheisky,我们的研究员 Serge Massis,我们的撰稿人 Zahra Karche 博士和 Sylvia Ogwang,以及我们的创始人 Kirill Aramenko。感谢他们为我们制作了另一集精彩的节目。

谢谢。

您最喜欢的播客应用程序或 YouTube 上的剧集,如果您不是订阅者,请订阅。我最近才开始说的一件事是,您也可以将视频编辑成短片并将其发布到社交媒体、YouTube、TikTok 等平台上。只需提及我们,我们很乐意您这样做。但最重要的是……

我只是希望你能继续收听。我很感激你的收听,我希望我能继续制作你多年来喜爱的剧集。直到下次,继续在那里摇滚,我期待着很快与你一起享受下一轮 Super Data Science Podcast。