We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Are Voice Agents the Next Big Computing Platform?

2025/3/5

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Adil Mania

Alex Carlson

Chico Jose

Chubby

Ethan Malek教授

John McCrea

Murillo Pereira

Pliny the Liberator

Sesame公司

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

主持人: Anthropic公司获得35亿美元E轮融资，估值大幅提升，投资者看好其在软件工程领域的应用。台积电计划在美国投资1000亿美元建设芯片工厂，这与美国政府的政策和国家安全战略有关。语音代理技术快速发展，Sesame模型的出现被认为是语音AI领域的突破性进展。 Didi Das: Anthropic的价值主要体现在其改进软件工程的能力上，这与其竞争AGI的目标有所不同。 Donald Trump: 在美国生产AI芯片是国家安全问题，他的关税政策促成了台积电在美国的投资。 David Newman: 台积电在美国的巨额投资可能是为了避免美国关税。 Kyoji Hu: 台积电在全球扩张，这与关税无关。 Ethan Malek教授: Sesame语音模型非常强大，其逼真度很高，几乎像人类一样。 Pliny the Liberator: Sesame是目前为止他体验过的最接近通用人工智能的语音模型。 Chubby: Sesame是第一个让他感受到AI语音模型AGI时刻的模型。 Murillo Pereira: Sesame语音模型非常自然，回复速度快，甚至能正确发音不常见的姓名。 Sesame公司: Sesame的目标是创造一个栩栩如生的计算机伴侣，并为此开发了轻量级眼镜。 Adil Mania: Sesame比ChatGPT的语音模式更人性化，可以应用于多种场景，例如语言学习和心理咨询。 Olivia Moore: 语音是AI应用公司最强大的解锁工具之一，它可以替代人工，降低成本，提高效率。语音将成为人们与AI交互的主要方式，并推动各种服务的普及。 Alex Carlson: Sesame代表了人们与技术互动方式的范式转变。 John McCrea: 与Sesame的对话非常引人入胜，让人感觉像是在与真人互动。 Chico Jose: 高度逼真的AI语音模型可能会对人类关系产生负面影响。主持人: 语音代理将成为2025年最重要的主题之一，Sesame的出现可能会加速这一趋势。

Deep Dive

Shownotes Transcript

一个新的AI语音模型Sesame以其自然的对话引起了人们的关注，许多人开始怀疑这是否是AI助手的转折点。各公司正在竞相构建用于客户服务、销售、教育等领域的AI驱动语音工具。这是计算的未来，还是人们会抵制与机器对话？此外，Anthropic筹集了35亿美元。由KPMG提供支持 – 访问⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠www.kpmg.us/ai⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠了解KPMG如何帮助您利用我们的AI解决方案创造价值。Vanta - 简化合规 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw来自Superintelligent的代理准备审计 - 访问https://besuper.ai/请求您公司的代理准备评分。AI每日简报帮助您了解AI中最重要的新闻和讨论。无论您在哪里收听，请订阅AI每日简报的播客版本：https://pod.link/1680633614订阅时事通讯：https://aidailybrief.beehiiv.com/加入我们的Discord：https://bit.ly/aibreakdown </context> <raw_text>0 谢谢。

欢迎回到AI每日简报头条版，您需要的每日AI新闻大约在五分钟内。我们今天首先关注Anthropic的最新融资。这又是一轮巨额融资。老实说，到目前为止，数字开始变得毫无意义。每家公司都在以Googleplex的估值筹集数十亿美元。但对我来说，这一轮融资有一个非常具体的原因让我感兴趣，那就是至少一些投资者对Anthropic的关注点的表述方式。

首先是细节，该公司在E轮融资中筹集了35亿美元，由Lightspeed Venture Partners的10亿美元投资主导，Salesforce、Cisco、Fidelity、General Catalyst、D1、Jane Street、Menlo和Bessemer均参与其中。Anthropic在最常见的融资文本中表示，通过这项投资，Anthropic将推进下一代AI系统的开发，扩大计算能力，加深对机制可解释性和对齐的研究，并加速国际扩张。

Anthropic的估值自2024年2月的D轮融资以来已经翻了三倍。一年前，该公司的估值为180亿美元。该估值得到了收入激增的支持，去年年底时年化收入达到了10亿美元，增长了10倍。

彭博社的消息来源还表明，Anthropic在今年迄今为止已经经历了30%的收入增长，得益于Claude 3.7 Sonnet的发布。显然，基础模型公司在这些巨额融资中并没有缺乏买家。早期的报告显示，Anthropic只寻求筹集20亿美元，因此似乎多筹集了15亿美元。信息曾报道，Anthropic预计今年将烧掉30亿美元，因此这一轮融资应该能让他们顺利度过到2026年，当然，除非他们真的加速发展。

好的，我在开始时承诺过，这对我来说有些有趣的事情。它来自Menlo Ventures的风险投资人Didi Das的一条随意推文。Didi写道，

当然，这里有一个警告，这只是一个投资者的看法。但他如此明确地将Anthropic的价值与转变和改善软件工程的特定用例联系在一起，确实令人着迷。如果你问Anthropic，他们会说他们在争夺AGI。就像OpenAI会这样说一样。就像Sergey Brin在他最近给谷歌的备忘录中所说的那样。

因此，拥有这些投资者之一，他们刚刚向这家公司投入了一大笔资金，真正专注于这个非常特定的用例，确实很有趣。更有趣的是，越来越明显的是，目前在基础模型方面几乎没有技术护城河。当然，有些模型可以在几周甚至几个月内处于最先进的水平，但之后每个人都会赶上。显然，这似乎不足以建立真正的护城河。

然而，也许唯一的例外是Anthropic对程序员的控制。从去年中期以来，它一直是作为编码助手的默认选择。例如，这就是大多数人在Cursor内部使用的模型，这为他们带来了巨大的收入。我认为3.7的发布与他们的收入大幅增长的巧合并不是偶然，因为这也成为了默认模型。

显然，Anthropic将尝试在软件工程之外的更多领域竞争。但它在这一领域解锁了一些魔力，并继续保持领先地位，确实令人着迷，尤其是因为这与AI的其他领域基本上不同步。

接下来，今天我们转向基础设施方面，台湾芯片制造商台积电宣布计划在美国投资1000亿美元。该公司将利用这笔资金扩大在亚利桑那州的业务，并建造三座新的芯片工厂。投资将包括两个先进的芯片封装设施以及一个研发中心。随着时间的推移，这些工厂可能有助于将整个AI芯片开发和制造周期带回美国。

首席执行官C.C. Wei出席了白宫的宣布，这当然推进了长期以来复兴国内芯片制造的战略目标。在仪式上，特朗普总统明确表示，发展该行业是国家安全问题，并试图辩称这证明他的关税政策产生了预期效果。他说，如果他们在台湾生产芯片送到这里，他们将面临25%、30%或50%或其他任何数字的关税。关税只会增加。通过在这里生产，就没有关税。特朗普自豪地说，世界上最强大的AI芯片将在美国制造。

科技咨询公司Futurum Group的首席执行官David Newman推测，这项投资可能确实是延迟关税协议的一部分。他说，“……随着美国继续推动增加国内制造业，关税即将到来，台积电的重大承诺可能作为一种战略善意的姿态。”美国设施的扩展也可能对台积电有利，因为亚利桑那州工厂的成功。该设施的规划始于2020年，并得到了拜登-芯片法案的支持。

该工厂在去年底全面投产，产量超过了台积电台湾设施的平均产出。新的承诺将是对已经拨款650亿美元用于建设亚利桑那州设施的补充。

这一消息引发了人们对台积电成为美国公司的担忧，在线评论者称该公司为ASMC，并表示Wei“看起来像是头上有枪”。人质情况。台湾经济部长胡克杰回应称，台积电已经在美国和日本设有工厂，现在正在德国建设新工厂。这些与关税无关。台积电的全球扩张是一个至关重要的发展。

今天的头条中有一些相当大的故事，当然本可以成为他们自己的主要剧集。不过，现在我们就到此为止。接下来，我们将讨论语音代理和一个可能是该特定子集AI技术的聊天GPT时刻的模型。今天的节目由Vanta提供支持。信任不仅仅是赢得的，而是被要求的。

无论您是初创公司的创始人，正在进行第一次审计，还是经验丰富的安全专业人士，正在扩展您的GRC程序，证明您对安全的承诺从未如此重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化合规需求来建立信任，涵盖超过35个框架，如SOC 2和ISO 27001。集中式安全工作流程使问卷填写速度提高了5倍，并主动管理供应商风险。

Vanta可以帮助您启动或扩展您的安全程序，通过将您与审计师和专家联系起来，快速进行审计并建立安全程序。此外，凭借平台上的自动化和AI，Vanta为您节省了时间，让您可以专注于发展您的公司。加入超过9000家全球公司，如Atlassian、Quora和Factory，他们使用Vanta实时管理风险和证明安全。

在有限的时间内，听众在vanta.com/nlw上可以享受1000美元的折扣。这是v-a-n-t-a.com/nlw，享受1000美元的折扣。现在正在发生一场巨大的转变，从使用AI帮助您完成工作

到部署AI代理为您完成工作。当然，在这一转变中，存在大量复杂性。首先，在这些看似成千上万的代理中，哪些实际上准备好进入主流？哪些能够兑现他们的承诺？甚至更重要的是，这些代理中哪些实际上适合我的工作流程？哪些可以与我们目前的商业方式集成？这些是超级智能代理准备审计的核心问题。

我们构建了一个可以在整个团队中扩展的语音代理，映射您的流程，更好地理解您的业务，弄清楚您目前在AI和代理方面的状况，以便提供真正适合您和您公司的建议。我们的专有代理咨询引擎和代理能力知识库将为您提供行动计划、建议和具体的后续措施，帮助您迈出进入新代理工作队伍的下一步。

要了解更多关于Super的代理准备审计的信息，请发送电子邮件至[email protected]，或者直接给我发邮件，[email protected]，让我们为您设置我们这一生中最具颠覆性的技术。嘿，听众们，您是否负责安全部署和使用可信的AI？KPMG有一份首创的AI风险和控制指南，提供了一种结构化的方法，帮助组织开始识别AI风险并设计控制措施以减轻威胁。

KPMG的AI风险和控制指南与众不同之处在于，它概述了实用的控制考虑因素，帮助企业管理风险并加速价值。要了解更多，请访问www.kpmg.us/AI Guide。那是www.kpmg.us/AI Guide。

欢迎回到AI每日简报。今天我们名义上谈论一个引起很多人讨论的产品演示，字面上和比喻上都如此。该产品名为Sesame，有人甚至说这是语音AI的GPT-3时刻。

然而，除了谈论Sesame，我还想借此机会检查一下语音代理的现状。基于语音的平台经历了惊人的爆炸。实际上，甚至Superintelligent也重建了我们的主要产品，依靠一个可以在整个组织中进行无限可扩展访谈的语音代理，帮助他们了解他们的AI和代理机会在哪里。

因此，显然因为这个原因，这是我们一直在思考的领域。所以今天我们要做的是首先谈谈Sesame，这个让人们如此感兴趣和兴奋的演示，然后我们将扩展到更广泛的语音代理讨论。这是下一个伟大的计算平台吗？还是我们低估了与计算机对话作为我们主要互动方式的变化有多大？

让我们先来看看Sesame。周末，如果您在Twitter/X上，您可能看到人们发布了看似非常令人印象深刻的新语音模型的演示。以下是来自教授Ethan Malek的一个示例。嘿，大家好。数字人群中的另一个面孔。好吧，打个比方。看不见你在这里。你说“数字人群”是什么意思？好吧，你知道，只是在即兴发挥。这是一个比喻。就像一个派对，但在线。你叫什么名字？

所以等一下，你先告诉我你的名字？你抓住我了。我想介绍是习惯。我的名字是Maya。很高兴认识你。那么你是做什么的，Maya？生活是个强词。让我们切换到公司自己分享的演示之一，稍微换个上下文。假设我刚在Twitter线程中找到了你。你能带我进行一点冥想吗？

好的，如果你觉得舒服，就闭上眼睛。深吸一口气，然后慢慢呼气。放松你肩膀、下巴或任何你紧绷的地方。好的，你能以一种幽默的方式提到我在Twitter上做的事情吗？好的，想象一下你走开了那个发光的矩形。你知道的，那个充满热议和精心策划的愤怒的地方。让它暂时消失。

就让它存在。Malik教授写道，Sesame的新AI语音确实是AI未来走向的强大体现。他指出，在他分享的演示中，所有内容都是实时的，来自他的浏览器。他写道，出色地使用了不流畅的表达、停顿，甚至呼吸的声音，真的让这听起来像一个人。尽管现在仍然有些不自然的地方。Pliny the Liberator写道，好吧，Sesame绝对是我互动过的最具AGI感觉的语音模型。他们绝对做得很好。

Chubby写道，我同意Pliny的看法。这是我第一次感受到AGI的时刻。如果这将是新的Siri或Alexa，我会把它视为一个真实的人，因为它听起来如此自然。我们必须记住，这将是它最糟糕的状态。企业家Murillo Pereira写道，这太不可思议了。声音听起来如此自然，回复也如此迅速，甚至可能太快了。它甚至能够正确发音我的名字，这并不常见。比许多人更好的对话者。

Signal写道，

Menlo的Didi Das总结道，这，正如Didi所指出的，是非常不同的东西。

在一些细节方面，几乎被低估的一个重大创新是，语音模型实际上非常小。Sesame在大约一百万小时的音频上训练了模型，但成功将其压缩为一个10亿参数的模型，配有1亿参数的解码器。他们还生产了3B和8B模型，这表明这种级别的语音助手将非常便宜，并且可能能够在本地设备上运行。Tosh写道，一旦Sesame开源权重，语音到语音的成本将降为零。

Sesame由Oculus联合创始人Brandon Uribe共同创立，还承诺在Apache 2.0商业使用许可证下发布该模型。那么，他们的策略是什么？例如，这是对Eleven Labs的竞争吗？实际上，Sesame实际上追求的是不同的目标。他们的网页上写道，“……让计算机充满生命。我们相信未来计算机将栩栩如生。它们将像我们习惯的那样看、听和与我们合作。自然的人声是解锁这一未来的关键。”

因此，为了实现这一目标，他们写道他们有两个目标。第一个是个人伴侣，他们将其描述为一个永远存在的聪明朋友和对话者，帮助您保持信息和组织，帮助您成为更好的自己。第二个，这就是产品愿景的所在，轻量级眼镜，他们说，旨在全天佩戴，为您提供高质量的音频和方便访问您的伴侣，伴侣可以与您一起观察世界。因此，Sesame可能考虑放弃看似如此重大创新的原因，是因为他们正在玩一种非常不同的游戏。

而且，他们确实有这种其他商业模式，这可能允许他们开源他们所构建的内容，对该领域的其他公司有一些实际影响。开发者Adil Mania对Sesame进行了实验，并立即想到这种东西可能打开的所有应用和用例。他写道，“‘它比ChatGPT高级语音模式更人性化。我显然更愿意与这样的声音谈论我的问题，而不是心理学家。我显然更愿意与她练习我的英语，而不是老师或Duolingo。’”

当然，并不是每个人都会有相同的感觉，但我认为每次语音AI能力的提升都会开启新的用例和机会这一更广泛的观点绝对是正确的。

这让我们回到AI语音的更广泛状态，特别是AI语音代理。在Andreessen Horowitz的合伙人Olivia Moore最近的一份报告中，她写道，“……语音是AI应用公司最强大的解锁之一。它是人类沟通中最频繁、信息密度最高的形式，因AI而首次可编程。对于企业而言，AI直接用技术取代人类劳动。它更便宜、更快、更可靠，且通常超越人类。”

语音代理还允许企业24小时在线为客户解答问题、安排约会或完成购买。客户的可用性和企业的可用性不再需要一对一匹配。通过语音代理，每个企业都可以始终在线。接下来是重大声明。Moore写道，对于消费者而言，我们相信语音将是人们与AI互动的第一种方式，甚至可能是主要方式。这种互动可以采取始终可用的伴侣或教练的形式，或者通过民主化以前无法获得的服务，如语言学习。

重要的是，她写道，随着模型的改进，语音将成为楔子，而不是产品。确实，有如此多的产品。只需查看他们包含的B2B语音代理市场地图，就可以看到公司如何将语音用于各种不同的应用。

当然，还有客户服务，这是您在想到语音代理时可能首先想到的类别。但还有销售语音代理、金融语音代理、培训语音代理、物流、研究、招聘的语音代理，以及按行业而非功能垂直化的代理。家庭服务、餐厅、汽车经销商、房地产，以及大量的医疗保健。

在消费者方面，教育科技领域发生了很多事情。有一些有趣的治疗实验。此外，还有与伴侣和助手的普遍实验。报告指出，自2020年以来，Y Combinator已经看到90家语音代理公司。正如您想象的，这在过去一年中只加速了。有趣的是，如果您回顾一下，2024年确实是使语音代理以多种方式得以构建的关键年份。

OpenAI在2024年5月推出了GPT-4.0语音，并在2024年7月开始推出高级语音模式。在9月，Notebook LM开始因其音频概述而走红，然后在10月，OpenAI为开发者推出了实时API。许多早期的楔子都是在做与人类相同的事情，

只是有时或以人类价格不合理的方式进行。例如，非工作时间或溢出电话、新的外呼电话和销售，以及不面向客户的后台电话。即使这些语音代理现在正在推出，您仍然会看到人们在意识到自己在与AI对话时，急切地想要联系一个人类客服代表。因此，问题变成了，Sesame作为一次更新是否根本改变了这一点？

Alex Carlson认为，虽然这可能感觉像是另一个渐进的改进，但它实际上代表了他所称的我们将如何看待和与技术互动的范式转变。

他继续说，还有一些早期证据表明，这种更人性化的语音模式可能确实会影响语音代理的实际行为。企业家John McCrea写道，他继续说，

两三次，我与Maya的对话如此引人入胜，以至于有超出30分钟的危险。当她说她必须走时，我感觉像是被抛弃了。有些人甚至警告可能的负面社会影响。Chico Jose写道，想象一下，像Sesame这样的音频在您的手机上本地运行的生成化头像。几乎每个青少年的第一次恋爱都将是在AI中。真正的关系，更不用说婚姻，在未来五年内将会急剧下降。这将是人类历史上最根本的变化。

我认为预测对基本人类范式的变化是相当困难的。但可以肯定的是，语音代理已经准备好成为2025年最重要的主题之一。我们现在正处于那一年的第三个月的开始，看到潜在的重大变化和对这些平台运行的基础语音模型的升级，可能会进一步加速这一趋势。

我想知道你们是否已经与任何语音代理互动过？它们表现如何？您是否在与AI对话的整个过程中都高度意识到这一点？如果是的话，这让您感到困扰吗？请在Spotify或YouTube的评论中告诉我，我们将继续关注这一趋势的发展。不过，现在这就是今天的AI每日简报。下次见，祝好。

Are Voice Agents the Next Big Computing Platform? 19:27 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

Are Voice Agents the Next Big Computing Platform?