We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Building the Next Generation of Conversational AI

2025/3/14

AI + a16z

AI Deep Dive AI Chapters Transcript

People

Ankit Kumar

Topics

Ankit Kumar: 我们低估了产品的质量，因为我们每天都在使用它，知道它未来的发展方向，总是想改进，所以会拖延发布。我们对产品的发布时机判断不够准确，因为我们总是关注下一个改进目标。我们知道产品会成功，因为我们每天都在使用它，并且每次改进都能感受到明显的提升。衡量AI产品质量的关键指标是用户的定性反馈，这很难量化。我们通过持续的反馈循环来评估产品质量，但这可能会因为内部测试用户的局限性而产生偏差。仅仅依靠直觉来进行ML开发是不够的，需要严谨的方法。新型的AI产品需要不同的运营实践，既要进行评估，又要关注用户的定性反馈。我们的产品使用了转录技术，但未来会朝着无需转录的方向发展。我们正在努力减少转录的延迟，并最终实现无需转录的语音处理。为了获得良好的响应速度，需要进行大量的系统工程工作。我们正在开发一种无需转录的模型，该模型可以直接处理音频输入并生成响应。当前的演示版模型无法理解用户的语音情感和语气等非语言信息。未来的模型将能够更好地理解这些信息。当前的演示版模型在某些方面优于其他产品，但并非所有方面都优于其他产品。我们专注于解决对用户体验至关重要的核心问题。我们专注于语音的自然度和人性化，而非单纯的技术指标。我们牺牲了部分推理能力，换取了更自然流畅的交互体验。我们专注于将优秀技术与创意结合，创造出色的用户体验，而非追求技术前沿。AI领域需要更多关注产品体验和创意，让AI技术惠及更多人。AI技术应该与创意和叙事相结合，创造出更易于大众使用的产品。研究实验室往往缺乏对产品体验和创意的重视。当前AI技术仍处于发展阶段，要创造出色的产品体验需要付出大量努力。创造出色的AI产品体验需要投入、技术和资源。随着AI技术的普及，将会有更多公司专注于产品体验。我们团队的成功源于对产品体验的重视和对核心问题的聚焦。我们团队成员既是优秀的研发人员，也重视最终用户体验。我们专注于那些能提升用户体验的核心问题。在快速发展的AI领域，选择合适的问题进行研究至关重要。在快速发展的AI领域，选择合适的研发方向至关重要，要避免重复劳动。我们选择研发那些对产品体验至关重要且具有社会价值的问题。我们选择研发那些对产品体验至关重要且可实现的问题。我们专注于研发那些无法依赖开源或其他资源解决的核心问题，例如个性化和语音生成。开源语言模型的发展速度很快，需要不断调整对开源资源的依赖程度。开源语音技术的发展速度落后于语言模型。我们开源模型是为了促进研究，而非商业目的。我们认为未来的语音生成需要更多的上下文信息。我们开源部分模型是为了回馈研究社区。我们在开源和商业利益之间取得平衡。我们只开源了语音生成模型，而非整个演示系统。我们开源的语音生成模型不包含演示系统中的其他组件，例如LLM和系统优化部分。我们开源的语音生成模型可以作为构建个性化语音系统的基础。用户可以使用我们开源的模型构建自己的个性化语音系统。用户可以微调我们开源的模型，使其生成自己想要的语音。我们开源的语音生成模型可以生成任何语音，用户可以根据自己的需求进行微调。我们的模型使用上下文学习进行语音克隆。我们的模型使用上下文学习进行语音克隆，这是一种涌现能力。我们的模型支持少样本语音克隆。用户可以根据自己的需求微调或使用我们开源的模型。我们希望用户能够使用我们开源的模型创造出各种有趣的应用。我们的模型支持多参与者对话的语音生成。我们希望用户能够使用我们开源的模型创造出各种有趣的应用。上下文语音与文本到语音是不同的。上下文语音与文本到语音是不同的，因为语音表达方式多种多样，需要上下文信息来选择合适的表达方式。上下文语音需要考虑对话中的情感和语气等因素。自然的人际互动需要考虑对话中的情感和语气等因素。缺乏上下文信息会导致语音生成结果过于平淡。缺乏上下文信息会导致语音生成结果过于平淡。传统的文本到语音技术由于缺乏上下文信息，导致语音生成结果过于平淡。当前的语音生成模型所使用的上下文信息仍然有限。未来的语音生成模型需要考虑更多类型的上下文信息，例如用户历史和环境信息。基于音频的语音交互体验仍然具有很大的价值。未來的语音生成模型需要考虑更多类型的上下文信息，例如用户历史和环境信息。我们正在开发基于眼镜的语音助手，以提供更自然的用户体验。基于眼镜的语音助手可以提供更自然的用户体验。眼镜是与语音助手交互的最佳设备之一。语音助手仍然需要进一步发展才能成为主要的计算接口。 Anjney Midha:

Deep Dive

Chapters

This chapter explores the creation of Sesame AI's conversational AI models, focusing on the prioritization of naturalness and human-like imperfections in voice generation. It discusses the challenges of balancing personality and efficiency, the importance of qualitative user feedback, and the team's approach using a small team focused on the user experience.

Prioritizes naturalness and human-like imperfections in voice generation over raw technical capabilities.
Small team (under 15 people) focused on creating a great user experience.
Uses a constant feedback loop of testing and user feedback to improve the models.
Focuses on creating a great user experience rather than just raw technical capabilities.

Shownotes Transcript

In this episode of AI + a16z, Sesame) Cofounder and CTO Ankit Kumar joins a16z general partner Anjney Midha for a deep dive into the research and engineering behind their voice technology. They discuss the technical challenges of real-time speech generation, the trade-offs in balancing personality with efficiency, and why the team is open-sourcing key components of their model. Ankit breaks down the complexities of multimodal AI, full-duplex conversation modeling, and the computational optimizations that enable low-latency interactions.

They also explore the evolution of natural language as a user interface and its potential to redefine human-computer interaction.Plus, we take audience questions on everything from scaling laws in speech synthesis to the role of in-context learning in making AI voices more expressive.

**Key Takeaways:**How Sesame AI achieves natural voice interactions through real-time speech generation.

The impact of open-sourcing their speech model and what it means for AI research.
The role of full-duplex modeling in improving AI responsiveness.
How computational efficiency and system latency shape AI conversation quality.
The growing role of natural language as a user interface in AI-driven experiences.

For anyone interested in AI and voice technology, this episode offers an in-depth look at the latest advancements pushing the boundaries of human-computer interaction.

Learn more:

The Maya + Miles demo)

Crossing the uncanny valley of conversational voice)

Sesame CSM 1B model)

Follow everybody on X:

Ankit Kumar)

Anjney Midha)

Check out everything a16z is doing with artificial intelligence here), including articles, projects, and more podcasts.

Building the Next Generation of Conversational AI 01:41:37 Share

AI + a16z

Deep Dive

Shownotes Transcript

Building the Next Generation of Conversational AI