We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Full-duplex, real-time dialogue with Kyutai

2024/12/4

Practical AI: Machine Learning, Data Science, LLM

AI Deep Dive AI Chapters Transcript

People

Alexandre Défossez

Topics

Alexandre Défossez介绍了Kyutai实验室的背景、使命和研究方向，强调了其作为非营利性组织的独立性和在开源研究方面的贡献。他详细阐述了其最新研发的Moshi语音模型的特点，包括全双工实时对话、低延迟等，并比较了与其他商业实验室的差异。他还探讨了法国人工智能生态系统的现状和发展趋势，以及Kyutai在其中扮演的角色。此外，他还分享了关于开放科学的理念，以及如何通过开放科学促进人工智能领域的民主化。 Chris Benson和Daniel Whitenack作为主持人，引导Alexandre Défossez深入探讨了Moshi模型的技术细节、数据处理方法、模型规模选择以及未来研究方向等问题。他们还就法国人工智能生态系统、开放科学的意义以及大型语言模型与小型模型的比较等话题进行了深入的交流。

Deep Dive

Chapters

Kyutai, a non-profit research lab based in Paris, developed Moshi, a full-duplex, real-time speech-to-speech AI assistant. Moshi allows for fluid, human-like conversations with minimal latency and has potential applications in various fields.

Kyutai is a non-profit, open-source AI research lab funded by three donors.
Moshi is a full-duplex model, meaning it can listen and speak simultaneously.
Moshi has a latency of around 200 milliseconds.
Kyutai prioritizes on-device models, which are harder to protect as intellectual property but offer wider accessibility.
The French ecosystem is conducive to AI research due to a strong emphasis on mathematics, engineering, and PhD residencies in private companies.

Shownotes Transcript

Kyutai是一个开放科学研究实验室，夏季时他们发布了实时语音到语音的AI助手（在市场上领先于OpenAI，推出了他们预告的基于GPT的语音到语音功能）。Kyutai的Alex在这一集中与我们讨论了这个研究实验室、他们最近的Moshi模型，以及实验室可能推出的下一步。过程中我们还讨论了小型模型和法国的AI生态系统。加入讨论Changelog++会员在这一集中节省了10分钟，因为他们让广告消失。今天就加入吧！赞助商：Fly.io – Changelog.com的家 — 将您的应用程序部署到离用户更近的地方 — 全球Anycast负载均衡、零配置私有网络、硬件隔离和即时WireGuard VPN连接。按按钮部署，能够扩展到数千个实例。查看快速入门，几分钟内开始使用。

Kyutai Kyutai在GitHub上 Kyutai在Hugging Face上

<raw_text>0 欢迎来到实用AI，这是一个让人工智能变得实用、高效和可接触的播客。喜欢这个节目的你一定会爱上p tec访谈、周五的日子和精彩的脱口秀，或者你的周末娱乐。通过搜索变更日志找到我们，无论你在哪里收听广播，感谢我们的合作伙伴fly out I O，在五分钟或更短的时间内启动你的AI应用。了解如何做到这一点。

I O是我们的朋友。我是curt magi，fly的联合创始人兼首席执行官。正如你所知，我们热爱fly。

那是变更日志的家。爱那个com。所以我想知道你如何向开发者解释飞行。你先给他们讲个故事。

你是如何做到IT I来改变的？你是如何根据我所谈论的几乎是开发者的世代来解释IT的。所以对我来说，我在heroica上构建和发布APP，这大致上就像今天在versie上构建和发布APP。

这只是2024年，而不是2000年，随便说说。而让我感到压力的是，我没有。我被卡住了。

你可以用post grass构建和发布rails APP，以同样的方式进行争论。Ly，你可以在你的sel上构建和发布下一个japp。但是一旦你想做一些有趣的事情，比如一旦你想要。

当时，我认为我遇到的一件事是我想添加，曾经是elastics的基础，我想在我的应用程序中进行全文搜索。你有点碰到了一个墙，某种程度上，我可以。好吧，你真的不能做到这一点。

我认为最近我们看到IT与我的人们想要添加所有这些实例，东西，放到他们的车站上，地下室，heroic e或club flare，无论是谁。这些天他们开始发布抽象，让你做到这一点。但是我不能只运行模型。

我在这些非常专业的黑箱平台上本地运行，这些平台非常专业于人们。我的边缘，总是像herku一样很棒，但我同意IT。而我觉得我应该真正做的事情是使用hook，像是在东京为在东京的用户运行我的应用，而这在现代世代中从未可能。

Debs，它更多的是基于versie。它很像签证。L在他们的硬盲边界之一上非常出色。而在你被卡住的那种情况下，我们公司里有一个人，我可以给这个游戏起个名字，但标语就像五分钟开始永远是大师。这种小时推销fly就像你可以在五分钟内启动一个应用，但平台的深度如此之多，你永远不会用完。

你可以与他们做的事情。因此，与一个或oku或vessel不同，所有这些都是很棒的平台，我们在变更日志中最喜欢fly的酷事是，无论我们想在平台上做什么，我们都有原语，我们有能力。作为开发者，我们可以在fly上推动自己的使命。

IT是一个无lamas平台。But开发者，我们认为你应该尝试IT，去fly the IoT。Lr，更容易在五分钟内启动rap。再次强调，fly the I O。

欢迎来到实用AI播客的另一集。这是Daniel light。Nac，我是预测守卫的首席执行官，始终与我的khost chis Benson一起，他是一名首席AI研究工程师。

locky Martin，你好吗Chris？我很好。

一切都很好。嗯，我想我们在上一个节目中谈到过这个，但现在我们正式面临感恩节假期。所以在美国这里有几天的假期，这将会很好。也许我可以在空闲时间赶上我一直想玩的那些酷AI东西。但其中一个确实在我们这里流行的酷AI东西是最近在实时语音助手方面的进展，特别是你知道OpenAI在做什么，但同时也在法国的一个实验室叫cuti发布的东西，今天我真的很兴奋，因为我们终于有机会与h alexon进行交流，如果你说他是q te的科学家和联合创始人。

欢迎Alex。谢谢你，感谢你Chris的邀请。期待讨论。

关于机器的细节，是的，是的，我对IT感到兴奋。也许在我们这样做之前，如果你能给我们一点关于cutie的背景，如何形成的。

是的，呃，cute是一个非营利实验室，呃，我们在一年前在巴黎启动。我们得到了三个捐助者的资助。所以xavier，一个持有者星期天和选举见面electra t可能是最成功的一个呃，但a然后持有者的侧面，他们在物流方面工作，所以他们聚在一起试图资助这个努力，建立一个独立的实验室，使命是进行开源研究。

呃，在开放源代码可能在一些主要实验室之间的竞争中有点受挫的时期。呃，所以我认为这是每个人的一个重要动机。基本上，我们有足够的能力与大型实验室竞争。我们不能真的去与每个更好的实验室竞争。但正如我们通过运动所展示的那样，我们绝对可以带来有趣的想法和呃创新呃到桌面上。

是的，我发现，也许对于在美国的那些人来说，M.A.生态系统。我们确实看到很多创新和有趣的事情发生在呃法国和巴黎。因为我在想，仅仅出于好奇，那里的生态系统是什么样的，你会如何，我的意思是，你似乎是从中形成的。那么，呃，那种情况是如何塑造你的，那里生态系统是什么样的？

我认为生态系统从与朋友的研究开始，呃，像是有一个非常强大的工程文化，呃，也有非常强烈的数学重视，我认为这就像是提供了一个良好的土壤，最初吸引了许多大型美国参与者，呃，比如，呃，facebook开放。

所以我认为当时facebook A I在巴黎的实验室可能是第二大，呃，仅次于加州的实验室，关于泰国与纽约。呃，所以我认为这就说明了，哦，这座城市的吸引力是多么强大，呃，因为与美国的吸引力相比，这并不是那么容易竞争。所以现在我认为最近的变化确实是这种独立性，呃，从这种初始的设置中成长。

我认为多年来，没有许多真正的法国组织，你可以获得足够数量的GPU，比如大型集群，以便开发机器学习，母亲，跟随应用程序的数量，尤其是在大型语言模型方面。但确实有许多事件导致了法国生态系统的多样化。是的。

所以现在我想有许多大型初创公司。像cuti，还有其他的，我认为这只会增长。此外，法国还有一个特性，我认为这对深度学习来说非常好。

而且我们可以在呃，私营公司中作为居民进行A P H D。所以例如，甚至像一个非营利组织。所以我qi我们将有PHD学生在facebook工作，我部分是在那里完成我的P H D。

呃，还有许多P H D学生。我认为这是一个很好的机会，让我们在职业生涯的早期就能使用呃，图形卡。呃，我认为这对朋友来说是非常具体的。这也是我们目前看到的成功的一部分。我认为随着我们以这样的方式培训越来越多的人，这只会增长。

我很好奇，因为你知道我们正在描述法国的生态系统以及它的强大。是什么具体的动态促使你周围的所有这些四个利润组织产生了非营利的愿望？你是如何发现自己处于其中的，因为你处于阶段的格式中。

我认为对我来说，那是成长的意愿，想要变得更加独立。我认为即使在meta，例如，虽然在巴黎办公室投入了很多价值，但同时，美国公司总是会在其中心做出决策，呃，所以那将是加利福尼亚，卫星办公室总是必须承担这些后果，无论他们对实验室的整体价值做出什么贡献。

所以这就是最初的愿望，想要在决策、领导研究的能力上变得更加独立。我得到了这个机会。所以我被，呃，联系了，呃，不，我是在facebook与我一起做这个P H D的。

然后我在google呃，那里做了非常成功的研究。呃，所以美国。部分是第一个被联系的，我认为是xian年，我认为这个项目呃最初非常吸引人，因为这就像，你知道，和往常一样的生意。

所以做研究，我最喜欢的事情，拥有足够的资源在呃，完全独立和法国环境中进行IT。所以这当然是非常重要的。我没有花太长时间。我想即使一开始IT看起来有点太好以至于不真实，呃，但到目前为止，一切都很好。

嗯，是的，你tiii有点推动开放科学的理念，呃，你知道通过开放科学实现人工智能的民主化。我们的听众中有些人可能熟悉开放源代码、开放源AI或甚至开放获取模型。你如何定义和思考开放科学作为一件事情，特别是它如何与你设想的AI或AGI的构建方式相连接？

是的。所以，呃，我认为这两者是相当相关的。通常，开放科学确实围绕着解释你是如何得出最终结果的，以及你犯了什么错误，呃，你尝试了什么，什么是重要的，什么不是，所以我会说这是我们一直在做的第一部分，呃，真的很好，随着呕吐的发布，像是一个预印本，呃，技术报告，包含了很多细节，实际上花了我们呃，一些时间。

而且这并不是必然的，我认为如果我们没有这种非营利的心态，我们不会投入那么多时间。但我认为从长远来看，这种做法是重要的。然后还有几个方面。开放源代码可以从仅仅是权重到像完整的训练管道。因此，发布更多关于触摸模型训练的CD也是我们的路线图之一。我们还没有机会做到这一点，因为那篇论文已经花了一些时间，我们还有其他事情在进行，但我认为其中也有一部分，像是准确解释你是如何得出最终结果的，而不仅仅是拥有一组特定的权重，但如果你需要适应其他东西，就会被卡住。这就是我认为开放科学的愿景。

你能谈谈呃，你能够用那个模型做什么，呃，也许在同一生态系统中你拥有的商业实验室能够做到的事情吗？也许还有呃，世界各地的非营利组织是否更标准，做类似的事情？或者你们是否有一些非常独特的东西，与其他的非营利组织相比，或者也许是他们的模型？

是的，这是个好问题。所以我并不是唯一熟悉所有非营利组织的人，在这个生态系统中，alan和一些机构。它们中的一个我认为是非常呃，因为还有最终团队。

J I 是的，我认为我们正在服务于类似的使命。我认为并不一定有很大的区别。其中一些可能更多地围绕对科学的贡献，例如，像一般科学或核心深度学习。

我认为对我们来说，我们主要专注于汽车去平面化。我们不一定想在纯粹的基于，呃，空间上竞争。在我们所做的研究选择上存在差异。但从根本上说，我认为并没有很大的区别。然后你另一个问题是关于其他四个利润。

你觉得是什么，真的在你的甜蜜点上，换句话说？与这些竞争者相比，很容易说，认识到世界上一些最大的公司拥有的所有资源，并将其投入到他们的实验室中，但绝对有其他人的空间。我认为公众对此有很大的需求。因此，考虑到你所处的空间，呃，是什么让你与这些商业公司区分开来，可能是你们拥有的G，P，S的数量。有哪些独特的东西。

与一些利润相比？如果我们拿最大的lbs，呃，你会说我想我们就像那样，在一个超级大型公司中，这并不是真的可能，每个行动都会在股市中产生影响。例如。因此，决策过程可以非常快速。

Kyutai是一个开放科学研究实验室，在夏季发布了他们的实时语音到语音AI助手时引起了轰动（在市场上领先于OpenAI，推出了他们所宣传的基于GPT的语音到语音功能）。Kyutai的Alex在这一集中与我们讨论了这个研究实验室、他们最近的Moshi模型，以及实验室可能会推出的下一步。沿途我们讨论了小型模型和法国的AI生态系统。加入讨论Changelog++会员在这一集中节省了10分钟，因为他们让广告消失。今天就加入吧！赞助商：Fly.io – Changelog.com的家 — 将您的应用程序部署在离用户更近的地方 — 全球Anycast负载均衡、零配置私有网络、硬件隔离和即时WireGuard VPN连接。按按钮部署，能够扩展到数千个实例。查看速度运行，几分钟内开始使用。

Kyutai Kyutai在GitHub上 Kyutai在Hugging Face上

<raw_text>0 例如，模型的发布就是如此，他们能够以商业友好的许可证发布，这在更大的结构中会有些困难。我认为我们有一个强烈的愿望，例如，我们希望越来越多地朝向设备上的模型，我认为更多的是她几乎在设备上。我们在MacBook Pro上进行了降级，但IT就像是顶级的MacBook，所以这有点像是在设备上运行的概念验证，而不是每个设备。

但我认为我们在这里绝对有价值，因为盈利的数量不会去开发真正强大的设备模型，因为那将对他们构成潜在威胁，像在知识产权方面更难以保护。我认为一般来说，在更大的参与者之间，这种竞争是为了达到最顶尖、最好的数字，不像基准mml和其他一切。因此，你知道，如果IT需要十倍的推理时间来击败基准上的oser。

他们会去做IT，因为要么是在基准上击败所有者，要么是有点离开RNO。所以我们并不真的处于这种心态。我们更像是设备上的，我认为可以有非常多的应用。IT绝对不能解决所有问题。但我认为作为一个非营利组织，我们不会像盈利组织那样对设备问题有保留。

好的，朋友们，我和我的一个好朋友在一起。来自Timescale。他们正在为从IoT传感器、AI开发工具到企业金融应用等一切进行定位。因此，理解时间Postgres是AI应用程序的数据库。

根据Stack Overflow的开发者调查，它是最受欢迎的数据库之一。而其一个显著特征是可扩展性。您可以将其扩展到超出仅仅关系和事务数据的用例，例如时间序列和分析，这与公司最初的成立有关，现在更是最近的Victor搜索和向量存储，这对像rag推荐系统甚至AI代理这样的应用程序非常重要，我们看到这些事情越来越多。

今天，进展非常强大，深受开发者喜爱。我觉得更多的开发者因为他们知道我可以使更多的开发者成为AI开发者、工程师并构建。

从外部来看，我们认为Postgres确实是一个不二之选。您不必管理不同的数据库。

您不必处理数据同步、隔离和数据隔离，因为您有三种不同的系统和三种不同的真实来源。我们所做的一个领域是围绕性能和可扩展性。因此，我们放置了一个名为P的扩展。

G回到规模，增强了您的Postgres的性能和可扩展性，您可以自信地将其用于大规模AI应用程序，如rag等。然后，另一个领域是回到您所说的，使更多的开发者能够跳入构建AI应用程序并成为AI工程师，利用他们已经拥有的专业知识。因此，这就是我们投票的PG、AI扩展，它为Postgres带来了警报，以便启用诸如在您的测试中进行推理以及嵌入创建等功能。出于所有这些原因，我认为，当您构建一个AI应用程序时，您不必使用新的东西。您可以直接使用Postgres。

了解Timescale如何使Postgres强大，超过三百万次。强大的数据库能力，IOT传感器、AI开发工具、企业金融应用。

他们在Postgres上完成所有工作，Timescale使用Postgres一切。您可以在timescale.com了解更多。再次强调，timescale.com。

所以Alex，你提到过Moshi几次。也许如果你能给那些没有听说过这个的人一个概念，首先，Moshi是什么，然后也许如果你能在那之后退一步，描述一下，实验室是如何开始考虑这种模型或这种研究方向的？

是的。所以Moshi是一个基于语音的基础模型，它还将文本作为一种模态集成，因此它特别为语音到语音对话构建，尤其是实时对话。因此，我们非常重视模型能够以尽可能流畅的方式进行操作，就像与人类的真实对话一样。

因此，它的一个特征是它是完全全双工的，意味着中间可以随时听和说。因此，它不是基于轮流的，就像Walker火鸡，我认为这是我们沟通时的重要特征。因此，我们希望模型能够做到同样的事情。正如我提到的，这也使我们能够有非常小的延迟。

因此，我们大约有两亿的延迟，即音频离开您的麦克风和您收到回复之间的时间，这已经考虑到了自动化。是的，我认为此时它有点像我们主要将其设计为一个语音代理，您可以讨论、提问、寻求建议，这可能会作为许多Moshi用例的基础。这就是为什么我们也将其称为一种基础和框架，用于许多需要反应您语音的任务，而不仅仅是作为一种助手。然后，问题的第二部分是我们是如何开始研究这个的？所以我们在最初的团队中有两个人。

所以现在，我做了大部分关于您提到的模型的研究，然后IG Love一直在最初的Lama H团队中，第一代Lama Atta。因此，我们有了合适的工具。所以我想第一个原因基本上是我们一起站在一起，想，嗯，我们能做什么，我们在竞争中有什么优势。

我认为在结合技术和顶级音频模型技术的这一方面，我们相较于其他实验室确实有真正的优势。因此，这一点很重要。此外，还有一种感觉，即语音正在成为一种重要的模态。

而我在其他许多模态中所做的仍然完全缺乏。因此，我在11月的时候，OpenAI还没有做任何公告。因此，这仍然是一个相对较新的领域，一个新的领域可以覆盖。因此，我们立即开始了这项工作。

我们实际上开始了，所以在外星人和部分我们在mini上工作，我们使用的收集是通过拥有一个非常高度压缩的表示，12到5个心脏，以尽可能接近文本，当然，它与音频的关系并不规则。是的。然后一旦我们对我感到满意，我们立即转向了老母亲的语音，我们如何结束作为一个全双工？我们如何指示模型像许多具有挑战性的问题那样出现？那是一个首次公开演示的第一次演示，在七月。

太好了。再问一个背景问题，对于那些人。有些人可能见过，我想，非实时代理。因此，代理将接收音频转录，您可能会使用模型转录，然后使用语言模型生成任何答案，然后使用第三个模型生成语音。因此，这是一种处理此管道的方式。您在这里谈论的是不同的东西，特别是对于这些语音到语音模型或您所谈论的多路复用模型。

您能否提供一点背景，比如人们研究这种模型已经有多长时间，是否真的只有在最近的时间才能使这种实时语音成为现实，因为我认为有些人，但您知道，至少在公众方面，他们可能在过去见过像Alexa这样的东西，对吧，以某种方式处理语音。但是这种演示，至少他们看到的来自OpenAI的演示，他们看到的来自Kyutai的演示，这是不同类型的交互。那么，这种情况已经持续了多久？这种研究的历史是什么？我知道这是一个困难的问题，因为可能已经做了数百万件事情。但从整体的角度来看，您会如何看待它？

所以我只是想放在一个角度上。因此，我并不完全熟悉我们的Alex。我工作的内容，但IT更像是，我的意思是，任何类似于GPT模型的东西都将是基于规则或基于自动识别的，这实际上是一个相当奇怪的领域，甚至实时语音识别已经成功了一段时间。

呃，不一定是我们看到的深度学习的成功程度。我是说，早在之前就已经使用了一些深度学习，但那时它更像是基于规则。因此，如果您没有以正确的方式公式化请求，它很快就会说我不知道，或者只是进行一次良好的搜索。

然后，带来这一范式变化的是所有的GPT模型，尤其是ChatGPT，或者说它能够完美理解人类请求，无论如何公式化。然后将其带入音频领域，您需要的是一种语言模型的能力，比如变换器，来处理音频流。呃，我认为这对GPT模型来说是非常简单的。

您有文本标记输入，您有文本标记输出。您预测下一个标记。然后您只需要一些特殊字符来区分请求和回复。

您希望能够以类似的方式处理音频，但，呃，音频的事情并没有那么简单。音频在信息密度方面并不高。您可以将单词视为从信息理论的角度来看，传递信息的最佳方式。

而音频则是由麦克风录制的。它只是一个波形，可能每秒四万次。如果您用肉眼观察它，它将毫无意义。

因此，您需要正确的表示，以便能够将其输入到变换器中，让模型理解并能够生成输出。这一直是一个相当具有挑战性的任务，就像我们谈论音频一样，最初的几个成功，例如WaveNet和在此之上，WaveNet。OpenAI有两本书，我认为这是第一个。

就像，让我们使用变换器语言模型来尝试建模音频。但我认为我从他们的论文中记录到，处理一分钟的音频需要在当时的顶级HGP上花费八个塔。因此，如果您看到技术已经取得了很大进展，我认为其中一些进展尤其是由一个人完成的，例如，另一个联合日。

我与，呃，声音流特别相关，提供这种相对较低采样率、低帧率的离散表示。然后，已经非常迅速，Nail和他的团队展示了这可以输入到变换器中，当时他们使用了一种技术，您仍然需要进行许多更多的步骤，例如，对于一秒钟的音频，您可能需要进行几百个自回归步骤，这非常昂贵。呃，一秒钟的变换器的等效信息可能是三到四个自回归步骤，这自然限制了您的上下文和您可以生成的序列的长度，并完全排除了实时方面？

然后，当我在Meta时，我也在类似的主题上工作，呃，特别是试图不进行自回归步骤，而是尝试预测一些信息并组织在一起，您将需要在不同方面之间保持最小的依赖关系，您需要预测的内容，可能我猜这在口头上很难说，但基本上就像对于每个时间步骤，而不是仅仅一个标记，就像您在文本中，现在您可能有四个、八个或十六个标记，是的，您需要理解这一点。您不能仅仅将所有内容展平，因为那在性能方面是行不通的。然后，有很多工作，我认为当我们使用RQT变换器时，处理这些标记之间的依赖关系，对于给定的时间步骤，使用较小的形式，我想这是一个相当重要的算法贡献，我正在努力找出是谁做的，但我不知道。

在我眼前。但是的。所以我们在这方面建立了，所以在这方面的专业知识、我现在所做的工作、我所做的工作以及这种争论的女性论文，这就是解决能够运行大型语言模型的方面。

所以假设，七十亿参数，像是接受音频输入并进行处理，然后输出音频，足够快以实现实时处理。是的，然后作者的方面，我想我们带来了很多创新的地方是全双工的方面，拥有多个使用流。因此，一个将为用户流，一个将为Moshi流？我认为这并不是您自然会用文本做的事情，因为您已经有一个流。

Kyutai是一个开放科学研究实验室，在夏季发布了他们的实时语音到语音AI助手时引起了轰动（在市场上领先于OpenAI，推出了他们预告的基于GPT的语音到语音功能）。Kyutai的Alex在这一集中与我们讨论了这个研究实验室、他们最近的Moshi模型，以及实验室可能会推出的下一步。沿途我们讨论了小模型和法国的AI生态系统。加入讨论Changelog++会员在这一集中节省了10分钟，因为他们让广告消失。今天就加入吧！赞助商：Fly.io – Changelog.com的家 — 将您的应用程序部署到离用户更近的地方 — 全球Anycast负载均衡、零配置私有网络、硬件隔离和即时WireGuard VPN连接。按按钮部署，能够扩展到数千个实例。查看速度运行，几分钟内开始使用。

Kyutai Kyutai在GitHub上 Kyutai在Hugging Face上

<raw_text>0 所以去两个流，你知道这有点像assad。但如果你考虑音频，它就像所有那些已经形成的docker，最多可以有十六个流，它们已经被ender。所以我们只是想，好吧，我只是多样化流的数量，然后知道我们有两个流，它们显然是分开的，我们实际上确实训练了母体，例如在自由训练期间，也生成了一些用户的回复。

即使我在训练的那个阶段，也没有真正的参与者在对话中取样。然后显然随着模型的发布，没有IT只试图谋杀自己的流，但确实是这样的，这就是可以让人们进入的粗略工作线，当然，在自动调节方面，还有许多其他我没有特别提到的技术，扩散是非常流行的。所以，有许多母体正在进行音乐生成的扩散，例如，TTS，许多事情。你会看到这不兼容，或者像那样？如何与实时方面兼容，这种更自然和主导的派对真的很迷人。

在理解方面非常吸引人。我绝对学到了很多，当你描述IT时，我不认为我听过如此出色的，你知道的，不仅仅是推广，而是如何到达那里，我在脑海中想的是，像是我能想象的，你在谈论这么多酷的事情与这项技术，已经看到的一些酷的事情，你们具体尝试过的，可能以前不可能，或者人们可能只能在某种程度上通过像ChatGPT四这样的东西，或者通过API那样。

但你知道，这是开源的。这是开放科学。他们有更多的能力。外面一定有一些非常棒的东西。

我的意思是，我们做了一些事情，真的非常有趣。例如，仅仅是在90年代和2000年代初期的旧数据集上进行训练，像是有趣的课程，然后IT不再是真正的助手，这就像你最终在电话上与某个随机的人交谈，他们会告诉你他们的名字，他们会告诉你他们对当时美国政治的看法。这真的有点不同，我们试图保持最终的运动。

但显然随着指令调优的出现，我们失去了很多，我的意思是它仍然迅速回归到有用的AI助手个性，可能没有那么好，但有一件有趣的事情，基本上我们可以在任何事情上训练IT，然后这将表现得像某种演员，假装成为某个特定的人，以非常真实的方式，因为我们正在探索许多事情，任何像是语音到语音或文本到语音或vasa的东西，我们在论文中提到了一些。哦，我们只是这个框架，因为我们也有一个文本流，基本上我们只用它来让模型能够输出自己的话。我们实际上并不代表用户的世界，但模型输出自己的话。

通过在音频上使文本延迟或提前，我们可以将模型从文本到语音引擎转变，因为如果文本早于音频，它只会跟随IT。但如果文本延迟，你强迫音频到某个值，并且你只对文本进行采样，那么这现在就变成了自动语音识别。所以我认为这显示了这种多流方法的多功能性，以及所有这些应用程序确实是流式的。

所以我们实际上做了一些事情，我们为合成数据做的就是你认为这种方法生成长脚本，你可以想象生成大约十五分钟的东西，或者我们正在独立工作。至于更广泛的社区，我不太了解任何特别的事情。

我认为我们想做的一件事是，真正允许找到调优，可能与Laura一起，并且也让IT变得相当简单。显然，管道有点复杂，因为你需要音频，你需要转录，你需要在你想训练的代理和用户之间进行分离。所以我们希望在这方面提供帮助，并尝试使IT更容易适应新的用例。

所有朋友，我在这里和我的一个朋友，Michael ginni，Work.OS的联合创始人兼首席执行官。我们在这里是Work的忠实粉丝。

Michael，告诉我关于off kit的事情。这是什么，如何使IT？Workus一直在。

自一开始就一直在构建身份验证的东西，但我们最初专注于单点登录SAML的解释。但一年后，我们听到更多人希望涵盖所有的身份验证内容。两因素密码身份验证，阻止被重复使用的密码。

他们希望与其他第三方系统进行身份验证，他们希望Workus处理所有与时间相关的业务逻辑，身份、用户的配置，甚至更高级的，如角色访问控制权限。所以我们开始更多地讨论我们如何可以将其作为API提供。然后我们意识到我们与Radix有着惊人的经验，这个API实际上是构建前端体验的组件系统，Radix每月下载数千万次，正是为了做到这一点。

所以我们将这两件事结合在一起，构建了off kit。因此，off kit是将身份验证添加到任何应用程序的更简单方法，不仅仅是下一个监狱，如果你正在构建Rails应用程序或Geno应用程序，或者只是简单的Express应用程序，它带有一个托管的登录框，因此你可以自定义它。你可以为其设计样式。

你可以构建自己的登录体验，非常灵活。你可以以一种无缝的方式使用后端应用程序。但开箱即用，它为你提供了构建服务客户所需的一切，并且它与Work平台紧密集成，因此你可以非常快速地添加任何你需要的身份验证功能。

因此，我们有很多公司开始使用它，因为他们预期他们将会在市场上增长，并希望服务企业，而他们不想在这样做时重新架构整个堆栈。所以这是一种让你的OSS系统为未来增长做好准备的方法。我们有一些人已经这样做了，他们开始时只是试水，做这个，证明他们的维护，吸引力开始增长，太棒了，他们接近Coinbase或Disney或United Airlines，甚至像一个主要客户。而不是说，哦，不，抱歉，我们没有任何企业业务的东西，我们将重建一切，只需进入工作场所，快速工作。

勾选一个框，你就完成了，除了off kit本身就是太棒了。真正令人惊叹的是，它对最多一百万用户是免费的。是的，包含在这些其他门槛中的一百万月活跃用户。

所以从第一天开始使用它。当你需要扩展到企业时，你已经准备好了，轻松了解更多信息，访问offcat.com，或者当然，workOS.com。大粉丝们查看它，女性用户免费，wowworks.com或offkit.com。

所以，Alex，你稍微提到了这个数据方面，也有希望的未来微调机会。但我想知道你是否可以更详细地谈谈，特别是因为你能够谈论这种事情，而有时我们无法谈论，考虑到我们在播客上讨论的模型的性质。你必须整理的具体训练的数据情况是什么？微调数据集是你为公开发布的模型整理和策划的。

作为模型构建者，显然我们必须整理一种像是音频和索引的再训练。最初，我们必须将我所说的文本整理在一起，因为它们在当时并不一定是可用的替代品，我们也希望能够继续在文本和音频上进行训练，以免在获取来自文本的知识时造成某种交通。

我们意识到的一件事是，基本上拥有非常广泛的人类知识覆盖面要容易得多。我们用文本然后用音频。然后还有许多其他困难。在最后阶段的训练中，当音频明显分离说话者时，我们也需要某种指令数据集。

因此，对于分离，我们从Fisher数据集中获取了东西，我之前提到的有趣的电话，这为我们提供了一个足够好的基础，以便能够训练TTS模型，具有分离的说话者，同时结合一些录音。秘书，正如我所说，像是在大型组织中做出更快的决策，在某个时候我们想，好的，我们需要非常好的工作室质量的录音，确保人们在不同的麦克风中。

所以我们与伦敦的一些工作室取得了联系。第二天我们就在欧洲之星上。就像录制几个我认为真的很有趣的人，能够从仅仅启动工作和处理数字中得到一个休息，知道然后是的，利用这些加上官方数据集，然后我们可以训练ATT模型，我们可以跟随特定的情感，并且有两个分开的流作为输出，至今为止两个说话者，然后我们用它来承受实例数据集。

最初，我们尝试将现有的指令数据集转换为文本，但我们很快意识到，一些专门为油而调优的脚本会给出更好的研究结果。原因之一是，如果你查看一些现有的指令数据集，它们对我们的第一个非常好。我们将使用文本母体。

所以也许像一些人基于markdown tor复制，他们要求对此进行评论，有许多条目是专门为基准步骤的问题而做的。所以这将是多项选择题，模型只是回答，但这不是你真正要做的。你不会给出多项选择，模型只是回答，我们需要更多的军事转向，也就是更短的回复。

你不希望模型为回复说出整段话。因此，考虑到这一点，我们必须重建一切，以便IT会做很多关于这一点的事情。所以其中一些是像ping现有的爱尔兰，想，好的，我们可以做的任务有一百个与语音助手相关的任务？然后对于每个任务，给我一百个快速场景。

然后我们是noser模型，我们发现专门针对口头风格的照片。因此，较短的答案，可能是短暂的转变，我们会随机抽样主题并围绕它们进行讨论。所以我们试图涵盖不同的方面，然后我们综合了一切。

所以最后，数据集相当大，我认为有几万小时。并且这足够让我们达到演示的状态。嗯，尽管有点酷，我们能够从像这样的一两千小时的录音中获得良好的结果，来自2000年代初的录音，以及我们在工作室录制的几百小时。

我们注意到的一件事是，仍然存在我们所称的模型差距。因此，起初我们从开始的文本模型和实际训练模型之间仍然存在知识差距，我们仍然可以在文本上训练IT。我们总是可以将其切换到文本模式，并用纯文本提出问题，模型会在交易acua上获得更好的回复，而不是通过音频获得的回复，我认为这是一个非常迷人的问题，所有这些都使模型理解它在同一时间是同一件事。你很容易想到这是两种不同的模态，尤其是在音频上进行自由训练时，IT会获得随机音频，而不一定专注于始终给出正确的答案。我们可以通过指令恢复一些，但我认为仍然需要做一些工作，以便像文本模型一样高效采样，真正变得超级有用和真实。

好奇的是，你可能提到过你提到的七十亿参数，但那是。

模型的大小是十亿s模型吗？比利，至于它的空气q变压器架构。实际上，我找回了自动，所以请你，呃，以及合作者，呃，首先警察，这个模式是主要的骨干变换e和小型坦克农业，试图预测不同的活动token s，呃，这个是相对较小的。

我没有确切的大小权重。但在法国的运行时间方面，时间是微不足道的。大多数知识和决策是在七十亿吨的情况下完成的。

你是如何选择这个大小的模型的？此外，作为附录，你对相对较小的模型与相对较大的模型有什么看法？你怎么看待这个问题？

是的，我想当我们开始时，七十亿大概是大型语言模型的最低规模。现在，我想两亿和三亿，呃，甚至降到一亿。特别是随着来自大规模模型的蒸馏技术的进步，我变得非常高效。

它们的效率并不像七十亿的模型那样高效，像你在头脑中所想的那样。但在我们开始的时候，我们就像，好的，我们不知道确切需要多少计算能力，多少容量来进行测试。所以我们不想承担太多风险。

呃，七十亿是一个很好的慈善目录，当时在两者之间有一个相当好的平衡。现在我们知道可以用七十亿来解决任务，呃，显然我们想尝试低于七十亿的规模。这是我们正在探索的事情，因为我们认为，将所有的思维能力和问题解决能力集中在一起将会非常困难，并且可能不是特别有用。

我们希望足够聪明，能够进行直接对话，理解用户的需求，并可能访问用户的来源，以获得更复杂的答案，这也将允许更多的插件式功能。现在你有了一种新的文本语言，你不一定想从头开始重新训练音频部分。因此，我们认为，管理这些直接低延迟交互的方式是朝着更小的模型发展，呃，当你需要时将一些工作委托给更大的模型。现在我们知道七十亿的模型有效，我们会尝试更小的模型，这样我们就可以在更多的设备上运行。

我想你已经开始谈论你希望在未来尝试的与Moshi和这些类型模型相关的额外内容。但也许在我们接近这一集的尾声时，作为这个领域的研究人员，当你展望未来时，你们计划在内部进行的工作或更广泛的事情是什么？你认为在接下来的一年里，作为你工作的一个方面，什么是最令人兴奋的事情？你关注的事情是什么？你期待参与和看到的事情是什么？

好的，在接下来的几个月里。这是个好问题。我认为我目前感兴趣的一个问题是，我们是否会在某一天进入后变压器时代。我喜欢变压器，我喜欢不再需要担心这个问题。

我的意思是，如果你看看训练那些模型所需的参数集，我已经冻结了大约两年，两年半，你知道，架构，这很好，因为现在我们主要专注于制作正确的数据来解决问题，还有很多事情可以做。同时，我认为我会非常期待在优化方面或架构方面可能发生的进展。我们在这一年看到很多有趣的工作。

Full-duplex, real-time dialogue with Kyutai 50:05 Share

Practical AI: Machine Learning, Data Science, LLM

Deep Dive

Shownotes Transcript

Full-duplex, real-time dialogue with Kyutai