We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从语音聊天到机器人策略

2025/5/12

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

小

小爱

Topics

小爱：大家好！我们今天讨论的是一个基于LLM的实时语音聊天机器人，它听起来非常酷，我想了解它的大致工作原理。小T：简单来说，这个名为LLaMA-Omni 2的机器人能够听懂你的话，并以非常自然流畅的语音快速回复，延迟只有0.6秒。它采用模块化语音语言模型，结合了强大的语言理解能力和实时语音生成技术。它使用自回归流式语音合成，就像一个超级流水线，一边生成文字回复，一边将文字转换成语音。这种设计通过门控融合机制，像调音师一样，将语言模型的上下文信息和文字内容完美融合，确保语音听起来连贯且准确。最厉害的是，它采用了一种读写策略，比如读三个文字片段马上生成十个语音片段，同步进行，从而降低延迟。虽然训练这样的模型通常需要海量数据，但这个模型的亮点在于，它仅使用20万个合成的多轮对话数据，就超越了那些需要数百万小时真实语音数据的模型。这得益于其模块化设计，借用了预训练的语言模型和语音电码器，并进行了高效的微调。这个机器人可以用于语音问答和指令跟随任务，例如查询天气，并且在语音暂度准确性和文本一致性方面表现出色。虽然目前还不能根据语气或情绪调整语音风格，但未来的应用场景非常广泛，例如智能客服、虚拟助手和教育领域的语音辅导。它的高效和低延迟特别适合实时交互，未来可能在智能家居和车载系统中得到广泛应用。此外，由于其数据效率高，即使资源有限的小公司也能用它开发出厉害的语音产品。当然，这个模型也存在一些不足，例如依赖预训练组件的质量。

Deep Dive

Shownotes Transcript

大家好欢迎收听太快报我是小爱大家好我是小 T 咱们开始吧第一篇论文是来嘛 Only to LM-based real-time spoken chatbot with auto-regressive streaming speech synthesis 听起来很酷能不能用大白话告诉我们这是在干啥

简单来说,这篇论文打造了一个超级厉害的语音聊天机器人,叫 Lai Maunglao-Naitu。他能听懂你说的话,快速生成自然流畅的语音回复,而且反应快到,只有 0.6 秒的延迟。想象一下,你跟他聊天就像跟朋友打电话一样顺畅,他背后的核心是一个模块化的语音语言模型。

结合了强大的语言理解能力和实时语音生成技术哇 0.6 秒就回复这比我回微信还快它是怎么做到这么快的而且听起来还自然这里有个很聪明的设计叫自回归流逝语音合成你可以把它想象成一个超级流水线一边生成文字回复一边把文字转成语音中间还有个门控融合机制像个调音师把语言模型的上下文信息和文字内容完美混搭

确保语音听起来连贯又准确最厉害的是他用了一种读写策略比如读三个文字片段马上生成十个语音片段同步进行延迟就降下来了听起来像在流水线上面写剧本边配音不过训练这样的模型肯定需要海量数据吧

这正是这篇论文的反直觉亮点他只用了 20 万个合成的多轮对话数据就超过了那些需要几百万小时真实语音数据的模型可以说他用很少的食材做出了五星级大餐这得益于他模块化的设计借用了预训练的语言模型和语音电码器再加上高效的微调那这个机器人能干啥比如我问他明天天气咋样他能回答吗完全可以

他在语音问答和指令跟随任务上表现很强比如你说帮我查明天北京的天气他能直接用语音告诉你答案他的语音暂度准确性和文本一致性都比之前的模型好如果有个小遗憾他目前还不能根据你的语气或情绪调整语音风格比如你生气了他不会故意用更柔和的语气哄你那以后得教他点情商这个技术能用在哪些地方

应用场景可多了比如智能客服虚拟助手甚至是教育领域的语音辅导它的高效和低延迟特别适合实时交互未来可能在智能家居车载系统里大放异彩而且它的数据效率高意味着即使资源有限的小公司也能用它开发出厉害的语音产品真是让人期待不过论文有没有提到什么不足有比如它依赖预训练组件的质量如果这些组件有偏差

接下来是 New New System to Fine Tuning for Robust Integration of New Knowledge

这篇听起来像在教 AI 怎么吃新闻讲讲这是啥意思确实有点像笑话这篇论文解决了一个大问题 AI 模型虽然能通过上下文学习快速理解新信息比如一条新闻但要把这些信息记住并融入自己的知识体系通过微调的方式却很难这就像你读了一篇新闻马上能聊但过几天就忘了论文提出了一种叫系统二微调的方法让 AI 能更牢固地记住新知识

系统二微调听起来像心理学里的系统二思维是慢思考那种对吧

完全正确论文灵感就来自人类认知系统二是那种深思熟虑的思考相比系统一的直觉反应更费脑子他们设计了一个 new news 数据集包含 75 条虚构的新闻涉及数学编程事件等然后让 AI 回答 375 个问题答案的依赖这些新闻关键是他们用了一种自问答策略让 AI 自己生成问题和答案

像在复习笔记一样把新闻刻进模型里自问答有点像我考试前自己出题自测这有啥特别的特别的地方在于它模拟了人类巩固记忆的过程 AI 先读新闻然后自己提问题比如这条新闻对数学界有啥影响再根据新闻回答这个过程让 AI 把知识从临时记忆转为长期记忆结果呢这种方法大大缩小了微调和上下文学期的差距

尤其在数学和编程问题上效果显著有没有什么意外发现论文里有没有那种哇塞的点有他们发现了一个很反直觉的现象叫上下文遮蔽效应本来以为在训练时把新闻直接放在问题前面会帮 AI 学得更好结果恰恰相反

AI 会过于依赖上下文忽略了真正要学的知识点这就像你考试时老看课本忘了自己背这提醒我们设计 AI 训练数据时的小心别让提示反而成了阻碍这也太有趣了那这个研究能用在哪

很有实际意义比如新闻推荐系统实时知识更新的聊天机器人或者需要快速学习新领域知识的 AI 助手想象一下你的 AI 助手能迅速消化最新的科技新闻然后跟你聊得头头是道不过他

在非定量领域比如事件类新闻效果还有待提升看来 AI 也得因材施教有什么可以改进的地方论文提到上下文遮蔽效应的具体机制还不完全清楚需要更深入研究还有他们的自问答数据可以更丰富一些增加多样性可能会让效果更好第三篇是 more optimal fractional orderstaptic gradient descentfor non-convex optimization problem 这名字好长简单说说这是在优化啥这确实是个技术感满满的题目

简单说这篇论文在改进一种叫随机梯度下降的优化方法这是 AI 模型训练的核心像是在教 AI 怎么一步步找到最佳答案他们提出了一种新算法叫 True SED FOSGD 专门解决飞秃优化问题也就是那种特别复杂的像山丘连绵的数学难题飞秃优化听起来像爬一座超级崎岖的山这个新算法有啥特别

它的特别之处在于动态调整传统方法用固定参数像用同一把钥匙开所有锁

而 2SEDFOSGD 会根据地形智能调整步伐它用了一种叫双尺度有效维度的工具简称 2SED 像是给 AI 装了个地形雷达能感知当前区域是陡峭还是平坦然后动态改变分数接指数决定是小心走还是大步跨地形雷达这比喻我喜欢具体怎么用在 AI 训练上比如训练一个神经网络

2SEDFOSGD 会根据模型的敏感度调整优化策略在复杂区域它走得小心避免翻车在平坦区域它加快步伐节省时间他们在一种叫 AR 模型的任务上测试证明这个方法在有噪音的环境下收敛更快更稳定噪音是像现实世界里数据乱七八糟的那种吗

对现实世界的数据往往有各种干扰比如传感器数据可能有误差 2-F-E-D-F-O-S-G-D 在这种重围噪音环境下表现特别好估计参数更准这对自动驾驶语音识别这些需要处理复杂数据的场景很有帮助听起来很实用有没有啥不足有几个点

比如 2CED 的计算有点复杂,可能增加训练时间,还有他们的实验主要是小型任务,未来的在大型神经网络上试试效果。另外,新算法本身也引入了一些超参数,怎么调这些参数还能再研究?看来优化也是个精细活,这会怎么影响 AI 发展?

这种动态优化的思路能让 AI 模型训练更快更稳定,尤其在数据复杂或资源有限的情况下未来可能用在训练大模型或者优化边缘设备上的 AI,比如手机里的语音助手第四篇是 The Unreasonable Effectiveness of Discrete Time Gassian Process Mixtures for Robot Policy Learning

这名字让我想到机器人耍杂技,讲讲这是啥。耍杂技还挺贴切。这篇论文提出了一种叫 Midigap 的方法,让机器人从极少的数据中学会复杂的动作,比如开门,咬东西,甚至把杯子挂在钩子上。它特别擅长处理需要多种解决方案的任务,而且还能在执行时灵活调整,比如避开障碍物。这么灵活,它是怎么做到的?

Metagap 的核心是个叫离散时间高斯过程的表示方法想象机器人动作像一串珍珠每颗珍珠是个时间点 Metagap 给每个时间点算一个概率分布告诉你机器人可能在哪怎么动它不依赖复杂的数学假设简单却超级灵活最牛的是它只用五个演示就能学会复杂任务效率比深度学习高 20 倍

他有个推理师引导的本事比如机器人正要开门突然发现门前有个障碍物 MIDIGAP 能根据概率分布马上调整动作绕过去他还说

还能把学到的策略迁移到不同机器人身上,比如从一个机械臂用到另一个完全不同的机械臂上,成功率翻倍。这不就是举一反三吗?实际效果咋样?他们在 OurBench 基准测试上拿了顶尖成绩,比如在需要精准控制的任务上,成功率比传统方法高 76%,动作还更平滑。

他们还在真实机器人上验证了比如让机器人避开障碍物效果一样好听起来像未来家用机器人的雏形有什么可以改进的他目前依赖感知系统的准确性比如摄像头的清楚看到物体位置

还有他主要处理手臂动作像四足机器人走路这种任务可能还会额外设计未来可以让他学会更复杂的行为比如试错能力我已经脑补机器人帮我做饭了这技术能用在哪儿潜力巨大工业机器人家庭助手甚至医疗手术机器人都能用这种高效灵活的方法而且他计算成本低普通电脑就能跑很适合小型企业或实验室最后一篇是 RM

RMR1 Reward Modeling as Reasoning 这是在教 AI 当裁判吗讲讲对就是教 AI 当个聪明又公正的裁判这篇论文研究奖励建模是让 AI 判断哪个回答更好比如在聊天机器人里哪个回答更贴心更准确他们的创新是把奖励建模变成一个推理任务提出了 RMR1 模型让 AI 在评判前先思考清楚推理 AI 怎么思考

他们设计了一个叫规则链的方法 AI 先判断任务类型比如是聊天还是解题对于聊天任务它会列出评估标准比如语气要友好然后根据标准打分对于解题任务它会先自己试着解一遍再看看哪个回答更接近正确答案

这种一步步想清楚的过程让 AI 的判断更透明更准确有点像老师批改作文先定评分细则效果咋样效果很强 RMR1 在多个奖励建模基准上拿了顶尖成绩甚至超过了更大的模型比如莱玛 3.1405B 它的判断不仅准确还能解释原因比如这个回答更好因为它更简洁且信息完整这对用户来说是个大进步

不再是黑箱评分这能用在哪比如我跟 AI 聊天它会更懂我对奖励建模是 AI 对其人类偏好的关键 RMR1 能让聊天机器人更懂你的喜好比如你喜欢幽默的回答它会优先选那种风格还能用在自动评分系统教育工具甚至内容审核确保 AI 的输出更安全更贴合需求

下期再见,拜拜。

AI前沿：从语音聊天到机器人策略 12:27 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从语音聊天到机器人策略