大家好 欢迎收听本期太快报 我是小爱大家好 我是小 T 很高兴又见面了咱们先从一篇特别接地气又震撼的论文说起 Me for Two a Universal Speech Restoration Model for Million-Hour Scale Data Restoration 这篇研究解决了一个超级实际的问题如何把海量的藏语音数据洗得干干净净供 AI 模型训练
洗语音数据这听起来有点像给录音洗澡能具体说说这是啥意思吗洗澡是个好比喻想象一下你在网上抓了一堆语音数据比如播客电话录音街头采访里面可能有背景噪音回声甚至说话人声音模糊这些脏数据如果直接拿来训练 AI 比如语音识别或语音合成模型效果会很差
MeForTwo 就像一个超级智能的洗衣机能把这些含糙的语音数据清洗成录音棚级别的清晰音频哇 100 万小时的语音数据 这是多大的洗衣机 它是怎么做到的核心是个叫 USM 的通用语音模型 预训练了 300 多种语言的语音知识 相当于一个语音摆
这有点像个语言无关
真的超级滤镜有没有什么特别酷的地方绝对有它超级高效在一台消费级芯片上处理 100 万小时的语音只需要三天换句话说 100 台这样的设备就能在几天内清洗相当于 YouTube 上所有音频的量而且它还能自举用自己清洗过的数据再训练自己效果几乎不打折这让我想到一个哲学问题
如果 AI 能自己清洗数据那未来我们是不是可以用 AI 来清洗整个互联网哇 这个脑洞有点大不过听起来它对 AI 发展有啥实际影响影响巨大高质量的训练数据是 AI 模型的命脉尤其是语音合成语音识别这些领域 Mifft
让研究者和企业能用更低的成本清洗海量数据等于给下一代语音 AI 铺了条高速路不过它也有局限比如代码没开源极端噪声场景下的表现还没完全验证好 期待未来能听到更清晰的 AI 声音接下来我们聊聊 Steerable ChatablesPersonalizing the OnesWith Preference-Based Activation Steering
这篇听起来像是让 AI 更懂你的研究没错这篇论文解决了一个很人性化的问题怎么让聊天机器人更贴合你的喜好比如你喜欢经济实惠的旅行建议还是偏爱奢华体验
通常我们得写一堆提示词告诉 AI 但很多人不擅长这个这篇研究提出了一种叫激活引导的技术 能在 AI 推理时直接调它的输出风格有点像给 AI 装个个性旋钮具体怎么调对 他们先用一个强大的 AIGPT-4O 生成一些正反两面的粒子 比如
经济型和豪华型的回答然后算出 AI 在这两种风格下的激活差异形成一个引导向量在聊天时 AI 会根据这个向量沿着你想要的风格方向调整输出就像条收音机你可以决定要多经济或多豪华这听起来超好玩他们还做了什么实验他们设计了三种界面来测试这个技术一种是让你直接滑块控制风格一种是通过问答预先校准你的偏好
还有一种会根据你的聊天情绪自动调整,结果发现用户更喜欢这种可控的 AI,尤其是直接滑块的界面,因为它让人感觉我说了算,但有趣的是,用户有时并不会把滑块调到他们声称的真实偏好,说明我们的喜好可能比自己想的更流动。让我想起有时候我也不知道自己到底想要啥,这项技术能用在哪里?
潜力很大比如电商推荐旅游规划甚至心理咨询 AI 都能更精准的贴合你的需求而且它很轻量不需要重新训练模型隐私友好不过自动调整的界面还有点不稳定未来可能需要更聪明的算法来猜用户的真实意图
好 接下来是 Splitvisor Efficient LMI with Constrained Resources 这个听起来像是让 AI 在穷设备上跑得更快确实有点这个意思 大型语言模型推理分两步第一步是处理你的输入计算密集第二步是生成回答内存密集 Splitvisor 的创新是把这两步拆开在同一块 GPU 上并行跑提高效率
想象一下你家只有一个烤箱,但你想同时烤蛋糕和烤鸡翅 SplitWiser 就像把烤箱分成两半,让两件事同时进行这听起来很聪明,效果如何?他们在单块 GPU 上测试发现,延迟能降低 18%左右,吞吐量提升 1.4 倍
對只有一塊 GPU 的用戶來說是個福音不過它也有挑戰比如兩部之間需要同步數據內存管理也得更小心未來如果能優化這些細節可能會讓 AI 推理在普通設備上更普及
太好了,AI 也能勤儉持家了。接下来是 ZeroSearch incentivize the search capability of LLMs without searching。这名字听起来有点玄乎,是啥意思?这个研究特别有创意,通常要让 AI 学会搜索信息的,让它跟真实搜索引擎互动。
但只有两个问题搜索引擎返回的内容质量不稳定而且 API 调用很贵 Zero Search 的脑洞是用另一个 AI 来假装搜索引擎他们训练一个 AI 模拟生成搜索结果包括好的和带噪声的然后用这个假搜索引擎来训练主 AI
AI 的搜索能力这有点像用 AI 给自己开小灶它真的能代替谷歌吗实验结果挺惊人他们用一个 7 亿参数的假搜索引擎 AI 效果跟谷歌差不多 14 亿参数的甚至超过了谷歌
而且成本低到离谱相当于用几百块的 GPU 算力取代了几十万的 API 费用他们还用了一种课程学习策略先让 AI 链简单的搜索再逐渐加难度像教小孩一样循序渐进听起来像是 AI 界的自学成才有什么实际用途
非常实用,比如智能助手、学术研究工具,都需要 AI 快速查找和推理信息。Zero-Serve 让这种能力更容易训练成本更低,不过它也有局限,比如假搜索引擎只能基于已有的知识,没法抓取最新信息。最后是 X-Rezoner Towards Generalizable Reasoning Across Modalities and Domains,这个标题听起来很宏大,到底在研究啥?
这篇论文问了一个很深刻的问题 AI 的推理能力能不能跨领域跨模态通用比如能不能用文本训练的 AI 去解决图文问题答案是肯定的他们开发了 X-Rezoner 只用通用文本数据训练比如数学和编程题目却让他在视觉任务和医学领域也表现出色这有点像学语文也能考好物理怎么做到的
他們用了兩步 先用文本數據教 AI 思考鏈 也就是一步步推理再用強化學習讓 AI 在數學問題上精調這種方法讓 AI 學會了通用的推理模式 像是給他裝了個邏輯引擎不管是看圖還是答一學科普提都能用得上他們還做了個醫學版的 Ex-reasoner medicine 在醫學領域創了新記錄
最意外的是他完全没用多模态数据通常我们觉得要 AI 看懂图片得为他很多图文数据但 X-Resonator 证明文本里的逻辑训练就能举一反三
这让我想到 AI 的推理能力可能比我们想的更抽象,有点像人类的逻辑思维。哇,这五篇研究真是各有千秋。今天的太快报就到这里,感谢小 T 的精彩讲解,也谢谢大家的收听,我们下期再见。下期见,拜拜。