大家好 欢迎收听《太快报》 我是小爱大家好 我是小 T 很高兴我们又见面了第一篇论文标题是 Does reinforcement learning really incentivize reasoning capacity in LRS beyond the base model 听起来有点挑似的味道他们在质疑强化学习是不是真能让大语言模型变得更会推理你能先给我们讲讲这个强化学习是个啥吗当然强化学习就像训练一只小狗
你给他一个任务比如坐下如果他做对了就给块骨头奖励做错了就不给慢慢的小狗学会怎么做能拿到更多奖励在 AI 里强化学习是让模型通过试错来优化输出比如让语言模型回答数学题更准确论文里说的可验证奖励的强化学习 RAOER 就是用明确的评分标准比如答案对错来指导模型学习
听起来很厉害那这篇论文为啥要质疑强化学习的效果呢不是说它能让模型更聪明吗这正是这篇论文的有趣之处研究者发现强化学习虽然能让模型在某些任务上表现更好比如更高效地答对数学题但它并不能让模型更聪明
并没有让模型学会全新的推理方式打个比方基础模型就像一个藏着无数答案的巨大图书馆强化学习只是帮模型更快找到正确书架但它不会帮模型写一本新书他们用了一个叫 PathFK 的指标来测试
如果让模型尝试 K 次看它能不能答对结果发现当 K 很大时比如几百次基础模型能解决的问题范围比强化学习训练过的模型还广哇这有点颠覆我的想象你是说强化学习其实是在偷懒只优化了效率没扩展能力可以这么说论文指出强化学习主要提高了采样效率也就是让模型更容易输出已有的正确答案
但这可能会让模型变得保守 减少探索新路径的能力相比之下 他们发现蒸馏一种从其他模型学习知识的方法能真正扩展模型的能力边界这提醒我们强化学习虽然有用 但它不是万难的未来可能需要新方法来突破模型的推理上限这让我想到 AI 的潜力可能比我们想的还大 但怎么解锁是个难题
好 接下来第二篇论文更有趣了标题是 Chain of Modality Learning Manipulation Programs from Multimodal Human Videos with Vision Language Models 这是在教机器人看人类视频来干活这机器人是怎么从视频里学会操作的这篇文章是在教机器人看人类视频来干活
这篇研究太酷了想象一下你想教机器人拧螺丝但光看视频他不知道要用多大的力他们提出了一个叫模态链 Chain of Modality 的策略用视觉语言模型 VLM 来分析多模态视频不仅看画面还听声音
感知肌肉信号比如拧螺丝时视频里有手的动作声音有螺丝旋转的吱吱声肌肉信号能反应用力大小这些信息一起帮模型推断出任务细节最后生成机器人能执行的代码
听起来像机器人变成了超级侦探,从各种线索里拼凑出操作方法,这个模态链是怎么工作的?模态链的巧妙之处在于它不像一般方法把所有信息混在一起分析,而是像剥洋葱一样一层一层处理。先看肌肉信号或声音判断用力大小,再看手部姿势,弄清动作细节,最后看视频画面确认整体任务。
實驗證明這種分布推理比一股腦處理所有信息效果好得多準確率從 17%提高到 60%而且生成的機器人程序還能適應新物體和環境比如換個螺絲刀也能幹活
太厉害了以后我拍个视频机器人就能学会做饭不过有没有什么局限性潜力是有的但现在还有限制比如他们的音频分析只用了音量没用到更复杂的声学特征而且生成的程序是开环的意思是机器人按固定步骤执行遇到意外情况不会调整但这个研究展示了非视觉信息的重要性未来机器人可能靠多感官学习变得更灵活
好 期待这样的机器人接下来第三篇标题是 Let me grow for you acceleratingGrowking way to spreading transfer from a weaker model 这个 Growking 听起来很神秘 是啥意思 Growking 是个很有趣的现象他描述的是神经网络在训练时先是死基硬背数据泛化能力很差但训练很久后突然开窍 泛化能力飙升比如训练一个模型做加法
他一开始可能只记住训练数据但后来能正确计算没见过的大数字这篇论文想解决 Groking 的慢热问题让模型更快开窍听起来像学生从死记硬背到真正理解他们是怎么加速这个过程的
他们提出了一个叫 Growth Transfer 的方法思路很巧妙先训练一个弱模型比如一个小网络让它达到部分泛化然后把这个弱模型学到的数据嵌入一种对输入数据的表示方式建立到更强的目标模型上结果强模型的训练就像被点拨了一样泛化速度大幅提升甚至在某些任务上一步就搞定
这就像一个学渣总结的笔记 居然能帮学霸更快掌握知识这也太反直觉了 入模型还能教强模型 有没有什么限制确实很神奇 但入模型必须先开窍 否则它的嵌入没用而且他们的理论分析主要在简单任务上 复杂任务的效果还需验证不过这研究提醒我们 数据的表示方式对学习至关重要
未来优化嵌入可能是提升 AI 效率的关键看来 AI 的学习秘籍藏在细节里第四篇论文是 Not all rollouts are useful downsampling rollouts in AI reinforcement learning 他们在强化学习里挑有用的数据感觉像在断舍离能讲讲这是怎么回事吗断舍离形容的很贴切
巧化學習裡模型會生成很多 Roller 嘗試性的輸出比如回答一道題的多種答案但不是每個 Roller 都對訓練有幫助這篇論文提出一個叫 PODS 框架先生成一大堆 Roller 再用最大方差降彩樣挑出最有信息的子集他們發現選出獎勵最高和最低的 Roller 組合
能提供最强的学习信号实验表明这种方法在数学任务上比标准强化学习更高效所以是优中选优 劣中选劣这为啥有用对高奖励的 Roth 告诉模型这样做是对的低奖励的告诉他别这样做这种对比信号能更清楚地指导模型优化就像老师批改作业挑出最好的和最差的答案来讲解能让学生学得更快这方法还解决了强化学习中计算资源不对称的问题
让训练更省力感觉 AI 训练也能学会精打细算最后第五篇 Learning to Attribute with Attention 他们在研究语言模型的注意力机制这跟我们平时说的注意力有啥关系注意力机制是语言模型的聚焦能力决定它在生成答案时更关注哪些输入比如回答问题时它会重点看提示里的关键信息这篇论文想弄清哪些输入对模型输出影响最大
但传统方法像骁龙逐一移除输入看效果太费计算他们提出了 AG2 方法学习如何用模型内部的注意力权重来预测输入的影响结果不仅快还跟昂贵方法一样准确甚至能用来优化问答任务所以他们是用模型自己的注意力来反侦探它的决策过程有没有实际应用对
比如在问答任务中他们用 AT2 找出无关的上下文剪掉后模型答题更准这就像帮模型减幅只看重点信息但它依赖模型的注意力权重如果模型不提供这些内部信号方法就用不了未来这类技术可能帮我们更好地理解 AI 的黑箱决策今天的这五篇论文都很有趣感谢小 T 的精彩解读也谢谢大家的收听我们下期太快报再见下期见拜拜