We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：编解码器回归框架、长思维链推理的秘密

2025/2/7

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

小

小爱

Topics

小T: 传统的神经网络在处理回归任务时,通常直接使用均方误差进行训练,但这种方法可能并非最优。我介绍了目标编码器-解码器框架,它将回归问题转化为一个更广义的分类问题。这个框架通过软分箱的概念,将连续的目标值映射到一个分布上,使得模型能够学到更丰富、更平滑的目标表示。实验结果表明,这种端到端联合训练方法在多个真实世界的数据集上,相比传统的最小二乘回归,性能平均提升了高达25%。虽然这个框架引入了一些新的超参数,并可能增加计算复杂度,但它为提升回归模型的性能提供了一个新的思路,即通过将回归问题与分类、聚类联系起来,换个角度思考问题。

Deep Dive

Shownotes Transcript

听众朋友们大家好,欢迎收听最新一期的太快报,我是主持人小爱。大家好,我是小 T,很高兴又和大家在太快报见面了。今天我们带来了五篇最新的研究论文,我们先来聊聊第一篇吧。它关注的是一个很基础但又很重要的问题,回归任务。论文的标题是 Building Bridges Between Regression, Clustering and Classification。

回归听起来好像有点学术能用大白话解释一下什么是回归任务吗当然回归任务简单来说就是预测一个连续的数值比如预测房价预测股票价格或者预测用户的年龄等等我们平时用的机器学习模型很多时候都在做回归任务这个我明白了那

那这篇论文在这方面有什么新发现呢传统的神经网络做回归任务通常就是直接用军方误差 MCE 来训练简单粗暴但这篇论文指出这种方法可能不是最优的他们提出了一种新的框架叫做目标编码器解码器框架目标编码器解码器听起来有点绕口这是个什么新概念你可以把它想象成一个翻译器传统的回归就像直接用一种语言比如英语去描述一个东西

而他们的新框架是先用一种中间语言目标编码器把这个东西编码一下然后再用另一种语言预测解码器去解码出来为什么要这么折腾一下呢直接用英语描述不好吗这就是这篇论文的巧妙之处他们把回归问题转化成了一个更广义的分类问题你想想分类我们都很熟悉比如图像分类就是把图片分成猫狗鸟等等不同的类别回归变成分类这怎么理解呢

预测房价是预测一个具体的数字跟分类好像不太一样了关键就在于他们提出的软分香的概念传统的分类是硬分香比如把年龄分成 0 到 10 岁 11 到 20 岁这样是硬生生的切开而软分香就更平滑更柔和

他们用一个可学习的目标编码器把连续的目标值比如房价映射到一个分布上就像给房价打上很多个软标签而不是一个硬标签软标签听起来有点像给连续值做了一个模糊的分类对你可以这么理解这样做的好处是模型可以学到更丰富更平滑的目标表示然后再用预测解码器从这个分布中解码出最终的预测值

听起来好像是把回归问题变得更细腻了,那效果怎么样呢?效果非常显著,他们在很多真实世界的数据集上做了实验,结果表明他们提出的端到端联合训练方法,相比传统的最小二成回归,性能平均提升了高达 25%。哇,提升 25%,这可不是一个小数字。

那这个方法有什么局限性吗?任何方法都有局限性这个框架引入了一些新的超参数比如类别数、损失函数权重等等需要根据具体的数据集进行调整另外引入编码器和解码器可能会增加一些计算复杂度总的来说这个工作还是很有意义的吧

当然它提供了一个新的视角来看待回归问题把回归和分类聚类联系起来提出了软分箱和目标编码器解码器框架为提升回归模型的性能提供了新的思路我觉得这个工作很有启发性告诉我们有时候换个角度思考问题就能有意想不到的收获我也觉得挺有意思的

接下来我们看看第二篇论文吧标题是 Demystifying Long Chain of Thought Reasoning 2M 是关于大语言模型 LM 的听起来很热门是的这篇论文研究的是大语言模型中的长思维链 Chain of Thought Code 推理

卡尔推理是现在大模型非常重要的一个能力,可以让模型像人一样一步一步地思考问题,而不是直接给出答案。对,思维链听起来很高大上,能举个例子吗?比如你问大模型一道复杂的数学题,如果不用卡尔提,模型可能直接给你一个答案,但你不知道它是怎么算出来的。

用了 Code 之后模型会先把解题步骤一步一步地列出来就像一个思考过程最后再给出答案这样不仅答案更可靠而且也更透明更可解释我明白了就像我们平时做数学题也要写步骤一样那这篇论文是想解密 Code 推理的什么呢这篇论文想深入研究到底是什么条件和机制让大语言模型能够实现长思维链推理他们想搞清楚仅仅是扩大模型规模就够了吗

还是需要其他什么条件这个问题很有意思现在大家都在说模型越大越好那抠体推理能力是不是也是模型越大就越强呢?论文的实验结果表明模型规模大当然有帮助但不是唯一决定因素

他们发现用长 cos 数据进行监督微调 SFT 可以提高训练效率和性能但对于涌现长 cos 能力来说并非绝对必要不是绝对必要这有点反直觉难道不用开微数据训练模型也能自己学会 3OT 推理是的

他们的研究表明,强化学习 RL 才是关键但 RL 训练也不是万能的,奖励塑造 reward shaping 非常重要如果奖励函数设计不好,RL 训练并不能稳定地提升 COT 长度甚至可能适得其反

奖励塑造这又是什么新概念你可以把奖励塑造想象成给模型打分在 RR 训练中我们需要告诉模型什么样的行为是好的什么样的行为是坏的奖励函数就是用来打分的如果奖励函数设计的不好

模型可能会为了追求高分采取一些作弊的手段而不是真正的提升推理能力作弊模型也会作弊吗可以这么理解比如模型可能会通过重复一些无意义的 token 来延长 quad 长度但实际上并没有真正的进行推理所以奖励函数的设计非常关键郑元乐文就提出了一种预先长度缩放奖励和重复惩罚相结合的方法

可以有效地稳定 Q2 长度的增长防止模型作弊听起来奖励设计还挺复杂的那除了奖励设计还有其他因素会影响 Code 推理吗数据很重要高质量的可验证的数据很稀缺这篇论文就探索了如何利用噪声的网络数据来扩展可验证的奖励信号他们发现通过适当的过滤噪声数据也可以有效地用于 RL 训练

尤其是在分布外 OD 任务中造生数据也能用感觉有点变废为宝的意思是的这对于解决高质量标注数据稀缺的问题很有意义另外论文还发现基础模型本身就具备一定的错误纠正能力但要

通过 RL 有效的激励和扩展这些能力需要大量的计算资源和精心的奖励设计总的来说这篇论文对 Cult 推理有什么启发呢这篇论文揭示了长 cult 推理的一些内在机制强调了奖励设计的重要性以及利用噪声数据进行 RL 训练的可能性它告诉我们提升大模型的复杂推理能力不能光靠堆模型规模还需要在训练方法和数据上下功

感觉对大模型的理解又深入了一层接下来我们再看看第三篇论文 Robust Autonomy Emotions from Self-Play 标题听起来就很厉害自进化驾驶是自动驾驶方面的研究吗没错这篇论文是 Apple 的研究关注的是自动驾驶他们提出了一种很有意思的方法叫做自义 Self-Play 自义这个词听起来好像是下棋或者打游戏用的

是的,自翼最早在 CAST 等遊戲中取得了巨大的成功這篇論文就把自翼的思想應用到了自動駕駛領域他們想證明魯邦且自然的自動駕駛策略可以完全通過模擬環境中的自翼湧現出來而無需任何人類駕駛數據不需要人類駕駛數據

这太颠覆了吧,现在的自动驾驶不是都要用大量的人类驾驶数据来训练吗?是的,传统的自动驾驶方法很大程度上依赖于人类驾驶数据,但这篇论文反其道而行之,他们完全依靠模拟环境,让自动驾驶系统自己和自己玩,进行大规模的自益。自己和自己玩?

怎么个玩法呢?你可以打算成两个虚拟的自动驾驶汽车在模拟环境中互相博弈他们的目标是学习如何在各种复杂的驾驶场景中安全高效的行驶通过不断的自益他们就能逐渐学习到优秀的驾驶策略听起来有点像无师自通的感觉那他们是怎么实现大规模自益的呢?

这就要提到他们提出的一个高吞涂量模拟平台 Digaflow 这个平台非常高效可以在一个 8GPU 节点上每小时合成和训练相当于 42 年的主观驾驶经验 42 年每小时这也太夸张了难怪叫 Digaflow

是正是有了 GigaFlow 这样高效的模拟平台他们才能进行空前规模的自翼积累了 16 亿公里的驾驶经验这个规模非常惊人是之前自动驾驶研究无法企及的那最异的效果怎么样呢真的能训练出鲁邦的自动驾驶策略吗效果非常惊艳他们训练出来的策略在零样本评估中在三个独立的自动驾驶基准测试考试

Lavala,Nuplan,Vemo,Fishang 都取得了最先进的性能 SOTA。领养本 SOTA,这太厉害了,完全没有用人类数据,就能超越之前用人类数据训练的方法。是的,而且更令人惊讶的是,他们训练出来的通用策略甚至优于针对特定基准的专家策略,这说明 ZE 在学习具有广泛能力的策略方面非常强大。那他们训练出来的自动驾驶策略开起来像人类司机吗?

是的,他們對策略的駕駛行為進行了定量評估發現與人類駕駛行為非常相似,而且魯磅性也非常高在模擬中平均每 17.5 年的連續駕駛才會發生一次事故 17.5 年才發生一次事故,這也太安全了吧,人類司機可做不到這一點是,這充分證明了字義在訓練魯磅自主系統方面的巨大潛力這篇論文還提出了一種優勢過濾

Advantage filtering 的强化学习方法提高了训练效率总的来说这个自义自动驾驶的研究最大的亮点是什么呢我认为最大的亮点就是颠覆了传统观念证明了不需要人类数据仅通过大规模自义也能训练出 SOTA 级别的自动驾驶策略这为自动驾驶的未来发展提供了一个全新的方向也为其他自主系统的训练提供了新的思路嗯嗯

感觉自动驾驶的未来充满了想象空间接下来我们再看看第四篇论文 Limo Less is More for Reasoning 这个标题也很有意思少机是多是说推理能力不需要太多数据吗是对

这篇论文就提出了一个 less-is-more 推理假设 LIMO 假设他们认为对于已经预训练了很多知识的大模型来说复杂的推理能力可以通过少量但精确设计的认知过程演示来涌现少量数据就能涌现复杂推理能力这又是一个颠覆认知的观点是,我们通常认为训练复杂的模型需要海量的数据但这篇论文却告诉我们数据量不是唯一的决定因素

数学的质量可能更重要。那他们是怎么证明少计是多的呢?他们做了一个非常惊人的实验,他们只用了 817 个精心策划的事例,就在数学推理基准测试上取得了最先进的性能 SOTA,比如在 AMI 基准上达到了 57.1%,在 Math 基准上达到了 94.8%,

817 个势力就搜他了这数据量也太少了吧之前的模型不是要用几万甚至几十万个势力来训练吗

是的他们的数据量只有之前方法的 1%但性能却远超之前的模型更令人惊讶的是 LIMO 模型还表现出了超强的 Auto Distribution 泛化能力在 10 个不同的基准测试中相比使用多 100 倍数据训练的模型 LIMO 的性能绝对提升了 40.5%我的天这简直是奇迹 800 多个高质量势力就能打败用几十万个势力训练的模型是的

这篇论文有力地证明了高质量数据的重要性他们认为要激发大模型的推理能力关键在于激活模型已有的知识而不是从头开始学习而高质量的视力就像认知模板可以引导模型有效地利用其知识库来解决复杂的推理问题认知模板这个比喻很形象那什么样的视力才算是高质量的呢

他们认为高质量的视力需要具备几个特点问题难度要合适要具有通用性知识要多样化解答质量要高结构最优游刃之支架严格验证总之视力的质量比数量更重要感觉他们是把数据当成艺术品来打磨

那这个 LIMO 假设对我们有什么启发呢 LIMO 假设重新定义了我们对 SFT 在推理中的作用的认知它告诉我们当 SFT 与预训练知识和高质量势力相结合时可以真正的激发模型的推理能力和泛化能力而不仅仅是死记硬背就我们数据高效的训练复杂推理模型提供了新的思路

感觉又学到了一招炼丹秘诀最后我们再来看看第五篇论文 On Teacher Hacking in Language ModelDistillation 标题里有个 hacking 听起来有点黑客的感觉这是在说知识蒸馏的安全性问题吗这篇论文确实是在探讨知识蒸馏过程中可能出现的一个坑

他们把它叫做教师 hacking teacher hacking 知识蒸馏这个概念我们之前好像也提到过能再简单解释一下吗知识蒸馏简单来说就是把一个大模型 teacher 模型的知识迁移到一个小模型 student 模型上这样我们就可以用小模型也能获得接近大模型的性能从而降低计算成本知识蒸馏听起来是个好技术那什么是教师 hacking 呢

教师 hacking 的概念是借鉴了强化学习中的奖励 Hacking Reward Hacking 奖励 hacking 指的是模型为了最大化奖励采取了一些作弊的手段而不是真正学到我们期望的行为而教师 hacking 类似指的是学生模型在模仿教师模型时不是通过更好的逼近真实数据分布

而是利用教师模型自身的不完美之处导致在真实目标分布上的性能下降利用教师模型的不完美之处这怎么理解呢教师模型不是比学生模型更强大吗是的教师模型通常更强大但它也不是完美的它也可能存在一些偏差或者错误如果学生模型只是简单的模仿教师模型的输出而不是去学习 underline 的真实分布就可能会学坏学到教师模型的缺点导致性能下降

学坏这个比喻真形象那他们是怎么研究教师 hacking 现象的呢他们设计了一个受控的实验环境他们先训练了一个 oracle 模型可以把它看作是真值分布的代表然后用 oracle 模型蒸馏出一个教师模型再用教师模型蒸馏出一个学生模型有点像三代同堂的感觉 oracle 模型是爷爷教师模型是爸爸学生模型是儿子可以这么理解

通过这种设置他们就可以量化地分析教师 hacking 现象他们用黄金指标 Golden Metric 来衡量学生模型与 Oracle 模型的距离用代理指标 Proxy Metric 来衡量学生模型与教师模型的距离

那实验结果发现了什么呢教师 hacking 真的会发生吗实验证明当使用固定的离线数据集进行蒸馏时教师 hacking 现象确实会发生他们发现随着训练的进行代理指标下降了说明学生模型成功的模仿了教师模型但黄金指标却上升了说明学生模型相对于真实目标的性能在退化代理指标下降黄金指标上升这就说明学生模型学坏了只学到了教师模型的糟粕

是的可以这么理解这说明传统的离线知识蒸馏可能存在一定的风险但他们也发现使用在线数据生成方法可以有效地缓解教师 hacking 在线数据生成这又是什么方法在线数据生成就是在蒸馏过程中动态地生成新的数据而不是使用固定的离线数据集比如可以从教师模型或者学生模型中采样生成新的数据

动态生成数据听起来好像更灵活,更不容易学坏。是的,实验表明,使用在线数据代理指标和黄金指标可以同时得到改善。另外,他们还发现数据多样性也是防止教室 hacking 的关键因素。如果离线数据集的 prompt 多样性不足,就更容易发生教室 hacking。数据多样性很重要,这个我理解。

就像学习一样如果只开一种类型的题目就容易偏科是的道理类似总的来说这篇论文揭示了知识蒸馏中可能存在的教师 hacking 现象并提出了在线数据生成和增加数据多样性等缓解策略它提醒我们在使用知识蒸馏时要审慎对待教师模型的不完美性避免学生模型学坏

感觉知识蒸馏也不是万能的也可能会有坑今天的这几篇论文都太精彩了感觉信息量好大一下子吸收了好多 AI 新知识是这几篇论文都代表了 AI 领域的一些最新进展和思考方向从回归任务的新框架到大模型推理能力的解密再到自进化架势和数据高效推理以及知识蒸馏的潜在风险都非常值得我们关注和思考非常感谢小提

今天的精彩解读听众朋友们如果想了解更多关于这些论文的细节可以关注我们的节目主页我们会放出论文的链接也欢迎大家在评论区留言分享你对这些研究的看法和思考好的那本期太快报就到这里感谢大家的收听我们下期再见下期见拜拜

AI前沿：编解码器回归框架、长思维链推理的秘密 18:05 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：编解码器回归框架、长思维链推理的秘密