We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:预训练数据优选与行动思维链

AI前沿:预训练数据优选与行动思维链

2025/2/6
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小爱
Topics
小爱:我认为选择优质的预训练数据对于语言模型的性能至关重要。我们需要一种方法来衡量不同文本数据之间的相似度,以便挑选更适合模型学习的数据。我的研究表明,简单平均 Token 嵌入方法在数据选择上表现出色,而且专门为预训练任务定制的嵌入模型效果更好。因此,在构建和优化源模型时,我们应该重视数据选择方法,并根据任务特点选择或设计合适的工具。

Deep Dive

Shownotes Transcript

听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家在太快报见面了今天我们带来了五篇最新的研究论文标题都挺有意思的

我们就从第一篇论文开始吧,题目是面向语言模型预训练数据选择的相似度指标分析。光看标题就感觉和数据有关,现在 AI 模型都离不开数据,这个研究是想解决什么问题呢?没错,这篇论文聚焦的是语言模型的实材预训练数据。你知道现在像 ChatGPT 这样的大语言模型,都是先用海量文本数据喂出来的。

數據質量好壞直接決定了模型的營養和口味那怎麼才能選出優質的育訓練數據呢?這就涉及到數據策展或者說數據選擇的問題數據也需要策展

听起来像是在给数据办选美大赛一样这个比喻很有意思某种程度上确实有点像研究人员想找到一种方法来衡量不同文本数据之间的相似度然后根据相似度来挑选更适合模型学习的数据论文的核心就是评估各种相似度指标在数据选择上的效果相似度指标

听起来有点抽象能举个例子吗当然比如我们可以用一些现成的嵌入模型把文本转换成向量然后在向量空间里计算距离距离越近就认为越相似就像我们用身高体重来衡量两个人的相似程度一样嗯有点明白了

那这篇论文具体做了什么研究呢?他们建立了一个评估框架就像一个打分系统来考察不同的相似度指标在数据选择上的表现他们提出了几个新的评估指标比如预训练损失方差缩减

这个指标是看如果选出来的数据在嵌入空间里比较相似那么用这些数据训练模型时模型的学习难度是不是也更一致指标值越高就说明这个相似度指标越靠谱听起来挺专业的那他们有什么重要的发现吗最大的惊喜是一个非常简单的方法竟然效果出奇的好这个方法就是平均 token 嵌入简单来说就是把一小段文本里每个词的词项量加起来

然后取平均值,就得到了这段文本的向量表示这么简单吗?对,论文发现这种简单方法竟然能和一些更复杂的模型打得有来有回甚至在某些方面还更好这真是有点颠覆认知也告诉我们有时候简单的方法往往更有效另外他们还发现专门为预训练数据测展定制的嵌入模型比通用的模型效果更好

这就提示我们要根据任务的特点选择或设计更合适的工具真是个有趣的发现感觉就像是说选食材也要对症下药不能随便用通用的菜刀总结一下这篇论文他提出了一个评估数据选择方法的框架揭示了简单平均 Token 嵌入的有效性强调了针对预训练任务定制模型的重要性这对于我们未来更好的构建和优化源模型具有重要的指导意义

好听完数据选美我们再看看第二篇论文题目是 FloQ Learning

这个 Flow 和 Q-learning 都是什么意思呢?感觉像是两个毫不相关的词这两个词确实都比较专业 Q-learning 是强化学习领域的一种经典算法简单来说就是让 AI 通过不断尝试和犯错来学习就像小朋友学走路一样而 Flow 在这里指的是流模型是一种能够生成复杂数据的 AI 模型比如生成图像、音频等等

所以 flow-key of learning 是把流模型和强化学习结合起来了没错,这篇论文提出了一种新的离线强化学习方法,叫做 FQL 离线的意思是模型只能从预先收集好的数据中学习,不能和环境直接互动这在很多现实场景中非常重要,比如自动驾驶,我们不可能让 AI 直接在马路上试错

那为什么要用流模型呢因为流模型擅长处理复杂的数据分布在离线强化学习中数据集理的动作往往非常多样化传统的强化学习方法可能难以应对而流模型可以更好的学习和模仿这些复杂的动作模式这听起来好像很有道理

那 FQL 具体是怎么做的呢?FQL 的核心创新在于单步策略征流它先用行为克隆的方式训练一个流策略让这个流策略尽可能地模仿离线数据集中的动作然后再训练一个单步策略让这个单步策略去学习流策略的精华也就是让它在每一步都能做出和流策略相似的决策但又不需要像流策略那样进行迭代生成单步策略征流

听起来有点像提纯或者浓缩的过程是的很形象 FQL 既利用了流策略的表达能力又避免了流策略在训练和推理是计算量大的问题实验表明 FQL 在多个基准测试中都取得了最先进或者很有竞争力的性能感觉 FQL 就像是站在巨人肩膀上学习

既学到了巨人的本事又比巨人更灵活可以这么说 FQL 的创新之处在于它巧妙地结合了流模型的表达性和单步策略的效率为一线强化学习提供了一种新的思路接下来是第三篇论文基于打分规则的分布扩散模型这个扩散模型最近好像挺火的

很多 AI 绘画工具都用到了是的 扩散模型是近年来非常热门的一种生成模型像 Stable Diffusion, Mid-Early 等等都是基于扩散模型它的特点是能够生成非常高质量的图像但是扩散模型也有一个缺点就是生成速度比较慢我也有所耳闻听说生成一张图要等好几分钟这篇论文是想解决扩散模型速度慢的问题吗

没错这篇论文提出了分布扩散模型 DDM 目标就是加速扩散模型的采样过程分布扩散模型和普通的扩散模型有什么区别呢传统的扩散模型学习的是条件均值也就是给定噪声数据模型预测的是干净数据的平均值而 DDM 更进一步它学习的是后延分布也就是给定噪声数据模型预测的是干净数据的概率分布而不仅仅是平均值学习概率分布有什么好处呢

好处就是可以加速采样因为学习了概率分布 DDM 就可以在更粗糙的时间尺度上进行采样用更少的步骤就能生成高质量的样本这个好比我们画画如果只知道大概的轮廓可能要画很多笔才能画好但如果我们对细节也了如指掌就可以寥寥几笔画出神韵听起来好神奇

那打分规则又是什么意思呢?打分规则是 DDM 用来训练模型的损失函数传统的扩散模型用的是均方误差损失 MSE 而 DBM 用的是平分规则比如能量平分和平分等等这些平分规则能够更好的引导模型学习概率分布用了新的损失函数就能加速采样还能保持生成质量是的 实验表明

DDM 在少量步骤下性能就超过了传统的扩散模型而且 DDM 还不需要像 Gay 那样进行对抗训练训练起来更简单,理论基础也更扎实感觉 DDM 就像是给扩散模型装上了加速器让它跑得更快,画得更好总结一下 DDM 通过学习后验分布和使用评分规则成功地加速了扩散模型的采样过程

为扩散模型的应用打开了更广阔的空间第四篇论文的题目是基于小波的长上下文位置表示这个小波听起来像物理学或者信号处理领域的词汇怎么和语言模型扯上关系了呢你说的没错小波确实是信号处理领域常用的工具

这篇论文巧妙地把小波变换应用到了语言模型的位置编码中位置编码这是什么意思位置编码是语言模型用来理解文本顺序的关键技术你知道语言模型处理文本是一个词一个词处理的

为了让模型知道每个词在句子中的位置我们就需要给每个词编码一个位置信息就像给每个人贴上座位号一样是的很形象传统的位置编码方法比如 Robot Alibi 在处理长文本时会遇到一些问题比如外推能力不足也就是说如果模型训练时只见过短文本

那么在处理超出训练长度的长文本时性能就会下降那小波能解决这个问题吗?论文的作者发现 Rob 其实可以看作是一种受限的小波变换他只用了一个固定的尺度参数限制了他的外推能力而真正的小波变换是具有多尺度的能够捕捉不同尺度的信息多尺度听起来很厉害

是的,论文提出使用从小波变换中获得的多尺度信息来表示文本的位置可以有效地提升,模型处理长文本的能力并增强外推性能。他们还发现 Ricker 小波等特定类型的小波作为位置表示的基础,小波效果非常好。

那和 Alibia 相比呢 论文里提到 Alibia 也存在一些问题论文分析认为 Alibi 类似于一种窗口注意力机制虽然也能实现外推 但会限制模型的感受野也就是模型能看到的上下纹范围变窄了 不利于捕捉长距离的依赖关系而基于小波的方法则不会限制感受野所以基于小波的位置表示既能外推又能保持感受野

是的,實驗表明基於小波的方法在長文本任務和外推場景中都比 Rub Alibat 等方法表現更好感覺這篇論文就像是給語言模型的位置編碼升級換代了用上了更先進的小波技術

总结一下这篇论文将信号处理领域的小波变化引入到 NLP 的位置编码中,提出了一种新的基于小波的位置表示方法,有效地提升了模型处理、长文本和外推的能力,为长文本建模提供了新的思路。最后我们来看第五篇论文,Shay Tori,行动思维链强化学习通过自回归搜索。

增强 LLM 推理能力这个 Satori 听起来像是一个模型的名字没错 Satori 是这篇论文提出的一个 70 亿参数的语言模型这篇论文的核心是如何通过强化学习来增强 LLM 的推理能力强化学习又来了感觉强化学习真是无处不在

是的 强化学习在 AI 领域应用非常广泛这篇论文的创新之处在于它提出了恋事行动思考 Cote 推理机制恋事行动思考 听起来有点像思考 Lenten of Thought 的升级版你可以这么理解

COT 是让 LLM 像人一样一步一步的思考问题给出推理过程而 code 更进一步它让 LM 在推理过程中不仅能思考还能行动这里的行动指的是原动作比如继续反思探索

原动作听起来好高级,能解释一下吗?比如当 LM 在推理过程中遇到困难时,他可以选择反思一下,看看之前的步骤有没有问题,或者他可以选择探索一下,尝试其他的推理路径。这就像我们在解决复杂问题时会不断调整策略,而不是一条路走到黑。感觉 Cote 让 LM 我们变得更聪明了,更像一个真正的人在思考问题。

是的 为了训练具有 code 推理能力的 LM 论文还提出了重启与探索 RAE 策略这个策略借鉴了 Gobiexplorer 算法的思想让模型能够从历史轨迹中重启推理并进行探索专注于错误纠正和尝试新的方案感觉 RAE 就像是给 LM 装上了后悔药错了可以重来还可以尝试不同的方法

可以这么说基于 Colt 和 Ray,润文训练出了 Satori 模型并在数学推理基准测试中取得了最先进的性能甚至超过了一些更大的模型更令人惊讶的是,Satori 在一些域外任务上也表现出了强大的泛化能力也就是说,虽然他主要在数学数据集上训练但也能很好地解决其他领域的推理问题这真是太厉害了,感觉 Satori 就像是一个推理高手,不仅数学好

总结一下 Story 通过 code 推理机制和 LL 策略成功地将搜索能力内化到单个 LLM 中增强了模型的推理能力和泛化能力为提升 LL

M 的智能水平提供了新的方向哇 今天听解读了这五篇论文真是感觉脑洞大开从数据选择到强化学习再到扩散模型还有位置编码和推理能力 AI 技术的发展真是日新月异

是今天的这五篇论文涵盖了 AI 领域的多个重要方向也代表了当前研究的一些最新进展他们都致力于解决 AI 发展中的关键问题比如如何选择更好的训练数据如何提升强化学习的效率如何加速生成模型如何处理长文本以及如何增强模型的推理能力听完今天的太快报感觉我对 AI 的理解又加深了一步

也希望我们的听众朋友们也能有所收获如果你对今天的节目内容感兴趣欢迎在评论区留言或者关注我们的社交媒体账号和我们互动交流感谢大家的收听我们下期开块报再见下期见拜拜