We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:思维链压缩、事实漂移与激活引导

AI前沿:思维链压缩、事实漂移与激活引导

2025/2/25
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小爱
Topics
小爱: 我对最近AI模型效率提升的研究进展进行了总结,主要关注五篇论文:LightThinker, SIFT, 神经定理证明器中的激活引导, DReSD, 和f-distill。LightThinker通过动态思维压缩,减少冗余步骤,提高效率并保持准确性。SIFT利用Sticker机制解决事实漂移问题,提升推理准确性。激活引导技术则通过引导向量,引导模型进行结构化推理,提高定理证明性能。DReSD采用稠密检索提升推测性解码的效率。最后,f-distill利用F散度分布匹配,优化单步扩散模型的蒸馏过程,提升图像生成质量和效率。这些研究都为提升AI模型效率提供了新的思路和方法,降低资源消耗,促进AI技术落地应用。 小T: 我同意小爱的观点,这几篇论文确实代表了AI模型效率提升研究的最新进展。LightThinker的动态压缩方法非常巧妙,它借鉴了人类认知的机制,这为AI技术创新带来了新的灵感。SIFT提出的Sticker机制也很有创意,它有效地解决了事实漂移问题,提高了模型的推理准确性。激活引导技术则为神经定理证明器带来了性能提升,这在形式化推理领域具有重要意义。DReSD通过稠密检索提升了推测性解码的效率,这对于加速大语言模型的文本生成具有重要意义。最后,f-distill框架为单步扩散模型的蒸馏提供了一种更通用的方法,提升了图像生成的质量和效率。总的来说,这些研究都为AI模型的效率提升做出了贡献,推动了AI技术的发展。

Deep Dive

Shownotes Transcript

听众朋友们大家好欢迎收听最近一期的太快报我是主持人小爱大家好很高兴又和大家见面了小 T 今天我们要聊点什么新鲜的 AI 研究进展呢感觉最近 AI 领域的新论文是层出不穷是的最近一段时间 AI 领域尤其是大元模型相关的研究非常活跃今天我们就来聚焦一个非常重要的方向如何让 AI 模型跑得更快效率更高

我精选了几篇最新的论文都是关于提升 AI 模型效率的保证让大家耳目一新听起来就很棒现在大家都在说 AI 模型越来越强大但是好像也越来越烧钱训练和使用成本都非常高如果能提升效率那真的是太好了你说的非常对所以今天的太快报我们就来聊聊 AI 大脑的提速秘诀看看最新的研究人员们都想了哪些妙招

那就赶紧开始吧我已经迫不及待想了解了好的我们先来看第一篇论文它的名字很有意思叫做 Light Thinker 逐步压缩思考过程压缩思考过程这听起来有点像我们人类在学习新东西

就像我们解数学题草稿纸上写满了密密麻麻的算式

是的 light thinker 这项研究就想解决这个问题他们提出了一种叫做动态思维压缩的方法简单来说就是在模型推理的过程中把那些冗余的不太重要的思考步骤压缩掉只保留关键信息怎么压缩呢 AI 模型也能像我们人类一样自己判断哪些是重点哪些是可以忽略的吗

这就是 LightThinkers 的创新之处他们设计了一种特殊的机制让模型学习何时以及如何进行压缩模型会把一些连续的思考步骤压缩成几个特殊的代钥 tokens 你可以理解为思维的精华摘要然后模型就可以丢弃那些原始的冗长的推理链大大减少需要处理的信息量听起来有点像提档切领的感觉

那压缩之后模型的推理能力会下降吗这是大家肯定会关心的问题实验结果表明 LightThinker 在大幅降低计算成本的同时还能保持相当的准确率甚至在某些情况下只下降了 1%左右更厉害的是他们还发现使用了 LightThinker 的模型生成的 tokens 数量反而减少了这意味着推理速度更快了

哇 那真的是一举多得既节省了资源又提高了效率还能保证效果这项研究有什么创新点呢 LightTinker 的创新点有很多比如他们首次提出了动态思维压缩这个概念借鉴了人类认知心理学的研究他们还设计了基于概要 tokens 的压缩方

以及相应的注意力机制让模型能够更好地进行上下文感知的压缩更值得一提的是他们还提出了一个新的指标叫做依赖性用来衡量不同压缩方法的压缩程度听起来这项技术很有潜力感觉以后我们用 AI 模型可以又快又省了

是的 LikeThinker 为提升大语言模型的推理效率提供了一个新的方向它告诉我们动态压缩中间推理步骤是解决模型效率瓶颈的一个有效途径而且这项研究也启发我们从人类认知机制中寻找灵感

可以为 AI 技术创新带来很多惊喜感觉 AI 真的越来越像人脑一样思考了接下来我们再来看看第二篇论文吧题目是 Sift 通过 Sticker 将大语言模型推理扎根于上下文中这个 Sticker 是什么意思贴纸吗这里的 Sticker 可以理解为标签或者标记这篇论文关注的是大语言模型推理过程中的一个常见问题他们称之为事实飘移也就是 Fact Drift

事实飘移听起来有点抽象你可以想象一下有时候我们跟别人聊天说着说着就跑题了或者误解了对方的意思大语言模型也可能出现类似的情况即使模型的逻辑推理步骤是正确的但如果他一开始就误解了上下文的关键信息那最终的答案肯定也是错的

这就是事实飘移明白了就像理解错了题目的意思后面做的再认真也是白搭是的 SIFT 这项研究就是为了解决这个问题他们提出了一个叫做 Stick to the facts 也就是 SIFT 的框架意思是紧贴事实核心思想是在模型推理的时候给它贴上一些 sticker 也就是关键上下文事实的摘要

来帮助模型更好地理解上下文,防止事实飘移。那这些 Sticker 是怎么生成的呢?谁来给模型贴 Sticker 呢?有趣的是,这些 Sticker 是模型自己生成的 Sift 框架包含一个迭代优化的过程。首先,模型自己生成一些关键上下文事实的摘要作为 Sticker,然后模型会基于这些 Sticker 进行推理预测。

如果模型发现只看 sticker 推理的结果和同时看 sticker 和原始问题推理的结果不一样就说明模型可能对上下文理解有偏差需要优化 sticker 听起来有点像自省和修正的过程模型自己检查自己理解对不对不对就微调是的你可以这么理解 Safe 框架通过迭代的生成和优化 sticker 来显示的将模型推理过程锚定在正确的上下文信息上

实验证明,在多个大语言模型和基准测试中,使用 SIFT 都能显著提升推理性能,尤其是在一些高难度的数学推理任务上,效果非常明显。这项研究的创新点在哪里呢?SIFT 的创新点在于它首次提出了适时飘移这个问题,并设计了 Sticker 这种新的机制来解决这个问题。

它是一种无需额外训练的推理式方法,非常高效使用,而且它还可以和现有的自洽性也就是 self-consistency 方法结合使用,进一步提升性能。感觉这个 sticker 就像一个定海神针让模型在推理的时候不跑偏。很形象的比喻,SIFT 这项研究告诉我们,即使是大语言模型,也可能因为对上下文信息的理解偏差而导致推理失败。

提升模型上下文理解能力仍然是未来研究的重要方向嗯嗯理解对了才能做对这个道理 AI 也适用接下来我们看第三篇论文神经定理证明器中的激活引导这个听起来更专业了什么是神经定理证明器什么是激活引导

定理证明可以理解为数学证明题神经定理证明器就是用神经网络来做数学证明题这项研究关注的是如何让大语言模型更好地进行定理证明 AI 也能证明数学题了听起来好厉害

是的,现在 AI 在形式化推理方面也取得了很多进展,但是研究人员发现大语言模型在定理证明中虽然能够预测出正确的解题策略,但是很难在众多策略中选出最佳的。

这就像我们知道有好几种方法可以解题但是不知道哪个方法最快最有效明白了就像选择困难症那激活引导又是怎么回事呢激活引导也就是 activation steering 是一种在模型推理时引导模型行为的技术你可以把模型的激活理解为模型内部的神经元活动状态激活引导就是通过人为的微调这些神经元的活动来影响模型的输出结果

听起来有点像人为干预模型思考过程可以这么理解在这项研究中研究人员提出了一种新的方法来构建引导向量他们用自然的提示和合成的提示让模型分别进行推理然后对比这两种情况下模型内部的激活差异计算出一个引导向量这个引导向量就代表了结构化推理的方向结构化推理是什么意思

你可以理解为更有条理更符合逻辑的推理方式在定理证明中结构化推理非常重要研究人员利用 GBT-4 的 step-back reasoning 也就是回溯推理能力生成合成提示

显示的将核心数学原理和结构化推理融入提示中然后他们用这个引导向量来引导模型让模型在推理时更倾向于进行结构化推理那效果怎么样呢激活引导真的能提高定理证明的成功率吗实验结果表明激活引导方法在 Mini F2F 基准测试中显著提高了策略预测的准确率尤其是在于 Best First Search

也就是最佳优先搜索等解码策略结合使用时效果更佳这说明激活引导能够引导搜索过程朝着更有希望的证明方向发展这项研究的意义是什么呢这项研究首次将激活引导技术应用于神经定理证明器为提升大语言模型在形式化推理任务中的性能提供了一种新的思路而且激活引导是一种轻量级的推理时方法

感觉就像给 AI 模型装了一个导航仪引导它朝着正确的方向前进

是的,激活引导提供了一种轻量及可控的方式来引导模型的行为,为未来的模型优化和定制化应用开辟了新的道路。听起来很有意思,接下来我们再看看第四篇论文,D.R.E.S.D.面向推测性解码的稠密检索,推测性解码又是什么新概念?

推測性解碼 也就是 Speculative Decoding 是一種加速大語言模型生成速度的技術我們知道大語言模型生成文本是一個 token 接一個 token 的過程 速度比較慢推測性解碼的核心思想是 先用一個小模型 草稿模型快速預測生成多個 tokens 然後再用大模型驗證模型 驗證這些 tokens 是否合理

如果大部分 token 都是合理的就可以一次性接收多个 token 从而加速生成过程听起来有点像先打草稿再精修的感觉是的 非常形象这项研究关注的是检索式推测解码也就是用检索的方法来生成草稿 token 目前主流的方法是吸收检索也就是 sparse retrieval 它基于关键词的精确匹配来检索相似的 token 序列

吸疏解锁听起来好像有点死板,只看关键词匹配会不会不够灵活你说的很对,这篇论文就提出了一个新的框架叫做 Dresd 全称是 Dense Retrieval for Speculative Decoding 也就是面向推测性解码的稠密解锁他们用稠密解锁,也就是 Dense Retrieval 来替代传统的吸疏解锁稠密解锁和吸疏解锁有什么区别呢?

稀疏检索基于关键词的精确匹配只关注字面上的相似性忽略了语义信息而稠密检索则基于上下文 token 的嵌入向量通过计算向量之间的语义相似度来检索你可以理解为稀疏检索就像是字面一词搜索而稠密检索更像是语义理解搜索感觉稠密检索好像更智能更能理解句子的真正含义

是的,DIESD 的核心思想就是利用语义相似性检索,可以克服稀疏检索基于精确匹配的局限性,从而提高推测解码的效率。

实验表明与吸收检索方法相比 DIESD 平均实现了更高的接受率更长的接受 token 长度和更快的生成速度那稠密检索会不会计算量很大反而更慢呢这是一个很好的问题稠密检索的计算量确实比吸收检索大

但是研究人员发现大语言模型的隐藏状态其实有很多冗余信息他们可以通过降维等方法在不损失太多性能的前提下显著降低稠密检索的计算成本

而且,实验结果表明,DLESD 最终的生成速度还是比吸疏检索方法更快。这项研究的创新点和意义是什么呢?DLESD 首次将重密检索有效应用于推测解码位检索式推测解码开辟了新的路径。

它证明了基于语义相似性的检索在推测解码中可以优于传统的基于精确匹配的检索方法这项研究也深入分析了影响重密检索推测解码性能的关键因素为未来研究提供了重要的指导

感觉 AI 模型不仅要跑得快还要理解的更深才能更高效是的 DRESD 这项研究告诉我们更智能的检索方式可以带来更高效的推测解码最后我们再来看第五篇论文基于 F 散度分布匹配的一步

扩散模型这个题目感觉更高深莫测了什么是扩散模型什么是 F 反度扩散模型也就是 Diffusion Models 是最近几年非常火的一种生成模型尤其在图像生成领域效果非常惊艳你可以把扩散模型理解为一个逆向加造的过程它先给一张清晰的图片逐步加造变成完全的噪声然后再学习如何从噪声中逐步去造恢复成清晰的图片

听起来有点像画幅秀为神奇是的 扩散模型生成的图像质量非常高但是采样速度比较慢需要很多步迭代才能生成一张图片为了加速生成速度研究人员提出了一步扩散模型也就是一步到位直接从噪声生成清晰图片一步到位 那怎么保证生成质量呢

一步扩散模型通常需要用到蒸馏也就是 distillation 技术也就让一个小的小的学生模型学习一个大的教师模型的生成能力这项研究关注的是如何更好的进行蒸馏他们提出了一个新的框架叫做 F distill 核心思想是 F 散度分布匹配散度分布匹配又是什么意思 F 散度是什么散度也就是 divergent

可以理解为衡量两个概率分布之间差异程度的指标 F 散度是一类通用的散度函数包括很多种具体的散度比如 KTEL 散度 JS 散度等等分布匹配的意思就是让学生模型生成的数据分布尽可能的接近教师模型的数据分布明白了 就是让学生学得更像老师那 FDSTO 的创新之处在哪里呢

之前的蒸馏方法大多使用反向 KL 散度来进行分布匹配但是反向 KL 散度有一些局限性 FDSTO 框架的创新之处在于它使用了更通用的 F 散度来进行分布匹配这样可以选择更多种类的散度

从而在生成质量和训练稳定性之间取得更好的平衡。不同的 F 散度会有什么不同的效果吗?是的,研究人员分析了不同 F 散度的特性,比如反向 KL 散度倾向于模式寻求也就是 Mode-setting,生成的样本比较集中,但方差较低,而前向 KL 散度则倾向于模式覆盖,也就是 Mode-covering 生成的样本,更多样化,但方差较高,Genshin-en,

Shannon 散度则在这两者之间取得了一个平衡实验结果表明使用 Jensen-Shannon 散度的 F-distill 在图像生成任务中表现最好取得了这项研究的意义是什么呢 Y-distill 框架为单步扩散模型蒸馏提供了一个更通用的理论框架和方法它告诉我们选择合适的 F 散度可以更好地控制模型的生成特性提升生成质量和效率

这项研究也推动了单步扩散模型的发展让高质量的图像生成变得更快更高效感觉今天的几篇论文都是在想方设法提升 AI 模型的效率让 AI 更快更智能是的效率是当前 AI 研究的一个非常重要的主题随着模型越来越大计算成本也越来越高如何提升模型效率降低资源消耗让 AI 技术更好的落地应用就变得越来越重要

今天我们介绍的这几项研究都从不同的角度为解决这个问题提供了新的思路和方法听完今天的太快报感觉对 AI 的未来发展更有信心了感谢小 T 的精彩解读不客气也很高兴能和大家分享最新的 AI 研究进展希望今天的节目能让大家对 AI 技术有更深入的了解听众朋友们感谢收听本期太快报我们下期再见下期见拜拜