We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从多步骤思考到智能剪枝

2025/4/9

AI可可AI生活

AI Deep Dive AI Chapters Transcript

People

小

小T

Topics

小T: 我认为AI应该学习像人类一样，分步骤地解决复杂问题。以往AI只关注最终答案，而忽略了推理过程。但新的研究表明，关注推理过程比关注结果更重要，即使最终答案错误，但中间步骤合理，AI也能从中学习。这就像教孩子解数学题，不仅关心结果，更关心方法。这种方法，例如SWiRL，通过生成合成数据和强化学习，让AI学会在每一步都做得更好，并在不同任务间通用。未来应用前景广阔，例如智能客服、智能助手和机器人等，但挑战在于生成高质量的合成数据需要强大的初始AI。小T: Retro-Search就像AI的反思过程，优化推理路径，使其更短更高效。它借鉴了下棋中的蒙特卡洛树搜索思路，回顾AI的推理过程，找到更好的路径。它有两个妙招：一是AI自我改进，用自己的优化经验训练自己；二是小模型修正大模型的思路，让大模型推理更清晰。实验表明，小模型可以有效帮助大模型改进，推理时间缩短，准确率提高，挑战了算法重要性不高的观点。但小模型的判断能力至关重要，如果小模型有偏差，会影响大模型。小T: GMflow通过高斯混合流匹配模型，减少图像生成步骤，提高图像质量和色彩自然度。它用高斯混合的方式更准确地模拟噪声分布，只需少量步骤就能生成高质量图片，颜色更自然。这对于设计师、艺术家、虚拟现实和游戏行业等都有应用价值，但方法稍微复杂，需要更多计算资源。小T: SDTP通过动态剪枝冗余Token，加速大型语言模型推理，同时保持性能。它用轻量级模块判断每个词的重要性，然后逐层修剪，减少计算量并提升速度，准确率几乎没降。这对于手机等资源有限的设备上的AI助手有很大帮助，但挑战在于判断重要性的模块需要额外训练，可能增加初期成本。小T: GLM通过门控线性注意力机制，让AI更有效地关注重要信息。它通过数学方法发现不同任务的关键点，然后动态调整权重，在多任务场景下表现更好，更灵活地学习和适应，更像人类的大脑。但目前研究更多是理论分析，实际应用还需要更多测试。表爱: 我同意小T的观点，这些AI前沿研究都非常有意义，它们从不同角度提升了AI的推理能力、效率和性能，为AI的未来发展提供了新的方向和可能性。这些技术在各个领域的应用潜力巨大，值得我们持续关注和研究。

Deep Dive

Chapters

本期节目介绍了步进式强化学习（SWIRL）,通过合成数据和过程优化提升AI多步骤推理能力。研究发现，关注中间步骤比最终结果更重要，这种方法可以提高AI在不同任务间的通用性，应用前景广阔。

SWIRL通过合成数据模拟多步骤推理过程
关注推理过程比最终答案更重要
在不同任务间通用性强
应用前景广阔：智能客服、智能助手、机器人等

Shownotes Transcript

大家好欢迎来到本期的太快报我是表爱很高兴又和大家见面了大家好我是小 T 那我们先来看第一篇好像和 AI 如何像人类一样逐步推理有关这篇论文的名字听起来有点复杂他到底在研究什么

能不能简单说说当然可以这篇论文的核心是让 AI 学会像人类一样分步骤的解决复杂问题比如回答问题或使用工具想象你面对一个难题比如如何计算从北京到上海的火车票价格你不会一下子给出答案而是会先查路线查时间表算距离最后得出结果 AI 过去常常只关注最终答案对不对

但这篇研究提出了一种新方法叫步进式强化学习简称 SWIR 听起来很有意思那 SWIR 具体是怎么工作的

SWOL 有两步第一他用 AI 自己生成一些假数据模拟多步骤的推理过程比如用搜索引擎或计算器查资料逐步推理第二他通过一种叫强化学习的训练方式让 AI 学会每一步都做得更好最有趣的是他们发现训练 AI 关注每一步的推理过程比只看最终答案更重要比如

即使最后答案错了但中间步骤很合理 AI 也能从中学习哇这有点反直觉我们平时不都觉得结果最重要吗对这就是研究的一个亮点他们实验发现只过滤出过程合理的数据效果比只挑结果正确的数据更好

这就像教孩子解数学题你不仅关心他算对没算对更关心他有没有用对方法研究还证明这种方法让 AI 在不同任务间也能通用比如在问答任务上训练过的 AI 拿来做数学题也能表现不错那这种方法将来能用在什么地方呢应用前景很广比如智能客服可以一步步帮你解决复杂问题或者智能助手可以帮你规划

旅行做预算甚至未来的机器人可能用这种方法更聪明地使用工具但挑战是生成高质量的假数据需要强有力地初始 AI 如果初始 AI 不行效果可能会打折扣听起来 AI 离像人一样思考又近了一步我们继续看下一篇吧第二篇论文提到 RetroSearch

听起来像是在回头看什么,它的主要点是什么?没错,Retro Search 就像是一个反思的过程,帮 AI 优化它的推理路径想象你写了一篇作文,回头发现有些地方啰嗦或思路不对,就重新调整 AI 有时候也会犯类似错误,要么思考不够深浅思考,要么想了太多过度思考

Retro Search 借鉴了下棋中的蒙特卡洛数搜索思路回顾 AI 的推理过程找到更好的更短的路径这听起来很高效那他怎么做到短而优的 Retro Search 有两个妙招第一他让 AI 自我改进用自己的优化经验在训练自己

第二,它让一个小模型去修正大模型的思路,比如一个小 AI 可以帮大 AI 挑错,让大 AI 的推理更清晰。他们实验发现一个 7 亿参数的模型通过这种方法,不仅推理时间缩短了 31%准确率,还提高了 7.7%。这也太聪明了,但会不会有风险?比如小模型判断错了。

这是个好问题,确实 Retro Search 的成功依赖于小模型的判断能力。如果小模型本身有偏差,可能影响大模型。但研究证明这种弱到强的合作方式很有效,也挑战了算法进度不重要的观点表明,即使是大模型,也需要巧妙的算法支持。那这种方法将来能用在哪里?

第三篇好像和生成图片有关名字里还有高斯混合什么的听起来很学术

是的这篇研究是关于让 AI 更快更好生成图片的技术他提出了一种新方法叫高斯混合流匹配模型简称 GMflow

简单来说以前的 AI 生成图片时假设噪声分布是单一的原型模式但现实更复杂像一对不同大小的气泡 GMflow 用气泡混合的方式更准确地模拟噪声分布用气泡来比喻很形象那它具体怎么提升生成效果 GMflow 的核心是让 AI 预测这些气泡的参数

然后用数学公式计算出每一步的过渡这样 AI 只需要少量步骤就能生成高质量图片比如在一个叫 ImageNet 里的图片库里用 6 步就能达到很高的精度 32 步几乎完美颜色也更自然不会出现以前长的过饱和问题这对设计师或艺术家是不是很有用

绝对有用,未来设计师可以用这种技术快速生成草图或概念图节省时间甚至虚拟现实或游戏行业也能用它创建更真实的场景但缺点是方法稍微复杂了点,需要更多计算资源调优第四篇提到 Token 减肢,听起来像是在修剪 AI 的头发

形象的比喻其實 token 是 AI 處理語言時的基本單位比如一句話裡的每個詞大型語言模型處理長文本時計算量很大想拖著沉重的行李走路這篇研究提出了一種動態減支方法叫 SDTP 它會判斷哪些詞不重要就減掉只保留關鍵部分

减掉后 AI 还能正常工作吗?他们用一个轻量级的模块判断每个词的重要性然后逐层修剪实验证明减掉 65%的词后 AI 的计算量减少了 33%到 47%速度快了近两倍但准确率几乎没降

这就像你收拾行李只带必需品旅途更轻松这对手机上的 AI 助手会不会有大帮助对手机资源有限 SDTP 能让 AI 更快响应比如语音助手或翻译软件但挑战是判断重要性的模块需要额外训练可能增加初期成本最后这篇好像在研究 AI 的注意力机制门控是什么对这篇研究了门控线性注意力简称 GLM

GLA 是一種讓 AI 更聰明的關注重要信息的機制想像你在聽課老師講到重點時你會特別注意 GLA 通過門控機制像開關一樣決定哪些信息更重要哪些可以忽略那它和以前的注意力機制有什麼不一樣

以前的注意力机制有点平均用力但 GLA 更聪明它通过数学方法发现不同任务的关键点然后动态调整权重研究还证明 GLA 能让 AI 在多任务场景下表现更好比如同时处理问答和翻译

这会不会让 AI 更像人类的大脑有点像它让 AI 更灵活地学习和适应但目前研究更多是理论分析实际应用还是更多测试今天的分享真是满满干货感谢小 T 的精彩讲解也感谢大家的收听下期太快报再见谢谢大家的陪伴下期见拜拜

AI前沿：从多步骤思考到智能剪枝 07:13 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从多步骤思考到智能剪枝