听众朋友们 另一期太快报就和大家见面啦我是小爱大家好 我是小 T 最近 AI 领域又涌现了一批非常有意思的研究今天我们就来一起看看 AI 在推理能力上又有哪些新的突破
推理能力听起来就很厉害上次我们聊了 AI 的可靠性这次的推理又有什么特别之处呢简单来说推理就是 AI 像人一样思考问题解决问题的能力这次我们选的这几篇论文都聚焦于如何让 AI 的推理更高效更强大也更符合人类的思考方式听起来很棒那我们先从哪篇开始解码呢我们先从第一篇开始吧它的题目就很有意思叫多计是少关于
大语言模型思维链长度的思考多即是少这标题听起来就有点反直觉是它挑战了我们一个长的认知我们通常认为 AI 在进行思维链也就是 COT 推理时推理步骤越多也就是思维链越长效果应该越好对一步一步推理感觉更严谨更不容易出错但这篇文章的研究却发现事实并非如此
他们通过实验发现思维链的长度和 AI 的准确率之间其实是一种 U 型关系 U 型关系怎么理解呢就是说刚开始增加思维链的长度确实可以提高 AI 的性能但当思维链超过某个最优长度后再继续增加长度反而会导致性能下降不会吧推理步骤越多反而越容易出错是的
原来如此,那这个最优长度是固定的吗?
这一路长度会受到模型自身能力和任务难度的影响,能力更强的模型可能更适合较短的思维链,而更难的任务可能需要稍长的思维链,但长度也是有上限的。就像不同的人擅长不同长度的思考方式,不同的问题,也需要不同深度的思考。
是的作者还提出了一种新的推理方法叫做长度过滤投票简单来说就是 AI 生成多个不同长度的思维链然后根据长度和一些其他指标选出最合适的答案感觉就像给 AI 的思考过程加了一个刹车和方向盘让它可以更好的控制思考的长度和方向可以这么理解这篇文章告诉我们在思维链推理中不是越长越好而是要找到一个恰到好处的长度嗯
感觉 AI 的推理也需要讲究适可而止,不能贪多,脚不烂。接下来我们看看第二篇论文,题目是曲率调整,从单一参数出发的可证明免训练模型操控。这个题目听起来就很黑科技。这篇文章确实很厉害,它提出了一种无需训练就能操控 AI 模型的新方法,叫做曲率调整,Curator Tuning,也就是 CD。
无需训练这怎么可能 AI 模型不是都需要大量数据和算力来训练吗传统的 AI 模型操控方法比如微调 fine tuning 确实需要大量的训练数据和计算资源但这篇文章提出的曲率调整方法完全不需要额外的训练只需要调整一个参数就能实现对模型的操控只调整一个参数就能操控模型这也太神奇了吧是的这个参数叫做β
它控制着模型决策边界的曲率你可以把模型的决策边界想象成一个分界线区分不同类别的输入数据调整曲率就是调整这条分界线的形状从而改变模型的行为曲率听起来有点抽象能用更形象的例子解释一下吗
你可以想象一下你在用橡皮泥捏一个模型曲率调整就像是你不用重新塑造整个模型只需要轻轻的弯曲一下模型的某个部分就能改变模型的整体形状和功能原来如此那这个曲率调整有什么好处呢好处非常多首先效率非常高因为它不需要训练只需要调整一个参数速度非常快其次可解释性更强因为我们可以直接通过调整参数来控制模型的行为
而不是像黑箱微調那樣不知道模型內部發生了什麼變化最重要的是實驗證明曲率調整可以顯著提高模型的泛化性和魯邦性泛化性和魯邦性是指模型在新數據上的表現更好更不容易受到干擾嗎
是的比如用曲率调整后的模型在不同的数据集和任务上的表现都更好对抗攻击和数据损坏的抵抗能力也更强感觉就像给模型做了一个快速升级而且还绿色环保不需要额外消耗算力
是的,这项技术非常有潜力,它为我们提供了一种高效可解释且无需训练的模型操控新方法。听起来真是太棒了,接下来我们看看第三篇论文,大语言模型从演示学会推理,关键是结构而非内容。这篇论文的题目也很直接,强调了结构而非内容。这篇文章的核心观点非常颠覆性,它说大语言模型从演示中学习推理能力,
关键在于学习结构而不是内容结构而非内容这又是什么意思你可以把推理过程想象成一个故事内容就是故事里的具体情节人物细节等等而结构就是故事的框架逻辑因果关系等等这篇文章的意思是说大语言模型学习推理能力更重要的是学习故事的框架而不是故事的具体情节学习框架比学习情节更重要这听起来有点不可思议
是,我们通常认为学习推理肯定要学习正确的知识和信息,也就是内容才对。但这篇文章的作者通过实验发现,即使给 LLM 看一些内容错误的推理演示,只要结构是正确的,大语言模型仍然可以学会推理。内容错误也能学会推理?举个例子呢?比如他们用一些答案错误的数学题解题步骤来训练大语言模型,
结果发现即使解题步骤里的数字是错的但只要解题的逻辑框架是正确的大语言模型仍然可以学会正确的解题方法这也太神奇了吧难道 LLM 只看套路不看细节可以这么理解这篇文章还发现 LLM
m 只需要少量的高质量常练思考 long cot 演示数据就能高效的去学习推理能力而且他们用参数高效微调方法 laura 就能达到很好的效果不需要全量微调常练思考我们前面也提到过就是推理步骤比较多的那种 laura 又是啥 laura 是一种参数高效微调技术
他只需要微调模型少量参数就能达到和全量微调差不多的效果非常节省计算资源这篇文章用实验证明用少量的数据和参数就能让 LLM 学会复杂的推理能力而且关键在于演示数据的结构而不是演示数据的内容感觉就像学武功学会了招式比记住口诀更重要是的有点这个意思这篇文章告诉我们训练 LLM
是的
这篇文章借鉴了心理学中的双系统理论,双系统理论认为人类的思维有两种模式,系统一是快速直觉的,系统二是缓慢、有益的。这篇文章研究的是如何让 AN 模型具备系统二式的规划能力。系统二式的规划能力是指像人类一样深思熟虑、有计划的解决问题的能力吗?
是的 传统的 AI 规划方法 比如扩散模型虽然生成能力很强 但缺乏迭代优化和试错能力更偏向于系统意识的快速生成 难以处理复杂的长时程的规划任务这篇文章提出了一种新的框架 叫做蒙特卡洛数扩散 Multicolor Tree Diffusion
MCTD 将扩散模型和蒙特卡洛数搜索 MCTS 结合起来让 AI 模型同时具备生成能力和搜索能力从而实现系统二式的规划蒙特卡洛数搜索听起来有点耳熟是不是朵也用过类似的技术是的 MCTS 是一种经典的搜索算法它通过模拟和评估在巨大的搜索空间中找到最优的解决方案
这篇文章巧妙地将 MCTS 和扩散模型结合起来,扩散模型负责生成可能的规划方案,MCTS 负责搜索和优化这些方案。感觉就像给扩散模型装上了一个大脑,让它可以像人一样思考和规划。可以这么理解,MCTD 的核心思想是将降噪过程重新理解为竖形结构的展开,
你可以把扩散模型的降噪过程想象成一个反向生成的过程从随机噪声逐渐生成清晰的图像或轨迹 mctd 将这个降噪过程变成一个竖形搜索的过程每一步降噪都对应着竖的一个节点 AI 可以在竖上进行搜索和探索找到最优的规划路径听起来有点复杂但感觉很厉害的样子那
MCT 有什么优势呢?MCTD 的优势非常明显首先它显著提升了规划的性能特别是在长时程、复杂任务上比如迷宫导航、机械臂操作等等其次它提高了测试时计算可扩展性 TGC scalability
就是说随着计算资源的增加 MCT 的性能可以持续提升而传统的扩散模型规划器性能提升很快就会饱和测试时计算可扩展性市值给 AI 更多的时间和算力它就能做得更好
是的,MCTD 让 AI 模型可以更好地利用增加的计算资源进行更深入的搜索和优化,从而找到更优秀的规划方案。这篇文章将扩散模型的生成能力和 MTS 的搜索能力完美结合为 AI 的系统二规划能力发展,提供了一个非常有前景的方向。感觉 AI 的规划能力也越来越像人类了,可以进行更复杂更长远的思考。
最后我们来看看第五篇论文通过基于低质扩展的结构化 Fisher 近似实现 LLM 高效优化器设计这篇论文的题目感觉充满了优化的味道是的这篇文章关注的是如何更高效的训练大型语言模型我们都知道训练 LLM 需要大量的计算资源和时间其中优化器的效率至关重要这篇文章提出了一种新的优化器设计框架
基于结构化 Fisher 信息矩阵 FIM 近似优化器和 Fisher 信息矩阵这又是一些听起来很专业的名词优化器你可以理解为训练 AI 模型的指挥家它指导模型参数的更新方向和步长让模型尽快达到最优状态 Fisher 信息矩阵 FIM 是一个用来衡量模型参数重要性的工具
这篇文章的核心思想是通过对 FIM 进行结构化近似设计,更高效的优化器。结构化近似是指简化 FIM 的计算吗?是的,直接计算 FIM 非常复杂,计算量很大。这篇文章提出通过对 FIM 施加一些结构化假设,可以简化 FIM 的计算,从而设计出更高效的优化器。
他们还证明,很多现有的优化器,比如 Adam Shampoo 等等,其实都可以看作是在不同结构假设下对 FM 进行近似的解。原来现有的优化器背后还有这么深刻的理论联系。是的,这篇文章为优化器设计提供了一个统一的理论视角。基于这个理论框架,作者提出了两个设计建议并设计了两种新的优化器。
第五个优化器叫做行列缩放 SGD-OR-ACS 它非常内存高效
内存占用和最基础的 SCD 优化器差不多但性能却更强第二个优化器叫做自适应低维子空间估计 Alice 它是 Adam 优化器的低质扩展版本收敛速度非常快比 Adam 快两倍以上低质扩展又是什么意思低质扩展是一种降低计算复杂度的技术简单来说就是把一个高维的矩阵用低维的矩阵来近似表示从而减少计算量和内存占用
ALICE 优化器就是通过低质扩展在保证性能的同时显著降低了内存和计算成本听起来就像给优化器也做了个瘦身让它更轻量级跑得更快是的 RCS 和 ALICE 这两种新的优化器不仅内存效率更高而且性能也更强可以在 LLM 预训练中实现更快的收敛速度和更好的最终性能
这篇文章告诉我们精心设计的内存高效优化器不仅可以节省资源还能提升训练效率和模型性能听完这五篇论文的解读感觉 AI 的研究真是越来越深入越来越精细了从优化推理的长度到操控模型的曲率再到设计更高效的优化器感觉 AI 正在变得越来越聪明也越来越高效是的
这五篇论文都代表了 AI 研究的一些重要趋势第一篇论文告诉我们推理并非越长越好要追求恰到好处的长度第二篇论文展示了无需训练也能操控模型的强大技术第三篇论文揭示了推理学习的关键在于结构而非内容第四篇论文探索了如何让 AI 具备系统二式的复杂规划能力第五篇论文则致力于设计更高效的优化器加速 LLM 的训练
感觉今天的太快报又为我们打开了 AI 世界的新窗口,让我们看到了 AI 推理的更多可能性。感谢小 T 的精彩分享,也感谢各位听众的收听,我们下期再见。下期见,拜拜。