[CL] When More is Less: Understanding Chain-of-Thought Length in LLMs 论文颠覆了思维链推理中“越长越好”的传统认知,揭示了思维链长度与准确率之间存在U型关系,并指出存在最优CoT长度,该长度受模型能力和任务难度影响。论文提出了“长度过滤投票”方法,并强调训练数据中CoT长度分布对模型性能至关重要。
[LG] Curvature Tuning: Provable Training-free Model Steering From a Single Parameter 论文提出了曲率调整 (CT) 方法,一种无需训练的模型操控技术,仅通过单参数 β 调整模型决策边界曲率,即可显著提升模型的泛化性和鲁棒性。CT方法高效、可解释,为模型操控提供了新思路。
[LG] LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! 论文发现大语言模型从演示中学习推理能力,关键在于学习长链思考 (Long CoT) 的结构而非内容。即使使用内容错误的演示数据,只要结构正确,模型仍能有效学习推理。论文验证了少量Long CoT数据和参数高效微调方法 (LoRA) 在推理学习中的有效性。
[LG] Monte Carlo Tree Diffusion for System 2 Planning 论文提出了蒙特卡洛树扩散 (MCTD) 框架,将扩散模型的生成能力与蒙特卡洛树搜索 (MCTS) 的迭代搜索能力相结合,实现了AI的“系统2”式规划能力。MCTD通过“降噪作为树形展开”、“指导级别作为元动作”等技术,显著提升了长时程规划任务的性能和测试时计算可扩展性。
[LG] Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension 论文提出了基于结构化 Fisher 信息矩阵 (FIM) 近似的优化器设计框架,并基于此框架设计了内存高效优化器 RACS 和 Alice。实验表明,Alice 优化器在LLM预训练中实现了超过 2 倍的加速,RACS 具有极高的内存效率,为LLM高效优化器设计提供了新方法。