SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution提出SWE-RL框架,利用软件演化数据和强化学习提升LLM在软件工程任务中的推理能力,意外发现可提升通用推理能力。
The FFT Strikes Back: An Efficient Alternative to Self-Attention提出FFTNet框架,用快速傅里叶变换替代自注意力机制,实现O(n log n)复杂度的全局token混合,提升长序列处理效率。
Unveiling and Causalizing CoT: A Causal Perspective从因果关系视角审视思维链推理,提出结构因果模型和CauCoT算法,提升CoT推理的因果性和可解释性。
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning提出思考最优扩展TOPS策略,让LLM根据任务难度动态调整CoT长度,实现效率与效果兼顾的推理时计算扩展。
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning提出TEXTGAMES基准评测,用文本谜题游戏评估LLM推理能力,发现模型在复杂逻辑推理方面仍有不足,推理优化模型优于指令跟随模型。