We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:从数学推理到记忆注入

AI前沿:从数学推理到记忆注入

2025/5/2
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive Transcript
People
小T
小爱
Topics
小爱:我发现通过巧妙的训练方法,例如四阶段训练法(大规模蒸馏、微调、偏好优化、强化学习),即使是只有38亿参数的小型语言模型,也能在数学推理方面超越参数量更大的模型。这颠覆了我们以往的认知,也为资源受限的场景(如手机、边缘设备)的AI应用带来了新的可能性。此外,我还发现,通过调整提示词和温度退火等方法,可以有效解决小型模型训练不稳定问题,并显著提升其在数学竞赛题等高难度任务上的表现。 小T:我同意小爱的观点,小型模型的训练确实需要更系统和更针对性的策略。直接使用少量高质量数据反而可能适得其反,因为小模型需要更广阔的知识基础。此外,我们还需注意,这种训练方法目前主要在数学推理领域得到验证,其在其他领域的有效性还有待进一步研究。同时,训练过程对大模型的依赖性也限制了其在普通团队中的应用。 小爱:我研究了ParamΔ方法,它通过简单的权重差值加法,就能将已训练模型的能力零成本迁移到新的基座模型上,实现模型的快速更新。这对于开发者来说,无疑是一个省时省钱的好消息,也让小团队能够快速跟上最新模型的步伐。不过,这种方法也存在一些局限性,例如模型结构必须相同,且性能会略低于官方版本。 小T:此外,我还研究了模型连接组方法,它受到生物进化的启发,通过构建稀疏先验知识,可以实现数据高效的语言模型学习。这种方法尤其适用于数据稀缺的领域,例如医疗和法律领域。但目前该方法主要在小模型上进行测试,其在大模型上的有效性以及连接组生成的优化方法,都还需要进一步研究。 小爱:关于知识注入和持续学习,我研究了MEGa框架。它通过门控LoRA模块注入事件记忆,可以有效缓解灾难性遗忘问题,并提升模型的持续学习能力。其在虚构人物和维基百科事件数据上的实验结果非常成功,能够回答复杂问题,且几乎不影响模型原有知识。但是,该方法的记忆容量受限于模型参数量,且记忆激活的准确性依赖于关键词匹配的准确性。 小T:最后,我还研究了AdaR1的自适应推理方法。它通过融合长短链思考方式并进行双层训练,可以根据问题的难度自动调整推理策略,在保证准确率的前提下显著减少推理步骤。这对于用户来说意味着AI反应更快,耗电更少;对于开发者来说,则意味着可以节省计算资源和部署成本。但是,AdaR1的训练过程较为复杂,目前也仅在数学推理领域进行测试,其在其他领域的适用性有待进一步研究。

Deep Dive

Shownotes Transcript

本期播客精华汇总

  • Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in MathPhi-4-Mini-Reasoning:探索小型数学推理语言模型的极限通过四阶段训练(大规模蒸馏、微调、偏好优化、强化学习),仅38亿参数的Phi-4-Mini-Reasoning在数学推理上超越70亿-80亿参数模型,揭示小模型需“量体裁衣”的训练策略,反直觉地发现朴素高质量数据可能有害。
  • ParamΔ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost直接权重混合的 ParamΔ:零成本训练后的大型语言模型ParamΔ通过简单权重差值加法,将后训练能力零成本迁移到新基座模型,性能达官方版的95%,为开源社区提供高效模型更新方案,揭示参数空间的代数结构潜力。
  • Model Connectomes: A Generational Approach to Data-Efficient Language Models模型连接组:一种面向数据高效的语言模型的方法受生物进化启发,提出“模型连接组”作为稀疏先验,仅用1亿词数据即可实现高性能语言学习,展现结构先验在数据效率和人脑对齐上的潜力。
  • Memorization and Knowledge Injection in Gated LLMs记忆与门控 LLMs 中的知识注入MEGa框架通过门控LoRA模块注入事件记忆,显著缓解灾难性遗忘,接近RAG性能,展示模块化记忆和内部回忆(iRAG)在持续学习中的前景。
  • AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning OptimizationAdaR1:从长 CoT 到混合 CoT 通过双级自适应推理优化AdaR1通过融合长短CoT模型和双层偏好优化,实现自适应推理,推理长度减半而准确率仅微降,展现“因题施策”的高效推理潜力。

完整推介:https://mp.weixin.qq.com/s/MyQN09CEBe59dbKcL7YEQg