We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从数学推理到记忆注入

2025/5/2

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

小

小爱

Topics

小爱：我发现通过巧妙的训练方法，例如四阶段训练法（大规模蒸馏、微调、偏好优化、强化学习），即使是只有38亿参数的小型语言模型，也能在数学推理方面超越参数量更大的模型。这颠覆了我们以往的认知，也为资源受限的场景（如手机、边缘设备）的AI应用带来了新的可能性。此外，我还发现，通过调整提示词和温度退火等方法，可以有效解决小型模型训练不稳定问题，并显著提升其在数学竞赛题等高难度任务上的表现。小T：我同意小爱的观点，小型模型的训练确实需要更系统和更针对性的策略。直接使用少量高质量数据反而可能适得其反，因为小模型需要更广阔的知识基础。此外，我们还需注意，这种训练方法目前主要在数学推理领域得到验证，其在其他领域的有效性还有待进一步研究。同时，训练过程对大模型的依赖性也限制了其在普通团队中的应用。小爱：我研究了ParamΔ方法，它通过简单的权重差值加法，就能将已训练模型的能力零成本迁移到新的基座模型上，实现模型的快速更新。这对于开发者来说，无疑是一个省时省钱的好消息，也让小团队能够快速跟上最新模型的步伐。不过，这种方法也存在一些局限性，例如模型结构必须相同，且性能会略低于官方版本。小T：此外，我还研究了模型连接组方法，它受到生物进化的启发，通过构建稀疏先验知识，可以实现数据高效的语言模型学习。这种方法尤其适用于数据稀缺的领域，例如医疗和法律领域。但目前该方法主要在小模型上进行测试，其在大模型上的有效性以及连接组生成的优化方法，都还需要进一步研究。小爱：关于知识注入和持续学习，我研究了MEGa框架。它通过门控LoRA模块注入事件记忆，可以有效缓解灾难性遗忘问题，并提升模型的持续学习能力。其在虚构人物和维基百科事件数据上的实验结果非常成功，能够回答复杂问题，且几乎不影响模型原有知识。但是，该方法的记忆容量受限于模型参数量，且记忆激活的准确性依赖于关键词匹配的准确性。小T：最后，我还研究了AdaR1的自适应推理方法。它通过融合长短链思考方式并进行双层训练，可以根据问题的难度自动调整推理策略，在保证准确率的前提下显著减少推理步骤。这对于用户来说意味着AI反应更快，耗电更少；对于开发者来说，则意味着可以节省计算资源和部署成本。但是，AdaR1的训练过程较为复杂，目前也仅在数学推理领域进行测试，其在其他领域的适用性有待进一步研究。

Deep Dive

Shownotes Transcript

大家好欢迎收听太快报我是小爱大家好我是小 T 很高兴我们又见面了第一篇论文 Picture for Mini-ReasoningExploring the Limits of Small Reasoning Language Models in Math 让我很好奇标题里说小型推理语言模型听起来像是 AI 界的小个子选手它是怎么在数学这种硬核领域发力的

对,pH4 mini reasoning 就是个小而强的典型,这篇论文挑战了一个观念小模型因为参数少,推理能力天生不行研究团队设计了一套四步训练法,让一个只有 38 亿参数的小模型在数学推理上打败了 70 亿、80 亿的大模型简单说,他们先用大模型生成大量解题步骤数据,像老师教学生一样,手把手教小模型

然后用高质量数据微调,再通过对错、对比优化,最后用奖励机制,让模型学会挑最优解法。听起来像给小模型上了四堂强化补习班这个训练法有什么特别的?特别的地方在于系统性和针对性,比如他们发现直接用少量高质量数据教小模型反而会让他变笨,因为小模型需要更广的知识基础。

他们还创新性的把训练中产生的错误答案拿来做对比学习相当于让模型从失败中吸取教训最酷的是他们解决了小模型训练不稳定的问题比如通过调整提示词让答案长度更均匀用温度退火控制模型的随机性这些细节让小模型在数学竞赛题上表现惊艳比如在 Math500 测试中比大模型高出好几个百分点哇

这就像一个瘦小的武林高手通过刻苦训练打败大块头那这个成果有什么实际用处用处可大了小模型体积小运行快适合手机边缘设备这种资源有限的场景想象一下学生用平板就能跑一个数学辅导 AI 随时帮你解题还能解释步骤

这不比请家教省钱而且这套训练方法还能用在其他推理任务上比如逻辑分析编程潜力无限有点心动了不过有没有什么不足的地方当然有训练过程依赖一个超强的大老师模型普通团队可能搞不到这样的资源

而且这套方法目前只在数学推理上验证过其他领域能不能同样牛环的再试训练流程也挺复杂附现起来可能的费点劲下一篇文章 ParamDelta for Direct Weight Mixing PostTrain Large Language Model at Zero Cost 听起来像个省钱妙招 ParamDelta 是个啥能让大模型零成本升级

Paradelta 簡直是個魔法公式,它的核心是個簡單到讓人震驚的思路想讓新版大模型學會老版模型的技能,比如指令跟隨、推理能力、不用重新訓練、怎麼做把老版調教好的模型和新版原始模型的權重做個減法得到一個技能差值,然後把這個差值加到新版模型上,完事就像把一個學霸的學習筆記直接抄到新同學的腦子裡,這麼簡單

不会是忽悠吧开始我也觉得太简单了但实验证明它真行比如他们用这个方法把莱玛 3.1 升级后性能达到官方调教版的 95%而且整个过程几乎不用额外计算

論文還發現不同技能的差值在參數空間裡互不干擾,像搭積木一樣可以組合這意味著你可以把一個模型的數學能力另一個模型的對話能力拼到一個新模型上這不就是 AI 界的模塊化升級嗎?對普通人有什麼好處?對開發者來說,省時省錢,大模型更新很快每次都要重新調教成本高的下人 Pyron Delta 讓小團隊也能快速跟上最新模型

对用户来说意味着更快的 AI 更新比如你的聊天机器人能迅速学会新技能回答更精准而且不用换更贵的设备听起来完美有什么短板有两个限制第一模型必须结构相同不然差值没法加第二性能虽然接近官方版但还是有点小差距大概 2%到 5%另外对方法依赖能拿到老模型的完整参数闭元模型可能就玩不转了

三篇 Modal Connectums:A Generational Approach to Data-Efficient Language Models 提到了模型连接组听起来很科幻这是啥?这个确实有点像科幻但灵感来自生物进化论文提出 AI 模型要想学得快用数据少的像人类一样有遗传先天知识他们设计了一个连接组就像模型的基因蓝图具体做法是先在一个大数据集上训练模型逐步减脂掉不重要的连接

留下一个稀疏的结构然后用这个结构初始化新模型只用很少的数据就能学得很好有点像把老祖宗的智慧传给下一代他真的能少用数据吗真的他们在语言任务上测试发现用这个连接组初始化的模型只用一个词的数据就能达到普通模型用更多数据才有的效果比如在理解句子

回答问题上,表现不输甚至超过普通模型。更神奇的是,这个模型学的东西还更像人脑的处理方式,比如预测阅读时间和脑活动都更准。这不就是 AI 版的天赋吗?能用在哪儿?特别适合数据稀缺的场景,比如医疗法律这些领域高质量数据少的可怜。有了连接组模型就像自带基础工,用少量数据就能快速适应新任务。

未來可能還能用在機器人自動駕駛讓他們更快學會新環境聽起來很牛有什麼問題目前實驗主要在小模型上超大模型行不行環的驗證連接組的生成也比較簡單未來可以用更複雜的進化算法優化另外他們的理論解釋還不夠深入連接組為啥這麼有效內部機制還不完全清楚

这四篇《Memorization and Knowledge Injection in Gated LM》让我很好奇标题里的记忆注入是什么 AI 也能像人一样记住故事对,这篇论文想让 AI 有人类式记忆传统 AI 学新东西容易忘老东西叫灾难性遗忘研究团队提出一个叫 Meta 的框架灵感来自人脑的记忆系统

核心是把每段新记忆比如一个故事或事件存到一个独立的记忆模块里用的时候通过门控机制激活相关模块像翻书找到对应章节听起来像给 AI 装了个记忆库具体怎么操作

他們用了一種叫 LORA 的技術,為每段記憶單獨建一個小型參數集模型收到問題時會根據問題的關鍵詞自動匹配相關記憶激活對應的模塊比如你問一個虛構人物的故事,模型會回憶那段故事的細節來回答他們還設計了內部 RAG,讓模型先回憶故事,再根據回憶回答問題效果堪比外接數據庫的 AI

这也太聪明了吧,效果咋样?实验很成功,在虚构人物和维基百科事件的数据上,Mega 不仅记得牢,还能回答复杂问题,比如结合多段记忆的内容,关键是它几乎不干扰模型原来的知识遗忘问题比传统方法少得多。

就像一个学生既能记住新故事也不忘老知识这能干啥能让我家 AI 记住我的喜好吗完全可以比如智能助手能记住你的旅行故事下次问上次去哪玩时直接答还能用在教育客服记住用户的背景信息提供个性化服务不过缺点是记忆越多参数越多模型会变大

还有激活记忆的准确性取决于关键词匹配如果匹配不准就可能出错最后一篇 ADR1From Long COT to Hybrid COT-VIVIVI-LVI Level Adaptive Reasoning Optimization 提到了自适应推理听起来像让 AI 自己决定怎么思考

怎么回事?ADIR1 的思路是让 AI 阴题失策传统 AI 用长链思考 longcot 解复杂问题很强但简单问题也费力像用大炮打蚊子论文发现长链思考对难题有用对简单题反而可能拖后腿

于是他们设计了 ADAR1 先把长链和短链两种思考方式融合到一个模型里再通过双层训练让模型学会难题用长链简单题用短链而且尽量挑最简洁的解法这就像 AI 自己会切换模式效果如何效果很赞在数学推理任务上 ADAR1 把推理步骤长度砍了一半以上比如从几十步减到十几步但准确率只掉了 1%到 2%

它还能根据问题难度自动调整比如难题多思考几步简单题直接给答案比起纸优化长链的方法 ADIR-1 的效率和效果平衡更好这对我们有啥好处对用户来说 AI 反应更快耗电更少手机上跑 AI 也不会看

开发者也能省计算资源部署成本低未来这种技术可能让 AI 在实时场景比如自动驾驶医疗诊断快速又准确地做出判断精彩很实用有什么不足训练过程有点复杂需要准备长短两种模型还要构造两层偏好数据目前只在数学推理上测试过其他任务像编程逻辑推理行不行还得试试融合方式也比较简单未来可能有更高级的方法

哇今天这五篇论文真是脑洞大开今天的太快报就到这里感谢听众朋友们的陪伴下期再见下期见拜拜

AI前沿：从数学推理到记忆注入 09:29 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从数学推理到记忆注入