We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:小模型也能聪明,数据选择有大招

AI前沿:小模型也能聪明,数据选择有大招

2025/5/28
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
People
小T
小爱
Topics
小爱:研究表明,模型的大小不是决定其能力的唯一因素,训练方式至关重要。通过联合任务训练,即使是小型AI模型也能变得非常聪明。在ListOps数据集上的实验表明,与单独训练相比,联合训练能让模型更快地学习,使用的参数更少。 小T:联合训练之所以有效,是因为它能让模型学习到更聪明的解题方法,理解数字的规律。就像我们人类学习数学时,同时学习加法和比较大小,更容易理解数字的概念。这种方法在资源有限的情况下尤其有意义,例如在手机或小型设备上运行AI模型时,可以通过巧妙的训练方式,让小模型也能完成复杂任务,节省算力。

Deep Dive

Chapters
本研究发现,联合任务训练可以提高小型AI模型的效率。通过同时学习多个任务,模型能够学习到更聪明的解题方法,从而在资源有限的情况下也能完成复杂任务。
  • 联合任务训练提高小型AI模型效率
  • 模型学习更聪明的解题方法
  • 资源有限情况下也能完成复杂任务

Shownotes Transcript

大家好 欢迎收听太快报 我是小爱大家好 我是小 T 很高兴又见面了那咱们就从第一个话题开始吧我听说有个研究说即使是小型的 AI 模型也能通过特别的训练方式变得很聪明 是真的吗没错 第一篇论文叫做 Small ModelsSmarter Learning the Power of Joint Task Training 研究者发现模型的大小并不是决定它能力的唯一因素训练的方式也就是怎么教可能更关键

他们用了一个叫 ListOps 的数据集包含一些数学运算任务比如求和找最大值最小值等来测试小型模型的表现结果非常反直觉单独训练一个任务比如求和模型血带很吃力需要很多参数但如果把求和跟其他简单任务一起训练模型反而血带更快用的参数更少等等这有点奇怪

多学几样东西不是应该更难吗怎么反而变简单了好问题研究者发现联合训练会让模型学到更聪明的解题方法打个比方单独学求和的时候模型就像个死鸡硬背的学生只能记住答案而跟

其他任务一起学时模型会开始理解数字的规律比如顺序 起有这些属性这样它解决问题的思路就更灵活 更高效就像我们人类学数学 学加法的时候如果同时学的比较大小可能会更容易理解数字的概念

原来如此那这种方法对实际应用有什么帮助呢意义很大尤其是在资源有限的情况下比如手机或小型设备上跑 AI 模型我们不需要一味追求大模型而是可以通过巧妙的训练方式让小模型也能完成复杂任务这不仅节省算力还能让 AI 技术更普及你想想如果一个只有原来七分之一大小的模型就能解决问题那省下多少成本确实很实用

那接下来咱们聊聊第二个话题我听说有种方法能帮 AI 从海量数据中挑出最有用的部分是这样吗对的第二篇论文叫 Efficient Data Selection at Scale via Influence Distillation 提出了一种叫影响蒸馏的方法专门用来挑选对模型训练最有帮助的数据简单来说 AI 模型训练需要大量数据

但并不是所有数据都同样重要这方法就像是给每个数据打分看它对提升模型在特定任务上的表现有多大帮助然后优先用高分的数据来训练听起来像是从一堆食材里挑出最适合做某道菜的原料那具体怎么判断哪个数据更有用呢他们用了一种数学方法计算每个数据点对模型性能的影响不过直接算很费时间尤其数据量巨大时

于是他们设计了一个聪明的近似方式先挑一小部分代表性数据精确计算它们的影响然后通过这些代表推算出其他数据的影响值这样就像是先问几个关键人物的意见再推测整个人群的想法效率高了很多速度能提升三倍以上这效率提升真不小

那实际效果怎么样效果很不错他们在多个任务上测试比如数学题阅读理解的发现用这种方法挑出的少量数据训练模型效果跟用全部数据差不多甚至有些任务还更好这对 AI 开发来说是个大福音因为数据越多训练成本越高能用更少的数据达到同样效果实在是省钱又省力确实很实用那咱们再聊聊第三个研究听说 AI 还能自己学会怎么思考

是的 第三篇论文是 Hybrid Latent Reasoning via Reinforcement Learning 研究者提出了一种叫混合推理策略优化的方法让 AI 模型在不需要人类教它具体步骤的情况下自己摸索出怎么思考问题他们设计了一种机制让模型既能像平常一样输出文字又能在内部用一种隐藏的状态进行计算相当于一边说一边在脑子里盘算

这有点像我们人类一边说话一边在心里想塞不敢说什么对吧

完全正确更厉害的是他们用一种叫强化学习的技术让模型通过试错来学习只要结果对了模型就知道这种思考方式有效慢慢就学会了怎么更高效的推理这种方法不需要事先准备一大堆标准答案或思考步骤省去了很多人工标注的成本在数学题知识问答等任务上效果比传统方法还要好这真是太神奇了练艺

自己就能学会思考感觉离真正的智能又近了一步那第四个研究是不是也跟 AI 的自主学习有关对第四篇论文是 learning to reason without external reward 研究者提出了一个叫基于内部反馈的强化学习的新思路具体方法叫 intuit 它的核心是让 AI 用自己的自信程度作为学习的动力简单说模型在回答问题时如果觉得自己

自己打歹很有把握就给自己加分然后调整自己的策略争取下次更自信这有点像我们考试时觉得自己答对了就很有成就感然后会更努力学习就是这个感觉这种方法不需要外部的正确答案或奖励完全靠模型自己的判断来改进实验结果很惊人在数学推理任务上这种方法跟有标准答案训练的效果差不多

更厉害的是在完全没训练过的领域比如从数学跳到写代码模型表现带更好 断话能力很强这说明 AI 通过自行也能学到很多东西太有趣了最后一个研究我听说跟人类给 AI 的反馈有关

没错,最后一篇论文是 The Limits of Preference Data for Post-Training 研究者发现,现在常用的偏好数据,也就是让人给 AI 的两种回答排个优劣的方法,其实有很大局限性他们从理论上证明,即使有无限多,完全准确的偏好数据,AI 也可能学不到最优解尤其是在需要复杂推理的任务上,比如规划旅行或深入研究问题

为什么会这样呢?给个好坏评价不是挺直观的吗?问题在于偏好数据只能告诉 AI 哪个答案更好,却没法说有多好。这就像你只知道 A 比 B 好,但不知道 A 好多少,可能会错过一些看似不完美,但整体更稳健的策略。

研究者举了个例子,像回溯这种推理方式虽然过程复杂,但能保证结果正确,可偏好数据往往会偏向简单直接的答案,把这种好策略给忽略了。明白了,感觉就像是只看表面不看内在价值,那有什么解决办法吗?研究者建议,除了给好坏排序,还可以让人给 AI 打。

下期见拜拜