在生活里我们总觉得一件事要做就要做到极致考试要考 100 分工作要做到完美这似乎是天经地义的在 AI 的世界里大家一开始也是这么想的要训练一个 AI 模型比如一个专门识别猫一个专门识别狗的专家模型那肯定是把这两个专家都训练到最强直到他们各自的识别准确率都达到顶峰然后我们再把这两个顶尖专家合并起来指望能得到一个既懂猫又懂狗的超级模型
这个逻辑听起来无懈可击对吧但最近一篇名为少即是多
欠训练专家可改善模型升级 Less is moreUndertraining expertsimproves model of cycling 的论文给我们提出了一个非常有意思的挑战他告诉我们恰恰是这种追求单向极致的思路可能会帮到吗这篇研究发现了一个反常识的现象把各个领域的专家模型训练到他们各自表现的巅峰状态然后再进行合并得到的那个超级模型的综合能力反而下降了
无论是对于被完整训练的模型还是那些只更新了部分参数的所谓 laural 模型这个现象都普遍存在这就好比你让一位顶级的钢琴家和一位顶级的小提琴家合作一首新曲子他俩都把自己的技艺练到了炉火纯青的地步每个音符都精准无比但正因为太纯青了他们各自的演奏风格节奏习惯都固化了当需要他们融合在一起互相适应时反而可能出出车肘
效果还不如两位都只练到八分熟的乐手来的和谐那么问题出在哪呢为什么专家们各自表现越好合并后的团队表现反而越差呢论文往下深挖了一层给我们揭示了背后的道理原来模型训练的过程跟我们学习很像一开始他学的是普通规律比如猫有尖耳朵毛茸茸的身体狗有大舌头摇摆的尾巴学到这个阶段模型已经能解决大部分问题了
但是为了追求最后百分之几的准确率提升训练的后期模型会把绝大部分精力用来死记硬背一小撮最困难最奇怪的例子
比如一张因为光线角度都特别刁钻而几乎看不出是猫的图片或者一张被错误标记成猫的老虎的图片模型为了记住这些疑难杂症会把自己的参数调整得非常极端形成了一些非常特殊的知识而论文发现当把这些经过过度训练的专家模型合并时它们为了记住这些疑难杂症而形成的特殊知识恰恰是最先被遗忘和平均掉的
换句话说模型在训练后期付出的巨大努力不仅在合并后付出东流而且这些为了个体最优而进行的特化反而成了团队协作的障碍干扰了整体的融合效果
这个发现就带来了一个极具启发性的策略既然追求极致的过保状态会损害最终的融合效果那我们为何不试试七分保呢研究提出了一种叫做激进的提前停止策略也就是说在训练这些专家模型的时候我们不必等他们达到百分之五
让专家们保留了一定的柔性和共性
没有在那些鸡脚嘎喇的问题上钻牛有尖结果当把这些七分宝的专家们合并起来时他们反而能更好的协作最终得到的超级模型表现甚至超过了那些由十分宝的专家合并而成的模型
你看这篇论文虽然讲的是 AI 训练但它给我们的启发远远超过了技术领域它其实在探讨一个关于个体最优与全局最优的深刻命题在一个系统里是不是每个部件都做到极致整个系统就一定最好呢这篇论文用数据告诉我们未必
有时候为了整体的和谐与强大个体的某些不完美反而是必要的一个团队如果每个人都是棱角分明的顶尖高手互不相让协作成本可能高到无法承受反而是一个游艺群能力很强但又都愿意为了团队目标而稍作妥协和调整的八分人才组成的团队可能更具战斗力所以下一次当你再陷入追求极致的执念时不妨想想这个切分宝的智慧有时候
有时候适时地停下来给未来给协作给更大的可能性留出一点空间或许少真的会变成多