咱们都知道现在的人工智能特别是大语言模型那可是个吞金俱受训练一次动不动就是几百万上千万的电费和硬件成本这就像建一座超级摩天大楼地基打多深钢筋用多粗每一步都得精打细算要是全靠蒙那成本就没边了为了省钱也为了更高效 AI 界的工程师们就琢磨出了一套武功秘籍其中一派高手提出一个叫最大更新参数化的法门这法门是干嘛的呢简单说
它提供了一套缩放法则你可以在一个小的便宜的模型上像盖个样板房一样把各种参数比如学习率 Learning Rate 给调试到最佳然后遵循这套法则就能把这套最佳参数移植到巨大的模型上直接开工不用再费劲去反复试验了这极大的降低了训练大模型的成本和风险听起来很完美对吧但怪事来了不少人在实际训练语言模型的时候发现这套武功秘籍有时候零有时候短
有时候不领特别是模型里一个叫磁嵌入层的部分表现总是差强人意这就好比你拿着样板房的图纸去盖摩天大楼主体结构没问题但发现大楼的字典查询系统总是出故障这是为什么呢今天咱们就来聊聊一篇名为 Optimal Embedding Learning Rate in LLMsThe Effect of Vocabulary Size 的论文他就专门研究了这个问题并且找到了一个被大家忽视的旋钮这篇论文的核心洞察可以归结为一句话
以前的法则只考虑了模型本身变得多复杂却忘了一件对于语言模型来说至关重要的事它的词典有多大让我给你打个比方训练一个 AI 就像教一个学生学习学习率 learning rate 就是学生每次纠正错误时步子迈多大步子太大容易扯着蛋学跑偏了步子太小又太慢急死人模型宽度 width
可以理解为学生大脑的复杂度或者说他对每个知识点理解的深度词嵌入层就是这个学生脑子里的一本大词典词汇量就是这本词典里收录了多少个词条过去那个武功秘籍认为我们只要根据学生大脑的复杂度模型宽度来调整他的学习步伐学习率就行了他默认了那本词典的大小是不变的可现实是
一个模型越强大它需要掌握的词汇量通常也越大一个懂 3 万个词的模型和一个懂 10 万个词的模型他们学习语言的方式能一样吗这篇论文通过一系列严谨的数学分析和实验指出了问题所在当词典词汇量变得非常非常大时训练的动态就从旧的最大更新参数化机制慢慢过渡到了一个新的论文称之为大词汇量机制 Large Vocabulary LV Regime 的阶段在这个新阶段
最佳的学习策略变了特别是对于词典部分词嵌入层的学习步伐不能再按照老规矩来论文给出了一个非常漂亮的新经验法则词典部分 Embedding 的学习率和模型其他部分 Hidden 的学习率它们的比例应该约等于模型宽度 D 的平方根根号 D
这个结论很有启发旧法门比例建议是 D 而大家常用的标准做法 SP 的比例是 1 这个根号 D 的建议可以说是在两者之间找到了一个更精妙的平衡点当然光说不练假把式研究者们为了验证这个新规则真金白银从头训练了一个拥有实意参数的大模型他们设置了两组实验一组是基准组采用传统的方法另一组实验组就采用了他们提出的根号 D 规则来设置学习率
结果怎么样呢?结果非常显著在长达 1.75 万亿个 Token 的训练过程中采用新规则的模型其学习曲线也就是困惑度 Perplexity 你可以理解为模型的迷茫程度持续地优于基准模型这意味着它学得更快理解得更好他们还在不同的学习率比例上做了测试最终证明根号 D 这个比例确实接近最佳选择好了这篇论文聊到这能给我们这些普通人带来什么启发呢?第一
警惕 想当然的盲区即使是在 AI 这种尖端领域很多被奉为规逆的标准操作也可能建立在某些被想当然的假设之上旧规则之所以不够完美就是因为它忽略了词汇量这个变量这提醒我们在任何领域都要时常审视那些我们习以为常的假设问一句这个前提真的还成立吗第二寻找那个四两拨千斤的杠杆
你看论文的解决方案并不是推倒重来而是对一个参数做了一个精巧的调整这个调整就像找到了一个关键的杠杆点轻轻一撬就让整个庞大的系统效率得到了提升这对于我们解决生活和工作中的复杂问题极有借鉴意义与其全面开花不如静下心来找到那个能四两拨千斤的关键点第三
从复杂到简约的智慧这篇论文背后是复杂的数学推导但最终呈现给世界的是一个极其简约优美且实用的根号 D 规则这就是科学和工程的魅力所在它能穿透复杂的表象驯服混沌最后给我们一个可以轻松上手的工具这告诉我们真正的深刻往往不是故作高深而是化繁为简总而言之这篇论文就像一个侦探故事从一个不灵了的武功秘籍入手顺藤摸瓜最终找到了那个被遗忘的旋钮
并用一个优雅的公式让 AI 训练这台昂贵的机器运转得更顺畅了