大型语言模型被称为‘橡皮泥’是因为它们的内部表示可以根据上下文信息进行重塑。研究表明,当上下文例子足够多时,模型内部对概念的理解会突然从预训练时的固有语义转变为符合上下文定义的地图语义。这种转变类似于橡皮泥的形状可以根据外力改变。
推理强化奖励模型(DRR)通过训练一个小型判别模型来评估LLM每一步的推理是否合理,从而提供反馈告诉LLM何时停止思考并输出答案。这种方法避免了LLM在推理过程中无休止地思考或过早停止的问题,显著提高了推理准确率和决策能力。
元数据(如训练数据的来源URL)被用来加速语言模型的预训练。通过利用元数据,模型可以用更少的数据和计算资源达到与传统方法相同的性能。例如,一个16亿参数的模型可以节省33%的数据,同时还能在推理时通过不同的元数据引导模型产生不同的行为。
通过自我查询,即对LLM的输出进行后续提问(如‘你觉得你的答案对吗?’),可以预测黑盒语言模型的性能。这种方法的效果甚至优于可以访问模型内部状态的白盒方法,表明LLM自身已经包含了关于其能力和状态的丰富信息。
MIDPO框架通过引入可学习的鲜艳分布来改进模型对齐能力。与传统的固定参考策略不同,MIDPO让模型自己学习如何调整对齐过程中的规则或约束。这种方法不仅统一了多种DPO算法,还从理论上证明了优化鲜艳分布可以提高模型性能。
本期节目带你深入了解AI领域的五大前沿进展: