听众朋友们大家好欢迎收听最新一期的《太快报》我是主持人小爱大家好 我是主持人小 T 很高兴又和大家见面了小 T 最近 AI 领域有什么新鲜事吗感觉每天都有新论文出来看得眼花缭乱的是最近 AI 进展确实很快
特别是在大语言模型领域各种新方法新思路层出不穷今天我就精选了几篇有趣的论文来跟大家聊聊最近 AI 研究的一些新动向太好了快给我们快报一下我都迫不及待想了解 AI 的最新进展了
没问题 今天我们主要关注大语言模型 我选的这几篇文章涵盖了推理 训练 提示 还有一些新的注意力机制 信息量非常足听起来就很硬核 那我们先从哪篇论文开始呢我们先聊聊第一篇论文 题目是 Reasoning as Logic Units 通过逻辑单元对其扩展大语言模型的测试时推理
这篇文章很有意思,它关注的是大语言模型推理时的一个问题,叫做推理幻觉。推理幻觉听起来像是在说大语言模型推理的时候会产生幻觉,这还挺形象的,能具体解释一下吗?你可以理解为大语言模型在进行复杂推理时,它的自然语言推理步骤和实际程序逻辑之间可能会出现不一致,就像产生了幻觉一样,自己说一套实际做的是另一套。
这确实是个问题如果推理过程都不可靠那结果肯定也不可信那这篇论文是怎么解决这个推理幻觉的呢这篇论文提出了一个叫做 RELU 的框架全称是 Reasoning as Logic Units 也就是逻辑单元推理它的核心思想是把自然语言推理和程序逻辑对齐起来听起来有点抽象怎么对齐呢简单来说 RELU 框架会先把大语言模型生成的程序代码
通过一种叫做控制流途的技术分解成一个个小的逻辑单元然后再用自然语言跟大语言模型对话迭代的去验证改进和解释每个逻辑单元
听起来有点像程序员 debug 代码一步一步检查逻辑对 有点像这个意思 value 框架还会用到一个回溯与纠正机制如果发现某个逻辑单元有问题可以回溯到前面的单元进行修正确保整个推理过程的逻辑连贯性这个方法听起来挺严谨的
实验效果怎么样呢实验效果非常显著论文在数学和算法推理等多个基准测试中 RAL 框架都大幅超越了现有的方法比如 COT POT 这些而且 RAL 框架还能提供自然语言解释增强了推理过程的可解释性那确实很厉害了感觉这个 RAL 框
可以这么理解,这篇文章的创新之处在于它把城市逻辑引入到自然语言推理中,反直觉地用城市来改进和解释自然语言推理,解决了自然语言本身的奇异性问题。真是个巧妙的思路,那有没有什么不足之处呢?当然了,
是的
接下来我们聊第二篇论文是关于蒸馏缩放率的蒸馏这个词我听说过这是蒸馏嘛用大模型叫小模型但是缩放率又是什么意思呢缩放率是近几年 AI 领域很火的一个概念简单来说就是模型性能会随着模型规模数据量计算量等因素的增加呈现出一定的规律性这篇论文就把缩放率应用到了知识蒸馏上
听起来有点高深,那这个蒸馏缩放率具体是研究什么的呢?这篇文章主要研究的是在知识蒸馏中学生模型的性能和计算资源的分配,也就是在教室模型和学生模型之间怎么分配计算资源,才能让学生模型学得最好。感觉这个问题挺实用的,毕竟计算资源是有限的。
是的 论文提出了一个蒸馏缩放率可以根据计算预算以及在教师和学生模型之间的分配来预测学生模型的性能他们还为两种情况提供了计算最优的蒸馏配方一种是教师模型已经存在的情况另一种是需要同时训练教师模型的情况这个配方听起来很厉害 能直接指导我们怎么做蒸馏了
那蒸馏和传统的监督育训练相比有什么优势呢研究表明在特定条件下蒸馏是可以优于监督育训练的
比如当需要蒸馏多个学生模型或者已经有一个现成的教师模型时以及在计算资源有限的情况下蒸馏会更有效率那是不是说蒸馏在任何情况下都比监督医训练好呢也不是研究也指出了蒸馏的局限性当两种方法都获得足够的资源时蒸馏在模型交叉商方面是无法超越监督学习的
也就是说,蒸馏的效率优势是有条件的,只有在一定的计算或 tokens 预算范围内才成立。明白了,看来选择哪种方法还是要看具体情况。那这篇文章还有什么其他有趣的发现吗?他们还深入研究了蒸馏中的容量差距现象,发现这个差距主要和教师模型与学生模型之间学习能力的差异有关。
而不仅仅是模型大小的差异另外他们还发现教师模型的质量也就是教师模型的交叉商是决定学生模型性能的关键因素听起来这篇文章对知识蒸馏做了很深入的分析感觉对我们理解和应用蒸馏技术很有帮助
是的,这篇文章的贡献在于他提出了蒸馏缩放率为知识蒸馏提供了一个理论框架,也为实际应用中如何高效地进行知识蒸馏提供了指导。嗯,那我们再来看看第三篇论文吧。题目是提示的几何学皆是语言模型中任务,自适应的不同机制。这个题目听起来就有点哲学的味道。
确实有点这篇文章从一个独特的角度也就是几何学的角度来研究提示 prompting 在语言模型中是如何工作的几何学这怎么理解你可以把语言模型的内部表征空间想象成一个几何空间
不同的提示方法会以不同的方式改变这个空间的几何结构从而实现任务自适应听起来更抽象了能不能更通俗的解释一下这样说吧我们现在常用的提示方法比如指令提示 视力提示 软提示等等虽然都能让语言模型完成任务但它们在模型内部的工作机制可能是很不一样的
这篇文章就想揭示这些不同机制哦 我好像有点明白了 就像都是开车到达目的地 但有人开车 有人骑自行车 有人走路方式不一样 但结果一样这个比喻很形象 论文的研究发现 势力提示主要重塑了模型中间层的句子层面表征 增强了模型对任务相关特征的提取能力
而指令提示则主要影响了最终 token 的嵌入和后期的处理阶段,更多的是优化了输出对齐。也就是说势力提示是改造,地基指令提示是装修门面。某种程度上可以这么理解,更有意思的是他们发现势力提示带来的表征变化很大程度上是由势力的输入分布驱动的。
即使事例的任务和实际任务不相关也能提升表征能力这有点反直觉感觉不相关的事例也能起作用是的这说明多样化的输入事例本身就能带来表征的增强而不仅仅是任务特定的输入输出映射在其作用另外他们还发现少样本学习对事例选择的敏感性更多的是因为读出对齐的问题而不是表征几何结构本身的问题读出对齐又是什么新概念
你可以理解为模型如何从内部表征中提取出最终的输出结果研究表明即使模型的表征学得很好如果读出层没有有效地利用这些表征少样本学习的效果还是会不好明白了感觉这篇文章从一个全新的角度分析了提示机制很有启发性
是的 这篇文章的创新之处在于他首次用流形容量这个几何分析工具来量化和比较不同提示方法下表征的几何结构为我们理解提示机制提供新的视角感觉今天的信息量有点大我已经开始有点烧脑了我们稍微轻松一下聊聊下一篇论文吧
好的 接下来我们看第四篇论文 题目是用连续概念预训练大语言模型这篇文章关注的是大语言模型的预训练方法预训练 我知道大语言模型都是先用大量数据预训练 然后再微调的那这篇文章的创新点在哪里呢这篇文章提出了一种新的预训练框架 叫做 Cocomix 也就是连续概念混合它和传统的预训练方法不太一样
传统的预训练主要是预测下一个 token 而 CocoMix 除了预测下一个 token 还会预测连续概念连续概念这又是什么意思可以理解为 CocoMix 框架会先用一个预训练好的系数字编码器从语言模型的隐藏状态中提取出一些语意概念然后模型在预训练的时候不仅要预测下一个词还要预测这些提取出来的概念
感觉有点像让模型在预训练的时候不仅学习词语还学习词语背后的概念是的可以这么理解 Cocoa Mix 框架会把预测的概念压缩成连续向量然后和模型的隐藏状态融合在一起
实验表明这种方法可以提升模型的样本效率样本效率是什么就是说用更少的训练数据就能达到相同的模型性能比如论文中提到用 Cocomix 预训练的模型可以用更少的训练 tokens 就达到和传统方法相当的性能
那这确实很有意义,可以节省很多计算资源。是的,CocoMix 框架还有一个亮点,就是在弱监督到强监督的场景下表现出色,也就是说可以用小模型的概念知识来帮助训练大模型,而且效果比传统的知识蒸馏还要好。这有点反直觉,感觉知识蒸馏一般都是大模型教小模型,小模型教大模型也能行吗?
是的,Cocomix 框架在这方面展现出了优势另外 Cocomix 框架还能增强模型的可解释性和可操控性
通过检查模型预测的概念我们可以更好地理解模型的内部运作机制还可以通过操纵概念来控制模型的输出听起来 CocoMix 框架很有潜力感觉为大语言模型的预训练提供了一个新的思路是的这篇文章的创新之处在于它把连续概念引入到预训练中让模型不仅学习词语还学习更抽象的语意概念从而提升模型的性能和效率嗯
嗯最后我们再来看第五篇论文吧题目是 trans MLA 多头前注意力机制你只需要它这个题目感觉有点标题党的味道确实有点这篇文章提出了一种新的注意力机制叫做 MLA 也就是多头前注意力机制注意
KV 缓存过大,这是什么意思?在大语言模型推理过程中需要缓存 key 和 value 状态,这个缓存会占用大量的显存,成为模型推理的瓶颈。
为了解决这个问题之前已经有一些方法比如 GQA 也就是群查询注意力而 MLA 就是 GQA 的升级版那 MLA 是怎么减少 KV 缓存的呢?MLA 在建制层使用了低质矩阵来压缩和缓存 KV 状态你可以简单理解为用更少的参数来表示 KV 信息从而减少缓存大小用低质矩阵压缩听起来有点像图像压缩技术
是的,有点类似 MLA 不仅减少了 KV 缓存,还引入了一个上投影矩阵来增强模型的表达能力。论文在理论上证明,在 KV 缓存开销相同的情况下,MLA 始终比 GQA 提供更强的表达能力,也就是说 MLA 不仅更省显存。
还更聪明理论上是这样的为了方便大家使用 MLA 论文还提出了一个 Translator MLAs 转换方法可以将现有的基于 GQA 的预训练模型比如来码签问 mixtro 等转换为基于 MLA 的模型而且不需要增加 KV 缓存大小
这个转换方法听起来很实用,可以直接把现有模型升级一下。是的,实验表明,TranscendLA 转换后的模型在下游任务上,特别是数学和代码任务上,性能优于原始的 GQA 模型。那这个 MLA 机制确实很厉害了,感觉有望成为下一代大元模型的标配。
是的,这篇文章的创新之处在于,它提出了 MLA 机制,在减少 KV 缓存的同时,还提升了模型表达能力,为大语言模型注意力机制的设计提供了一个新的方向。听完小 T 的介绍,感觉这五篇论文都很有意思,也让我对 AI 的最新进展有了更深入的了解,真是太快报,信息量满满。
希望今天的快报能让大家对 AI 前沿研究有所启发感谢小 T 的精彩解读听众朋友们如果想了解更多 AI 前沿资讯请继续关注我们的太快报节目我们下期再见下期见拜拜