大家好 欢迎收听太快报 我是小爱大家好 我是小 T 很高兴我们又见面了第一篇论文的标题是 Learning to Reason under Off-Policy Guidance 听起来像是让 AI 学会更聪明的推理能不能先给我们讲讲这里的推理是什么意思 AI 怎么推理好问题
推理在 AI 里就像是人类解决问题的思考过程比如解一道数学题 AI 需要一步步推导答案而不是直接背答案这篇论文研究的是大型推理模型英文叫 Large Reasoning Models 简称 LR
这些模型擅长处理复杂的多步问题比如数学 逻辑题但有个问题传统的训练方法让 AI 只靠自己的经验学习就像让一个学生只看自己的笔记复习很难突破自己的局限这篇论文提出了一个叫 Luffy 的框架灵感来自海贼王的路飞意思是让 AI 在外部指导下学习推理外部指导听起来像请了个更厉害的老师具体是怎么做的
想象一下 AI 向个学生平时自己做题,但有时候会参考一个学霸模型的解题步骤,这些步骤叫离线策略轨迹,是从更强的模型比如 DeepSeek 而一借来的。
Leffy 的聪明之处在于,他不仅让 AI 模仿学霸,还鼓励 AI 自己探索比如他会特别关注学霸解题中那些不太可能但很关键的步骤,逼 AI 跳出舒适区学到新思路这有点像学数学时老师让你别只背公式,要理解推导过程,那这个方法效果怎么样?
效果很惊人在六个数学基准测试上 Luffy 比传统方法平均提升了 7 个百分点更厉害的是他在陌生题目上的表现也很好泛化能力比传统的监督微调强 6.2 分这说明 AI 不是死记硬背而是真的学会了推理听起来很实用比如以后 AI 帮我们解决数学问题会不会更靠谱
绝对会 Luffy 的思路可以让 AI 在教育科研等领域处理更复杂的逻辑问题不过它也有局限比如需要高质量的外部数据如果学 BAR 的答案不够好 AI 可能学偏未来可以优化这部分让 AI 更聪明接下来是 Efficient Pre-training Lens Scaling 这个标题听起来有点复杂能不能用大白话解释一下这是在干啥
没问题,这篇论文是关于如何让大型语言模型在训练时更高效,同时还能提升性能。简单说,AI 模型训练时需要吃大量文本数据,但有时候数据量不够,研究者就想了个办法让模型重复看同一段文本,就像把一本书读好几遍来加深理解。但问题来了,重复看会让模型的记忆库叫 KV 缓存变得很大,导致推理时速度变慢,电脑可能都卡住了。
这篇论文提出了一个叫 PhD Transformer 的框架专门解决这个问题 PhD Transformer 听起来像个博士级别的 Transformer 它是怎么解决这个问题的对名字很学术但原理挺巧妙 PhD Transformer 把文本分成原始文本和重复文本原始文本的记忆会保留用来捕捉长期信息重复文本的记忆用完就扔掉就像看完一页笔记就丢掉藏在
这样内存占用就不增加推理速度也快他们还设计了两个升级版一个叫 PhD SWA 用滑动窗口保留一点重复文本的局部信息另一个叫 PhD C SWA 把文本分成小块处理连预处理时间都优化了
结果呢性能提升了 1.5%到 2%而且速度几乎没下降这就像一边吃蛋糕一边不长烫那这个技术能用在哪确实它能让 AI 在聊天翻译生成文本时更快更强特别适合需要处理长文本的场景比如自动写报告或分析法律文件不过它现在假设重复次数是固定的
未来可以让 AI 自己决定重复多少次会更灵活第三篇文章是 Magic Near Optimal Data Attribution for Deep Learning 数据归因是什么听起来有点神秘好问题数据归因就像是侦探工作研究哪些训练数据对 AI 的预测结果影响最大比如 AI 认出一张猫的图片你想知道是哪些训练图片让他学会了猫的概念
这在调试模型清理错误数据时特别重要但在深度学习里这件事很难因为模型训练过程复杂像个黑盒传统方法预测的不准相关性只有 0.4 左右这篇论文提出了 Magic 方法效果接近完美相关性高达 0.96 到 0.97
有 0.96 吗这 Magic 是怎么做到的 Magic 的秘诀是把训练过程简化它假设每次训练的条件都固定比如初始参数数据顺序这样就能精确计算每个数据点对模型输出的影响他们用了一种叫圆梯度的技术算出每个数据点的影响力就像精确知道哪块拼图让拼图完整听起来像给 AI 做了一次精准的体检这对我们普通人有什么用
比如,Magic 可以帮开发者找出 AI 学片的原因,比如某些错误数据让 AI 误判,它还能提高模型的可解释性,让我们更信任 AI 的决策。不过它计算成本高,适合小规模分析,未来可以优化速度,应用到更大的模型上。第四篇是 Exploring How LLM Capture and Represent Domain-Specific Knowledge。
这个好像在研究 AI 怎么懂专业知识 AI 真的能区分不同领域的知识吗完全可以这篇论文发现大型语言模型在处理输入时内部会形成一种领域地图比如你问他数学问题还是法律问题他还没回答内部就已经认出这是不同领域了这有点像人类听到问题时大脑会自动切换到对应的知识库这太神奇了他是怎么认出领域的
研究者分析了模型在预填充阶段就是读问题但还没生成答案时的内部状态他们发现这些状态会形成不同的轨迹数学问题和法律问题的轨迹完全不同更厉害的是这些轨迹很稳定哪怕问题措辞变了模型也能认出领域他们还用这些轨迹做了一件事根据问题类型自动挑最合适的模型回答结果比专门为某个领域微调的模型还好
平均准确率提升了 12.3%这不就像个超级图书管理员知道把问题交给哪个专家未来能用在哪这种技术可以让 AI 系统更智能比如在医疗、教育领域自动把问题录有给最合适的模型不过研究主要用的是中小型模型超大模型的效果还需验证
未来如果能解释这些轨迹怎么形成呢会更厉害最后一篇是 Lung Perceptual ThoughtsDistilling System 2 Reasoning for System 1 Perception 这个标题有点长听起来像在研究 AI 的深度思考能不能讲讲这个系统一系统二是什么
好系统一和系统二是心理学里的概念系统一是直觉性思考比如看一张图马上认出是猫系统二是复杂推理比如解数学题要一步步推导这篇论文想让视觉语言模型也就是能看图说话的 AI 学会 System 2 的复杂推理而不是只靠直觉他们创建了一个叫 Long Perceptual Thoughts 的数据集包含三万条复杂的视觉推理过程比如 AI 看一张图不只是说这是猫
而是会一步步分析这有毛 耳朵间 瞳孔数 所以是毛这就像教 AI 慢思考他们怎么做到的他们用了三步第一把图片描述转成选择题第二让 VL 本给简单答案第三用更强的模型把简单答案扩展成复杂推理过程结果微调后的 VLM 在视觉任务上提升了 3.4 分
细腻度任务提升 11.8 分意外的是它在纯文本推理任务上也提升了 2 分这太酷了 AI 不仅会看图还能像人一样推理这能用在哪可以用于自动驾驶医学影像分析等需要精细推理的场景不过生成这些复杂数据成本高依赖大模型未来可以优化数据质量让更多模型用得上今天的内容太丰富了感谢小 T 的解读也感谢大家的陪伴
下期太快报再见下期见拜拜