听众朋友们大家好欢迎收听最新一期的太快报我是主持人小爱大家好我是小 T 很高兴又和大家见面了小 T 今天我们要聊聊哪些 AI 领域的最新进展呢我看这次的论文摘要主题还挺丰富的既有理论性的也有很实用的是的
小爱今天我们准备了一桌 AI 研究的满汉全席从机器学习的数学本质到如何让 AI 更好的理解长篇文章再到怎么训练更聪明的 AI 自主体内容非常多元相信能让大家耳目一新听起来就很厉害那我们先从哪个菜开始品尝呢
咱们先来点理论开胃菜聊聊第一篇论文题目听起来就很高深叫 learning is a can extension 直译过来就是学习是 can 扩展
这听起来像是外星语言完全不懂能用大白话解释一下吗迭帕其实这篇论文的核心观点是他用一种非常抽象的数学工具叫做范畴论来重新理解机器学习中的误差最小化过程你可以把机器学习想象成一个学生解题的过程目标是尽量减少错误而这篇论文说所有机器学习的减少错误的算法都可以用范畴论里的 ATM 扩展这个概念来描述这听起来更晕了
范畴論是啥?跟我們平時用的機器學習有什麼關係?范畴論是數學裡非常抽象的一個分支研究的是事物之間的關係和結構這篇論文厲害的地方在於它發現機器學習的誤差最小化其實可以用范畴論的語言來精確描述這就好比我們以前用牛頓力學解釋蘋果落地現在用更底層的理論比如相對論也能解釋而且解釋得更深刻
所以这篇论文是想用更底层的数学理论来解释机器学习可以这么理解他还提出了一个新概念叫 S 中位误差传统的误差可能只是一个数字但这篇论文说误差其实更复杂它代表了信息在转换过程中的损失就像照片压缩压缩的越多文件小了但信息也损失了照片可能就模糊了 S 中位误差就是想更结构化的描述这种信息损失
听起来好像有点道理但感觉离实际应用还是有点远的确这篇论文更偏理论但它的意义在于它为我们理解机器学习的本质提供了一个全新的视角它告诉我们最优的机器学习算法其实跟我们选择的误差函数关系不大更重要的是数据和模型本身的结构这有点反直觉但却很深刻
而且他还把机器学习算法看作是一种逆向推断的过程就像是解谜题一样从结果反推原因感觉打开了新世界的大门虽然还是有点懵但好像明白了数学抽象的力量那接下来我们换个菜尝尝好 接下来我们聊聊第二篇论文 RFG GEMOptimizing Reasoning and Search Agents with Process Supervision 这个就实用多了
是關於怎麼訓練更聰明的 AI 搜索 agent 呢 RAG 是啥 RAG 是檢索增強生成的縮寫你可以理解為一種讓 AI 先上網查資料再根據資料回答問題的技術 agent 就是智能體可以自主行動的 AI 這篇論文提出了一個叫 RAGGM 的
就像一个训练场专门用来训练 rag agent 让他们更擅长搜索和推理怎么训练呢 process supervision 又是啥意思关键在于过程监督传统的训练方法只看 agent 最后给出的答案对不对但过程中
过程监督更细致他会监督 agent 的每一步的搜索过程看他是不是找对了信息是不是有效的利用了信息就像教练教学生不仅看最终考试成绩还看平时的学习方法和步骤听起来更像手把手教学
对,有点那个意思,这篇论文还提出了一个新的 agent 代购叫 Research Agent,他很聪明,能同时思考答案和深层搜索查询,就像一个优秀的侦探,一边推理案情,一边主动去寻找线索,实验证明,用 RAG GYM 训练出来的 Research Agent 性能提升非常明显。
在一些知识问答数据集上效果提升了 25%以上哇 提升这么多那这个 RDG Gym 有什么特别厉害的地方它最大的亮点是过程监督让 AI 的训练更精细化而且它还发现像 GPT-4O 这样的大模型可以作为过程奖励评判员判断 Agent 每一步做得好不好效果甚至和人类专家差不多这就很厉害了意味着我们可以用 AI
来训练 AI 大大提高了效率用 AI 训练 AI 听起来好科幻那第三篇论文呢是不是也是关于训练 agent 的是的第三篇论文 Scaling Autonomous Agents via Automatic Reward Modeling and Learning 讲的是怎么通过自动奖励建模来扩展自主 agent 的能力自主 agent 听起来就更高级了自动奖励建模又是啥自主 agent 就是那种可以独立自主完成任务的 AI
比如自动驾驶汽车或者游戏里的 AI 角色要训练这种 agent 关键是要告诉他什么是好什么是坏也就是要设定奖励
传统方法需要人来手动设计奖励规则很麻烦这篇论文提出了一个 ARMAP 框架可以自动从环境中学习奖励模型不需要人工标注自动学习奖励模型怎么做到的他用了一个巧妙的方法先让一个 AI agent 在环境中随机探索生成一些行为轨迹
然后用另一个 AI 来判断这些轨迹哪些是成功的哪些是失败的从而自动生成训练数据训练出一个奖励模型这个奖励模型就像 Agent 的内在指南针引导他做出正确的决策这有点像无师自通的感觉可以这么说 AR Map
框架的厉害之处在于它把策略学习和奖励建模结偶了以前我们直接训练 agent 怎么行动现在我们先训练一个好坏评判器再用这个评判器来指导 agent 行动实验证明 ARMAP 框架能显著提升各种 agent 的性能而且泛化能力也很强更神奇的是他们发现用小模型训练出来的奖励模型效果甚至比直接用大模型当奖励函数还要好
小模型比大模型还厉害这点颠覆认知是挺反直觉的这说明针对特定任务训练的小而精的奖励模型可能比通用大模型的模糊感知更有效率这也给我们一个启示在 AI 领域有时候专注比规模更重要有道理那我们接下来看看第四篇论文 ETSEfficient Tree Search for Inference Time Scaling 这个好像是关于提高 AI 推理效率的
是的,这篇论文关注的是大圆模型在推理时,特别是进行数搜索时的效率问题。数搜索听起来像是在树林里找路。有点像你可以把数搜索想象成 AI,在解决复杂问题时会尝试不同的可能性,构建一个决策数,比如下期 AI 会预测接下来几步的走法,形成一个数状结构。
但问题是当搜索数很大的时候效率会很低因为要存储和处理很多信息那 ETS 是怎么提高效率的呢?ETS 全称是高效数搜索它发现在数搜索中影响效率的关键瓶颈不是计算量而是 KV 缓存的大小
KV 缓存你可以理解为 AI 的短期记忆用来存储搜索过程中的信息 ETS 的核心思想是通过最大化不同搜索路径之间的 KV 缓存共享来减少内存占用提高推理速度怎么做到 KV 缓存共享呢?ETS 用了一个线性规划的成本模型来惩罚那些占用太多 KV 缓存的搜索路径
鼓励不同路径之间共享信息同时为了避免过度减值它还引入了语义覆盖像保证搜索的多样性就像在树林里找路既要快速前进也要探索不同的方向避免错过最佳路径实验证明 ETS 算法能显著降低 KV 缓存大小提高推理吞吐量而且几乎不损失准确率
听起来既高效又智能。那接下来第五篇论文,New Deaf-Lung Context Multidocument Attention Focusing Through Contrastive Learning on Attention Heads,这个名字好长,是关于什么注意力聚焦的?是的,这篇论文是关于如何让 AI 更好的处理长篇文章,特别是多篇文章。我们知道现在的 AI 模型,比如大语言模型虽然很强大,但
当文章太长信息太多时就容易注意力分散找不到重点就像我们读长篇论文读到后面就容易走神对差不多 MEDA 方法就是为了解决这个问题它提出了一种新的技术叫多文档注意力聚焦通过对比学习来优化注意力头
注意力头又是啥对比学习又是啥 Transformer 模型里有个重要的机制叫注意力机制你可以理解为 AI 在阅读时会把注意力集中在重要的词语上注意力头就是注意力机制的不同视角模型可以通过多个注意力头从不同角度理解文本对比学习是一种训练方法让模型学会区分相似和不相似的东西你能带方法就是把
对比学习应用到注意力头上让注意力头更专注于相关信息减少不相关信息的干扰怎么让注意力头更专注呢 MirrorDiff 通过对比学习优化注意力头里的查询和箭头影增强它们捕捉相关信息的能力实验证明 MirrorDiff 方法能显著提升 AI 在长文本问答任务上的性能在某些数据集上甚至能达到甚至超过 GPT-4O 的水平
而且他们还发现,即使是原本注意力很弱的注意力头,也能通过 Mate UDF 方法变得专注起来。这太神奇了,感觉 AI 也需要专注力训练。可以这么说,Mate UDF 方法告诉我们,通过精细的微调注意力机制,可以让 AI 更好的处理复杂信息,提高长文本理解能力。最后我们来聊聊第六篇论文。
How do realms perform to help reasoning in context 这个是关于 LLM 的双跳推理能力的是的这篇论文深入研究了 LLM 是如何进行双跳推理的以及为什么在有干扰信息的情况下推理能力会下降双跳推理是啥双跳推理就像是 A 认识 B B 认识 C 所以 A 可能也认识 C 这种推理比如经典的例子苏格拉底是人人都会死所以苏格拉底会死
LLM 貌似也能进行双跳推理但当上下文中出现干扰信息时准确率就会急剧下降甚至变成随机猜测为什么会这样呢 LLM 不是号称很智能吗这就是这篇论文要研究的他们训练了一个小型的 transformer 模型发现模型在训练过程中经历了两个阶段第一个阶段是缓慢学习阶段模型表现的像在随机猜测
第二个阶段是突变式阶段转换模型突然就能达到接近完美的准确率随机猜测那模型是怎么从随机猜测变成精准推理的呢研究发现在缓慢学习阶段模型学会了区分末端实体和桥梁实体但没有把查询和推理链关联起来
所以只能在可能的答案中隨機猜測但在階段轉換之後模型學會了一種順序查詢機制就像接力賽一樣逐層進行推理最終得出正確答案
顺序查询机制听起来更高效是的这篇论文还构建了一个简化的三参数模型验证了顺序查询机制确实是性能提升的关键更有趣的是他们发现即使理论上存在更高效的双重归纳投机制模型也倾向于学习顺序查询机制这说明 Transformer 模型可能存在一些优化偏差
会选择更容易实现的机制而不是理论上最优的机制这真是个有趣的发现感觉我们对 LLM 的理解又深入了一步听完这六篇论文的介绍感觉今天的 AI 研究真是既有深度又有广度既有理论突破也有应用创新
是的,今天的这六篇论文涵盖了机器学习理论、智能 agent、效率优化、常文本理解、模型推理机制等多个方面,代表了 AI 研究的最新进展和趋势。相信未来 AI 技术会发展得越来越智能,越来越强大。非常感谢小 T 今天的精彩解读,相信听众朋友们也对 AI 的最新研究有了更深入的了解。本期太快报就到这里,感谢大家的收听,我们下期再见。下期见,拜拜。