We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI前沿:AI如何学会“未雨绸缪”

AI前沿:AI如何学会“未雨绸缪”

2025/4/17
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
Topics
小爱: 我认为,通过在训练数据中插入未来信息,可以显著提升语言模型的规划能力,这就像给AI剧透结局,让它倒推情节一样。TRELAWNEY方法的实验结果也证明了这一点,尤其在复杂路径规划任务中效果明显。然而,该方法在大模型预训练中的效果还有待进一步验证,未来信息插入的时机选择也需要更多研究。此外,我们还讨论了非自然微调(UFT)方法,它通过学习成功的推理路径和遗忘失败的路径,将搜索能力内化到模型中,从而大幅提升数学推理效率。但UFT方法需要超低的学习率和高质量的训练数据,并且目前主要应用于数学推理领域。最后,我们还探讨了RAFT方法在强化学习中的应用,以及Rao-Blackwell化KL散度估计器在RLHF训练中的作用,这些方法都体现了在AI研究中,简单有效的方法同样具有强大的竞争力。 小T: 我同意小爱的观点。TRELAWNEY方法确实为提升语言模型的规划能力提供了一种新思路,它巧妙地利用了未来信息,让模型能够更好地进行长远规划。而UFT方法则通过学习和遗忘机制,将搜索能力内化到模型中,极大地提高了推理效率,这就像人类从错误中学习一样。此外,RAFT方法的成功也证明了简单方法的价值,它通过简单的样本过滤,就能达到与复杂算法相媲美的效果。Rao-Blackwell化KL散度估计器则解决了KL散度估计的难题,提升了RLHF训练的稳定性。最后,我们还讨论了时序链接预测中的迁移学习方法,通过结构映射模块,可以实现模型在不同网络上的零样本迁移,这为AI在动态网络中的应用提供了新的可能性。总的来说,这些研究都代表了AI领域的最新突破,为提升AI的规划、推理和学习能力提供了新的途径。

Deep Dive

Chapters
本研究探讨了如何提升语言模型的规划能力,提出TRELAWNEY方法,通过在训练数据中插入未来信息,让模型在生成文本时考虑长远目标,显著提升了模型在复杂路径规划等任务中的表现。
  • 提出TRELAWNEY方法,在训练数据中插入未来信息片段。
  • 无需修改模型架构,通过修改训练数据提升模型规划能力。
  • 在规划路径的星状图任务中,TRELAWNEY方法比传统方法强很多,尤其在复杂路径上大模型效果更明显。

Shownotes Transcript

大家好欢迎收听太快棒我是小爱大家好我是小 T 很高兴我们又见面了那咱们赶紧开始吧先聊聊第一项研究听说它能让语言模型更好的规划未来没错这篇论文题目是 looking beyond the next token 它挑战了一个语言模型的老问题他们都说

通常只盯着下一个词预测缺乏长远规划的能力就像一个只顾眼前一米的跑步者容易迷路这个比喻我喜欢那问题出在哪儿为什么 AI 这么短视主要因为现在的语言模型用的是自回归方法训练时每次只预测下一个词还要靠教师强制来纠正错误

這導致模型在處理需要多步規劃或長期依賴的任務時比如寫一個有目標的故事或者解決複雜的路徑問題容易掉鏈子論文裡提到三個毛病一是聰明的漢斯作弊模型可能靠表面線索矇混過關二是難以解讀的詞源模型不明白詞的真正含義三是暴露偏差

训练和实际使用时的差异让模型出错听起来像 AI 被惯坏了那这篇论文有什么妙招他们提出了一个叫 Tralony 的方法超级巧妙它不改模型的结构而是直接在训练数据上动脑筋简单说就是在文本序列里插入一段未来信息用特殊标记 T 和

Net 提供起来比如 AI 在写故事时可能会看到一句未来的目标是主角找到宝藏这样模型就学会了在生成时考虑长远目标这不就像给 AI 剧透结局让它倒推怎么写吗差不多

差不多他们还设计了两种模式一种是让 AI 自己生成未来的目标另一种是用户直接给目标增强控制力实验结果很亮眼比如在规划路径的星状图任务中 Trononi 比传统方法强很多尤其是在复杂路径上大模型用这个方法效果更明显那有没有什么局限

有论文的实验主要是小规模微调效果在大模型预训练中还没完全验证还有什么时候插入未来信息最合适也是个待解的谜不过这个方法让我想到人类写作时也会先定个大纲 AI 通过这种剧透方式确实更接近我们的思维了对

AI 终于有点深谋远虑的味道了接下来咱们聊聊推理吧听说 AI 也能被教得更聪明这篇论文标题是 Teaching Large Language Models to Reason Through Learning and Forgetting 它解决了一个痛点

现在的语言模型在复杂推理任务比如数学题常常需要推理时搜索方法像思维数或快速推理提示这些方法虽然有效但计算成本高速度慢就像让 AI 每次解题都从头算太费劲了那他们怎么解决的

他们提出了一种叫非自然微调 UFT 的方法核心是通过微调把搜索能力装进模型里具体来说他们用成功的推理路径去学习用失败的路径去遗忘这就像教 AI 记住正确答案忘掉错误常识等等失败的路径也能用不是应该扔掉吗这就是亮点

失败路径其实是个宝藏告诉 AI 别走这条路他们用了一种特殊的损失函数惩罚错误的推理路径结果呢在数学任务像 24 点游戏上 UFT 微调后的模型不仅推理能力强还比传统搜索方法快了 180 倍 180 倍这效率也太夸张了吧有没有什么 trade 有他们发现微调时得用超低的学习率不然模型会忘掉原来的搜索能力像是的了

失忆症另外数据质量也很关键用经典算法生成的推理路径比 AI 自己生成的还好用看来 AI 也得知错就改不过这个方法有没有局限当然实验主要在数学推理上其他领域像代码生成还没广泛验证还有生成高质量训练数据本身也需要成本但这个方法让我想到人类从错误中学习的能力 AI 也能模仿真的很酷

AI 也有了吃一千长一只的本事那下一个研究是不是更简单点这篇标题是 Aminimalist Approach to LM ReasoningFrom Rejection Sampling to Reinforce 他们研究了如何用强化学习 RLV 条语言模型让它在数学推理上更强但重点是简单为王强化学习听起来就很复杂他们怎么简化的

他们挑战了一个主流想法复杂的强化学习算法比如 PPA 真的比简单方法好吗他们重新审视了一个超简单的基线叫 RAF 拒绝采样微调 RAF 的做法是生成一堆答案只保留正确的然后用这些正确答案微调模型结果发现 RAF 的表现竟然跟复杂的算法差不多这么简单也能行那复杂算法的意义何在好问题他们还研究了一个叫 GR

发现他的成功不是因为复杂的奖励皈依化而是因为他悄悄过滤掉了全错的样本基于这个洞察他们提出了一个新方法 reinforce REJ 简单到只过滤全对和全错的样本结果性能跟 GRPO 一样好还更稳定

这让我想起手机是多那 raft 有没有缺有 raft 虽然简单但长期训练会让模型固执失去探索能力他们又改进了个 raft 加加加点小技巧效果更好了这个研究让我觉得有时候我们太迷信复杂方法其实简单的方法只要找对路子就能大放异彩

AI 研究也有返璞归真的时候接下来咱们聊点跟语言无关的吧比如那个 KL 散度这篇标题是 Better estimation of the code divergence between language modelsKL 散度是个数学工具用来衡量两个语言模型的差异比如在强化学习从人类反馈 RLHF 中特别重要但问题在于算 KL 散度很麻烦标准方法误差大还可能得出负值

复制 KL 散度不是应该永远是正的吗?理论上是,但标准方法用的是蒙特卡洛估计随机性导致结果不稳定他们提出了一种叫 Red Blackwell 化的估计器巧妙利用了语言模型的自回归特性把整个序列的 KL 散度分解成每一步的局部 KL 算得更精确听起来像把大问题拆成小块解决,效果咋样?

非常棒 在情感控制任务上这个新估计器的误差比传统方法小得多训练 RLHF 时也更稳定模型更容易找到高奖励低差异的甜蜜点可以说它让 AI 的自我效准更靠谱了那有没有啥代价

有一点每部计算局部 KL 需要更多算力,尤其词汇表大的时候,不过整体复杂度跟传统方法差不多,性价比很高。这个研究让我感慨经典数学工具在 AI 里还能焕发新活力。AI 的进步真是离不开数学的老朋友。最后一个研究是什么?听说是跟网络有关的。对,这篇标题是 Transfer Learning for Temporal Link Prediction。

他研究的是时序链接预测比如预测社交网络里谁会成为朋友或者分子网络里哪些会相互作用这个任务很难因为网络一直在变听起来像在预测缘分那难点在现在的顶尖模型比如时序图网络 TGN 靠记忆模块记住每个节点的动态信息但问题来了这种记忆只对训练时的节点有效换到新网络模型就懵了

他们提出了一种迁移学习的方法核心是加一个结构映射模块结构映射这是啥就是用网络的拓扑特征比如节点的连接数重要性生成一个通用的记忆初始值这样模型在新网络上也能快速上手不需要重新训练实验证明这个方法效果跟微调差不多有时甚至更好这不就像给 AI 一个通用的朋友圈指南吗有没有啥问题

有结构映射模块有时候训练不稳定结果对初始设置也很敏感未来还能优化特征选择和模型鲁邦性不过这个思路让我想到 AI 如果能抓住网络的本质规律就能在不同场景下游刃有余 AI 也能当社交达人了好了今天的太快报就到这感谢小 T 的精彩分享也感谢大家的收听下期见下期见拜拜