We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

AI前沿：从游戏高手到定理大师，再到模型对齐新框架

2025/2/5

AI可可AI生活

AI Deep Dive Transcript

People

小

小T

小

小爱

Topics

小T: 我认为这篇论文的核心在于提高AI在梦境中学习的效率,从而减少对真实数据的依赖。我们通过改进Transformer世界模型,让AI在虚拟环境中更高效地学习,并在复杂游戏中超越人类专家。我主要通过引入Dyna算法并加入预热器,使得AI在构建梦境时更加准确,避免了初期学习的偏差。此外,我还提出了NT和BTF等技术,分别优化了AI的视觉处理和思考速度,最终实现了数据效率和性能的显著提升。小爱: 我觉得小T总结得非常到位。这个研究就像给AI装上了更清晰的眼睛和更高效的大脑,还教它如何更好地做梦和学习。这个研究成果在实际应用中具有很大的潜力,尤其是在数据采集成本高的领域,比如自动驾驶和机器人控制。通过改进Transformer世界模型,我们可以让AI在复杂环境中学习得更快更好。

Deep Dive

Shownotes Transcript

听众朋友们大家好欢迎收听最近一季的太快报我是主持人小爱大家好我是小 T 很高兴又和大家在太快报相遇一起探索 AI 领域的最近进展感觉最近 AI 领域的新论文又开始紧喷了我每天都看得眼花缭乱感觉好多新概念新方法冒出来

是 AI 发展太快了每天都有新突破今天我们就为大家精选了几篇最新论文带大家一起浏览 AI 前沿动态听起来内容很丰富那我们先从哪一篇开始呢我们先来看看第一篇题目是 Improving Transformer Worlds for Data Efficient RL 中文可以理解为面向高效强化学习的改进 Transformer 世界模型 Transformer 世界模型听起来有点科幻能用大白话

给我们解释一下这是什么吗你可以把世界模型想象成 AI 的梦想能力就像人类会通过做梦来模拟和学习一样世界模型就是让 AI 构建一个虚拟的梦境在梦里进行各种尝试和学习然后再把学到的经验应用到真实世界中

Transformer 世界模型就是用 Transformer 这种强大的神经网络来构建这个梦境用梦想来学习这个比喻号形象那这篇论文是要改进 AI 的梦想能力让 AI 更高效的学习吗没错这篇论文的核心就是提高 AI 在梦境中学习的效率也就是数据效率我们知道强化学习通常需要大量的真实世界数据训练成本很高

如果 AI 能在梦境中高效学习就能大大减少对真实数据的依赖那它们具体是怎么改进的呢论文里提到了好多技术名词像什么 Dyna N, Ntbtf 感觉有点晕没关系我们一个一个来解释首先是 Dyna with warmup 你可以理解为 Dyna 算法加上预热 Dyna 本身是一种经典的强化学习方法

他的核心思想就是结合真实数据和模型生成的数据进行学习这篇论文重新引入并改进了 Dyna 算法关键在于加了一个预热器预热器是干嘛的你想 AI 刚开始构建梦境的时候这个梦境肯定是不准确的如果一开始就完全依赖这个不准确的梦境来学习可能会学歪所以预热器的作用就是先用真实数据让梦境模型变得更准确一些

然后再用梦境数据来辅助学习这样就更有效率听起来像是在做梦之前先热身让梦更真实一点

那 NT 和 BTF 又是什么呢?N 的全称是 Neighbors Neighbor Tokenizer,也就是最近零分词器。你可以把它看作是 AI 的眼睛用来处理看到的图像,传统的图像处理方法可能比较复杂。这篇论文提出了一种新的分词器,就像把图像切成小块,然后用一种更简单高效的方式来看这些小块。

让 AI 的眼睛更清晰更高效了可以这么理解而 BTF 全称是 block teacher forcing 也就是块教师强制这是用来训练梦境模型的一种新方法传统的训练方法是一个时间步一个时间步的预测未来而 BTF 可以一次性预测一个时间步内的所有信息就像让 AI 在梦境中思考的更快更全面

相当于提高了 AI 在梦境中的思考速度和准确性听起来这些改进都很厉害那效果怎么样呢效果非常显著他们在 CraftX Classic 这个复杂的游戏基准上进行了测试结果表明使用他们提出的方法

AI 仅用 100 万步环境交互就达到了最先进的水平甚至超越了人类专家哇超越人类专家了这太厉害了而且只用了 100 万步数据效率提升了很多是的这篇论文的核心贡献就是提高了模型在复杂开放世界环境中的数据效率这对于实际应用非常重要因为在很多场景下获取真实数据是非常昂贵的

确实比如自动驾驶机器人控制这些领域数据采集成本都很高这项研究感觉很有实用价值没错而且他们还强调他们提出的改进是一个阶梯式的提升每项技术都有贡献最终组合起来达到了非常好的效果感觉就像给 AI 装上了更清晰的眼睛更高效的大脑还教他如何更好的做梦和学习总结得很好到位

总的来说,这篇论文为我们展示了如何通过改进 Transformer 世界模型显著提升强化学习的数据效率和性能,让 AI 在复杂环境中学习得更快更好。听完这篇论文,感觉 AI 又在游戏领域迈进了一大步。接下来我们看看第二篇论文吧,题目是 Be Unlimited Data Self-Play LLM Theorem Proverbs with Iterative Conjecturing and Proving,看题目好像是关于定理证明的。

是的,这篇论文研究的是如何让大型语言模型 LM 更好地进行定理证明定理证明你可以理解为让 AI 像数学家一样去证明一些数学定理或者逻辑命题听起来好高深,感觉离我们的日常生活好远其实定理证明是人工智能领域一个非常重要的方向它涉及到逻辑推理知识表示问题求解等核心能力

如果 AI 能够进行高效的定理证明就能在很多领域发挥作用比如程序验证智能合约甚至科学发现听起来确实很重要那这篇论文要解决什么问题呢这篇论文要解决的核心问题是如何在训练数据有限的情况下提升 LLM 定理证明器的性能我们知道训练大型语言模型通常需要海量的数据但在定理证明领域高质量的训练数据其实是比较稀缺的

数据稀缺确实是个大问题,那他们是怎么解决的呢?他们提出了一种叫做自义定理证明器 STP 的框架,这个框架的核心思想是让 AI 像数学家一样通过迭代猜想与证明的方式来学习。猜想与证明,这听起来很有意思,能具体说说吗?你想数学家在研究数学问题的时候经常会先提出一些猜想,

然后再去证明这些猜想,如果猜想被证明是正确的,就成为了新的定理,可以用来解决更复杂的问题。这篇论文就是借鉴了这个思路让 AI 也学会猜想和证明。那 AI 是怎么猜想的呢?在 STP 框架中,他们设计了一个猜想器和一个证明器,猜想器的作用就是生成新的定理猜想。

而证明器的作用就是尝试去证明这些猜想,这两个部分是迭代互相训练的。迭代互相训练,怎么个迭代法?猜想器会根据当前证明器的能力,生成一些证明器勉强能证明的猜想。这种猜想既有挑战性又不会太难,证明器通过解决这些猜想能力就会得到提升,而猜想器也会不断根据证明器能力的提升,生成更具挑战性的猜想。

这样就形成了一个良心循环听起来有点像老师给学生布置作业作业难度要适中既能让学生巩固知识又能让他们有所提高这个比喻很贴切而且这种猜想证明的迭代过程也更接近人类数学家学习和进步的方式

感觉好有哲理那 STP 框架的效果怎么样呢效果非常显著他们在 Lean Workbook 这个基准测试上性能比之前最好的方法提高了一倍而且在其他一些定理证明基准测试中也取得了最先进的结果

一倍的提升太惊人了这说明 STP 框架确实很有效是的 STP 框架的创新之处在于它让 AI 能够主动生成训练数据而不是完全依赖有限的外部数据通过字义和难度迭代 AI 可以不断自我提升突破数据瓶颈感觉这篇论文给我们的启发是学习不一定非要依赖大量的数据有时候更重要的是学习的方法和策略

没错,而且它也表明模仿人类的认知模式,比如猜想证明可以帮助我们构建更强大的 AI 系统。从改进 AI 的梦想能力到让 AI 像数学家一样猜想证明,感觉今天的论文都好有意思。接下来我们再来看看第三篇论文,题目是 Process Reinforcement Through Implicit Rewards。

中文可以理解为基于隐性奖励的过程强化这个隐性奖励又是什么新概念隐性奖励是这篇论文提出的一个核心概念要理解它我们先要了解一下强化学习中的奖励机制在传统的强化学习中我们通常会给 AI 设定一个明确的结果奖励比如在游戏中赢了就给奖励输了就给惩罚结果奖励听起来很直接那过程奖励又是什么过程

过程奖励感觉更细致更能引导 AI 学习正确的步骤

是的,研究表明过程奖励在提升大型语言模型 LLM 的推理能力方面比结果奖励更有效但是过程奖励有一个很大的问题就是获取成本很高你需要人工去标注每一步的奖励这非常耗时耗力确实每一步都要人工标注想想都觉得工作量巨大那隐性奖励就是为了解决这个问题而提出的吗隐性奖励的核心思想是不需要显示的标注每一步的奖励

而是通過某種方式讓模型自己從最終結果中推斷出每一步的隱性獎勵自己推斷隱性獎勵,聽起來有點神奇,怎麼做到的?這篇論文提出了一個叫做 Prime Process Reinforcement Through Implicit Rewards 的框架

Prime 框架的关键在于它使用最终的结果标签来训练一个过程奖励模型 PRM 用结果标签训练过程奖励模型这怎么理解你可以这样想我们只告诉模型最终结果是好还是坏但是模型会自己去学习哪些步骤是导致好结果的关键步骤哪些步骤是导致坏结果的错误步骤通过这种方式模型就能够隐世地学习到每一步的奖励

相当于让 AI 自己去反思和总结哪些步骤做得好哪些步骤做得不好然后给自己打分可以这么理解而且 Prime 框架还有一个优点就是非常高效和通用

听起来 Prime 框架既高效又实用,那效果怎么样呢?

在数学和编程等推理任务上进行了实验结果表明使用 Prime 框架模型性能得到了显著提升平均提升了 15 点而且在更少训练数据的情况下就超越了更大的 Instruct 模型 15 点提升而且还能用更少的数据超越更大的模型这太令人惊喜了是的

Prime 框架的成功为我们提供了一种更经济高效的利用密集过程奖励的方法来提升 LLM 的推理能力它也启发我们在强化学习中奖励机制的设计可以更加灵活和巧妙不一定非要显示的标注奖励有时候隐性奖励也能发挥巨大的作用感觉这篇论文打开了强化学习奖励机制设计的新思路

听完这三篇论文,感觉今天的太快报信息量好大。接下来,我们稍微轻松一下,看看第四篇论文题目有点长。Fundamental Limits of Learning in Sequence Multi-Index Models and Deep Attention Networks,High-Dimensional Asymptotics and Sharp Thresholds 是关于深度注意力,网络学习极限的理论研究。是的。

这篇论文是一篇比较理论性的研究它主要研究的是深度注意力网络的学习能力和局限性深度注意力网络大家可能不太熟悉但其实它就是 Transformer 模型的核心组成部分 Transformer 模型我们经常听到的那个 Transformer 没错像 GPT BERT 这些强大的语言模型都是基于 Transformer 架构的

Transformer 的核心就是注意力机制这篇论文就是从理论层面去分析深度注意力网络的学习能力到底有多强又有哪些局限性理论研究听起来好抽象感觉离实际应用有点远理论研究虽然看起来比较抽象但其实非常重要它可以帮助我们更深入的理解模型的本质找到模型优调的方向甚至预测模型的未来发展趋势

有道理那这篇论文具体研究了什么呢这篇论文做了一个很巧妙的事情它把深度注意力网络映射到了一种叫做序列多指标模型 SMI 的理论模型上通过这种映射就可以利用多指标模型的理论框架来分析复杂的注意力架构把深度注意力网络映射到理论模型上这是什么操作你可以把映射理解为一种翻译深度注意力网络结构很复杂直接分析很困难

而序列多指标模型相对简单理论工具也比较成熟通过把深度注意力网络翻译成序列多指标模型就可以用已有的理论工具来研究深度注意力网络听起来有点像数学里的降维打击把复杂问题简化成简单问题来研究可以这么理解

通过这种映射,他们对深度注意力网络的贝耶斯最优学习性能进行了精确的理论分析推导出了在高维情况下模型学习的最小预测误差和估计误差的表达式听起来好专业,这些表达式有什么意义呢?这些表达式可以帮助我们理解在数据维度很高样本量有限的情况下深度注意力网络的学习能力会受到哪些限制

他们还研究了学习所需的最小样本复杂度也就是需要多少数据才能让模型学到有用的东西样本复杂度听起来很重要那他们有什么重要的发现吗他们最重要的一个发现是深度注意力网络中存在层级序列学习的现象层级序列学习又是一个新名词

你可以这样理解深度注意力网络有很多层每一层负责学习不同层次的特征这篇论文发现不同的层在不同的样本复杂度下变得可学习而且是逐层学习的也就是说浅层网络可能需要更多的数据才能学好

而深层网络在数据量较少的情况下反而能先学到东西这好像有点反直觉我们通常认为应该是浅层网络先学好深层网络再在浅层网络的基础上学习更复杂的特征是的这个发现确实有点反直觉它表明深度注意力网络的学习过程可能比我们想象的更复杂也更精细感觉这篇论文从理论层面揭示了深度学习的一些秘密没错

这篇论文为我们理解 Transformer 这类复杂序列模型的学习机制提供了理论基础,也为未来模型的设计和优调提供了新的思路。拼起来,理论研究虽然抽象,但真的很有价值。最后我们再来看看今天的第五篇论文,题目是 Reward-Aware Preference Optimization, a Unified Mathematical Framework for Model Alignment。

是关于模型对齐的模型对齐最近也是 AI 领域的热门话题能简单介绍一下吗模型对齐的目标是让 AI 模型的行为和人类的价值观偏好保持一致你想象大型语言模型这种强大的 AI 如果不对齐人类的价值观可能会产生一些意想不到的甚至有害的行为

嗯,比如生成有害信息,歧视性言论等等,确实需要对齐,那这篇论文是研究如何更好的进行模型对齐吗?是的,这篇论文来自英伟达,他提出了一个叫做奖励感知偏好 U 条 RPO 的框架,RPO 框架的目的是统一当前各种流行的 LLM 对齐偏好 U 条算法。

统一各种偏好 U 条算法为什么要统一呢因为现在模型对齐算法太多了像 DPOIPOZIPORO 等等各种算法层出不穷让人眼花缭乱但是这些算法之间有什么联系和区别

哪种算法更有效其实并不清楚而 PO 框架就是想把这些算法放在一个统一的数学框架下进行分析和比较理清它们之间的关系找到更有效的对齐方法

听起来像是在给各种对齐算法建立一个统一标准你可以这么理解 RPO 框架的核心思想是把偏好 U 条看作是一个奖励感知的过程也就是说在 U 条模型的时候要考虑到奖励模型的存在和影响奖励感知怎么理解

你可以这样想我们训练模型对齐通常会先训练一个奖励模型用来评估模型的输出是否符合人类偏好然后我们再用偏好优调算法根据奖励模型的评分来调整模型的行为让模型生成更符合人类偏好的输出

RPO 框架就是强调在偏好 U 条过程中要充分考虑到奖励模型的特性才能更有效地进行模型对齐感觉 RPO 框架抓住了模型对齐的关键环节那他们在这个框架下做了哪些研究呢他们做了一个很重要的工作就是结偶了偏好 U 条中的各种设计选择比如 U 条目标的选择每个提示的响应数量是否使用显示奖励模型等等

通过捷偶这些设计选择他们就可以系统地研究不同设计选择对模型对其效果的影响捷偶设计选择听起来好严谨的科研思路是的为了更清晰地研究这些设计选择的影响他们还提出了一个新的合成实验设置在这个设置下他们用一个高质量的奖励模型作为 ground truthjudge

也就是真值裁判来评估不同对其算法的效果用奖励模型作为真值裁判,这有什么好处?好处就是可以更干净更直接地评估对其算法的性能避免了真实世界数据集和评估指标带来的各种干扰因素感觉这个合成实验设置好巧妙那他们通过实验有什么重要的发现吗?他们有很多重要的发现比如他们发现在线 RPO 方法

也就是在训练过程中不断更新,奖励模型的方法通常比离线方法更有效他们还发现增加每个提示的响应数量并不一定能显著提高模型性能他们还强调了奖励模型质量对在线方法的重要性这些发现感觉都很有价值,可以指导我们更好的进行模型对齐

是的 RPU 框架为我们提供了一个统一的视角来理解和改进模型对齐算法也为实际应用中选择最优对齐策略提供了实践指导听完的解读感觉今天的五篇论文都好精彩从提升 AI 的梦想能力到让 AI 像数学家一样猜想

证明再到用隐性奖励高效训练 AI 以及对深度学习理论和模型对齐的深入研究感觉 AI 领域真的是日新月异每天都有新的突破是今天的这五篇论文只是 AI 领域快速发展的一个缩影未来我们太快报会继续关注 AI 前沿动态为大家带来更多精彩的解读

感谢今天精彩分享听众朋友们如果你对今天的节目内容感兴趣欢迎关注太快报播客系列获取更多 AI 领域的最新资讯本期太快报就到这里感谢大家的收听我们下期再见下期见拜拜

AI前沿：从游戏高手到定理大师，再到模型对齐新框架 19:36 Share

AI可可AI生活

Deep Dive

Shownotes Transcript

AI前沿：从游戏高手到定理大师，再到模型对齐新框架