We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Prof. Jakob Foerster - ImageNet Moment for Reinforcement Learning?

2025/2/18

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Chris Lu

Topics

Jakob Foerster: 我认为深度强化学习在过去十年中未能充分发挥其潜力，主要是因为在硬件上没有获得优势。深度学习非常适合GPU，可以高效地处理数据。而深度强化学习的传统做法是在CPU上运行环境，在GPU上运行代理，这导致了算法设计和硬件需求上的复杂性，使得实验速度非常缓慢，算法本质上是脆弱的。现在我们正处于一场革命中，首次允许我们在GPU上联合运行环境和代理，这有望使深度强化学习最终成为赢家，并在现实世界中发挥作用。我相信，通过加速实验循环，我们可以开发出更稳健的方法，并利用元学习来发现可以泛化的算法。 Chris Lu: 为了自动化和扩展机器学习算法的发现，我们需要使用更多的计算资源。由于硬件限制，我们无法以所需的规模运行正常的强化学习算法，因此我们不得不寻找可以在GPU上快速运行的简单环境。将环境放在GPU上非常有效，但当时很少有环境可以用这种方式实现，而且实现起来非常困难。JAX是一个由Google开发的库，类似于PyTorch，它具有与NumPy相同的接口，并且具有额外的功能，例如JIT和VMAP，可以实现更快的运行速度和向量化映射函数。

Deep Dive

Shownotes Transcript

ARC挑战作为社区的目标是一个糟糕的主意。这并非其本意。它不应该是我们设计方法来解决ARC挑战的东西。从根本上说，人工智能是根据人类的集体成果进行训练的。这项技术属于每个人，包括我们不喜欢的人。它为了共同利益，为了公众利益而集中资源。

而不是为了最大利润。因为对我来说，最大的对齐挑战不是人工智能和人类之间的对齐挑战，而是那些掌握权力、控制这些系统的人与其余人口之间的对齐挑战。Jacob，欢迎来到MLST。感谢你的邀请。很高兴来到这里。很高兴你来到这里。跟我们讲讲你的背景吧。我在牛津大学领导第一个AI研究实验室。

现在大约有30人在从事任何前沿、有趣的研究，而不是监督学习，超越当前的先进水平。我一半时间做这个，另一半时间在Meta.ai的基础研究小组工作。

哦，太棒了。我在ICML上看了你的演讲，真的很好，因为你勾勒出了一个潜在的ImageNet时刻，你知道，就像Alex Krizhevsky对强化学习的时刻一样。电梯演讲是什么？我认为在过去的十年左右，强化学习并没有充分发挥其潜力，这就引出了一个问题，为什么深度学习取得了如此革命性的成功，而拥有巨大潜力的深度强化学习，

在现实世界的应用方面却并没有真正取得成功。我们在Flare有一个假设，那就是深度强化学习输掉了硬件彩票，因为深度学习非常适合GPU。

我们可以让所有课程都忙碌起来，高效地处理数据。相反，深度强化学习在该领域中的做法是在CPU上运行强化学习环境，但在GPU上运行智能体。这意味着在算法设计和我们需要什么硬件以及我们将如何为此开发算法方面都存在各种各样的复杂性和复杂性。

这真的减缓了该领域的发展，并且使得实验非常缓慢和困难。我们目前正处于这场革命之中，这实际上是第一次允许我们将环境和智能体一起在GPU上运行，使深度强化学习最终成为赢家。

在硬件彩票中。然后希望这将是使强化学习在现实世界中真正发挥作用的一步。我想这不仅仅是硬件彩票，还有痛苦的教训。

这就是这样一个想法，当我们扩大计算量时，我们会得到显著的性能提升，但到目前为止阻碍深度强化学习的是这样一个瓶颈，即它的大部分都在CPU上运行。但这确实让我想起了，你知道，大约在2018年，Alex Irpan写了一篇文章，他说深度学习根本行不通，强化学习还不行。

他还指出了其他一些问题，那就是，你知道，如果你改变任何东西或做错了任何事情，整个事情都会崩溃。那么为什么强化学习对架构和参数如此敏感呢？我认为发生的事情是因为实验非常缓慢，我们只能在非常具体的环境中训练我们的算法。我们只能在这个非常小的环境集合上进行爬山，这意味着这些东西从根本上来说是脆弱的。

现在，实验循环的速度提高了几个数量级，这意味着我们现在可以真正开始开发健壮的方法。记住，科学家们，我们自己也在进行元学习。我们试图发现方法

可以泛化。MLST由Sentinel赞助，Sentinel是一个专门针对AI工作负载优化的计算平台。他们开箱即用地支持所有最新的开源语言模型，例如Llama。你可以按需付费，或者你可以拥有一个始终运行的模型，或者在你不用的时候可以冷冻它。

他们部署的所有模型都开箱即用地支持OpenAI API规范，这意味着只需更改一行代码即可切换到Sentinel，开始节省资金并加快应用程序的速度。但要做到这一点，我们必须能够实际获得大量样本并获得关于我们的方法实际如何工作的许多经验。在深度强化运行中，任何单次运行都需要大量的成本、大量的计算和大量的时间。

这意味着我们作为研究人员获得的信号成本高昂、稀疏且嘈杂。这意味着我们的方法很糟糕。前提是从beta教训中得出的，如果我们可以处理更多数据，我们可以获得更好的信号，为研究人员或我们的元学习方法获得更好的梯度更新。

然后优化我们的算法，使其在现实世界中更强大、更有效。你能举个例子吗？当然，当我们需要物理经验时，瓶颈是我们需要有物理实体的智能体来收集东西。我们可以为此使用模拟器。但是如果我想学习Quake或Dota之类的游戏，我不需要在我的机器上运行游戏吗？我认为这是一个普遍的问题，即当现实世界的经验很昂贵时会发生什么。

显然，作为该领域，我们擅长使用提供给我们的现实世界数据。但我们现在将耗尽现实世界的数据，对吧？我们一直处于这种状态，我们可以懒洋洋地扩大计算和数据，因为数据集足够大，可以容纳更多数量的计算。但现在我们撞上了数据墙。然后问题是，如果我可以从现实世界获得更多数据，我该如何使用模拟

在不完美且与现实世界不完全相同的环境中，但速度极快，并允许我以完全合成的方式获得更多数据。我认为这确实是该领域目前的关键问题之一，而不仅仅是强化学习。我该如何开发算法，例如在DOTA的近似版本中发现算法，

以10,000倍的速度运行，这样我们发现的算法将推广到现实世界的DOTA环境，该环境运行缓慢，运行成本高昂等等。我把这放在仅计算缩放的范围下。如果你只给我大量的计算资源，我能开发出什么样的方法？

这将允许我在这些模拟情况、环境、场景中取得进展，以便学习进展转移到现实世界中的下游任务

运行缓慢且成本高昂。因此，Tufalabs是一个新的AI研究实验室。我正在苏黎世启动它。它由Paz Ventures资助，也涉及AI。因此，我们是DeepSeq的瑞士版本。一小群人，非常非常有动力，非常努力。我们尝试进行一些AI研究，从LLM和O1风格的模型开始。我们现在正在寻找首席科学家和研究工程师。你可以在tufalabs.ai上查看职位。

我认为我们可以讨论两件事。过一会儿，我们将讨论无监督环境设计、课程学习以及生成所有这些数据的方法。但在我们到达那里之前，还有一个问题，你是如何在GPU上运行所有这些的呢？我认为在这一点上，我认为最好是，你知道，

参考所有这些方面的绝对专家，推动这场超大规模革命的技术创新的幕后策划者。嗨，我是Chris。我是一名博士生，曾与Jacob一起工作。从技术上讲，我还没有毕业，所以我仍然是Jacob的博士生。所以我主要研究的是像自动化机器学习算法和发现这样的事情。所以基本上，这是，我们能否找到自动发现新的机器学习算法和机器学习见解的方法？

为此，我们需要使用更多的计算资源，因为你可以想象，即使是你的普通AI科学家也在使用大量的计算资源。然后自动化它并将其扩展，你需要成倍地增加。因此，显然在学术环境中，我们没有那么多的计算资源。事实上，当我们第一次在Flare开始时，

我不知道我们是否已经设置了任何计算资源。我认为我们可能有一些合作，基本上，就像Google Colab，免费的计算层。我们想为一篇名为“无模型对手塑造”的论文运行一些基本的强化学习实验。这是一篇论文，你试图学习另一个智能体的整个学习轨迹，以便影响它的学习方式。因此，这需要对单个智能体进行许多训练迭代。

因此，鉴于我们所拥有的硬件限制，我们甚至无法以这种规模运行正常的强化学习算法。因此，我们不得不考虑只使用我们可以用PyTorch编写的非常简单的环境，并将其在可以在GPU上快速运行的Colabs中实现。

这篇论文的结果非常酷。我们对当时将环境放在GPU上的有效性感到非常惊讶。但当时，只有很少的环境可以用这种方式实现。而且实际上实现它们非常困难。PyTorch是为神经网络等设计。因此，在PyTorch中使用任意环境代码很困难。

所以这就是JAX的用武之地。JAX是Google的一个库，类似于PyTorch。JAX的一个巧妙之处在于它与NumPy具有相同的接口。如果你知道如何在Python中使用NumPy进行编码，那么你就可以在JAX中进行编码。因此，这两个库都是为了让你可以使用Python在GPU上运行东西而设计的。

这就是我们训练所有神经网络的方式。这就是我们训练任何语言模型的方式，诸如此类。JAX的特点是它由Google开发，但它也基本上具有与PyTorch不同的接口。PyTorch可能是你们大多数人更熟悉的，而JAX在其之上还有一些额外的功能。关键的是一个叫做JIT的功能。这允许你在GPU上编译你的程序。基本上，在高层次上，这意味着它在许多情况下通常比PyTorch运行得更快。第二个是叫做VMAP的功能。

所以，VMAP代表，我相信，矢量化映射。这里的想法是，如果我编写一个函数来运行，比如说，加法，对吧？你可以想象，我只需要一个核心来将两个数字加在一起。当我将这个加法函数VMAP时，它变成了一个向量加法，对吧？所以我可以将两个向量加在一起。如果我再次VMAP，它变成了一个矩阵加法。这就是我可以只为我的环境的一个实例编写这个简单的函数的想法，对吧？我可以运行也许一个……我可以只编写一个Carpool的实例在普通的NumPy中，

我只需在这个函数上调用vmap，现在我可以同时运行数百万个实例，所以现在你可以想到的任何环境都很容易在JAX中实现，所以对于我们的完整论文来说，为了扩展这种方法，我们使用JAX将所有东西完全实现到GPU上，当然，在Matlab时代，矢量化总是我们想要的，我们想要，你知道，进行一次操作，并将其分散开来并并行化，以便它在GPU的许多小核心上运行，在这种情况下

但像Carpool这样的东西可能是一个有趣的例子。所以我们想在GPU中捕捉环境动态。有什么限制吗？因为显然我们可以用Python编写一个环境，而Python有很多很酷的东西，比如它是一种非常丰富的语言，你可以做迭代条件逻辑等等。在JAX中有什么不同？对，我的意思是，它非常相似，对吧？因为NumPy是，我认为，人们使用Python做很多事情的原因，对吧？所以如果它在NumPy中，你或多或少可以在JAX中做到。

在某些情况下，JAX更差。这将是包含大量if语句和分支的情况。但我认为我们小组最近的一些工作展示了一些你可以用JAX做的非常疯狂的事情。例如，我们小组的Mikey和Michael最近发表的一篇论文叫做Kinetics。这基本上是一个基于通用渲染器的通用物理模拟器，它完全流畅地使用JAX。

所以你可以想象，你可以制作任何合理的你能够制作的环境，你可以使用这个模拟器和渲染器来制作。-非常酷。有没有什么例子，因为你知道我们之前说过我们需要一个草图。所以我们没有Dota的源代码，但我们想尽可能多地捕捉动态，以便我们可以构建学习的智能体

我们该如何做到这一点？是的，我的意思是，一种有趣的方法是你可以尝试构建一个Dota模型，对吧？像学习一个模型。你已经看到最近的一些作品，人们可以学习像Minecraft这样的视频游戏的模型，或者最近在Genie中的作品，对吧？你可以生成这些视频游戏。所以一旦你能够做到这一点，你可以更快地从它们中进行采样，因为你的神经网络将在GPU上运行。是的，这实际上非常酷。你知道，

现在也有一个新的Genie版本了，我并没有真正想到，仅仅拥有一个动态模型是为了训练的目的，因为如果我们没有访问原始源代码，我们可以更容易地将所有这些东西链接在一起，那么我们在这里谈论的是什么样的性能加速呢？我认为我们的基本加速大约是4000倍，是的，我认为还有很大的加速空间，我们只是天真地使用JAX，但是你可以，有

有很多优化的空间，如果你进入更低级别的编写某些内核，是的，因为当我观看你的演讲Jacob时，你说，你知道，在过去，有方法，你知道，分布式并行化等等，但这只是创造了……如此多的复杂性，而这种新的方法速度如此之快，你可以，你知道，即使是一个小型实验室，你也可以进行那种实验，你知道，大公司以前会做，而不仅仅是能够进行大公司可以进行的实验，而是

我们无法做到，它还可以简化算法，对吧？能够消除许多内置的复杂性，这使得难以理解这些算法在做什么，并能够说，让我们实际编写这些非常简洁的算法。所以我们实验室有一篇论文，PQN，Paradise Q-Learning。它非常简单。它基本上只是一个Q-Learner，其中许多不同的智能体跨越不同的核心遍历环境并在每次转换时学习。

不再有目标网络，不再有回放缓冲区。所有这些都消失了，我认为这有望让该领域在未来提出更漂亮、更易理解，因此也更强大的算法。跟我谈谈漂移函数和目标优化。

是的，这是我们在FLAAIR做的第一件事之一。我们有一篇名为“镜像学习”的论文，它基本上提供了一个理论框架，至少对我来说，它提供了对为什么像PPO这样的东西真正有效的第一直观理解。这个框架所说的就是，只要我们有一个惩罚项来惩罚收集数据的策略和我们当前更新的策略之间的差异，

它服从某些属性，那么在进行许多策略更新的极限情况下，我们将收敛到最优策略。该理论框架非常好，但它也使我们能够说，为什么我们不学习一个漂移函数呢？因为PPO，那个剪辑，只是可以在镜像学习空间中表达的许多可能的算法之一。我们认为，也许这不是最佳的。一定有更好的。所以我们接下来要做的是将这个漂移函数参数化为神经网络。

但显然你现在可以想象有一个问题，你如何实际优化整个强化学习循环？该领域在元梯度估计方面做了很多工作，等等。我一直试图通过展开计算图并对其进行微分来估计这种类似导数的东西。事实上，我在我的博士论文中做了一些这样的工作，这又来自于多智能体塑造工作。我们选择了这条路，因为每个人都认为这将是获胜的方法。

但我们也追求进化策略，它不进行任何复杂的数学运算，而是加倍采用痛苦的教训，通过进行黑盒优化来做到这一点，试图从样本中估计那些高阶导数。事实证明，这非常适合超大规模Aral的新范式。

所以在你在ICML上的演讲中有一个漂亮的图表，对吧？所以你首先可视化了目标函数的梯度，我认为，对于DPO来说。它有这种步骤，对吧？如果它偏离源数据太多，它会将其拉回剪辑等等。有趣的是，它是人工设计的。这就是Rich说我们不应该做的，对吧？我们是一群强化学习专家。我们将我们的直觉外部化到这个函数中。

现在，你们所做的是元学习这个函数，然后你们可视化了它。你们看到了什么？有趣的是，它恢复了我们在PPO中看到的一些特征。所以存在这种类似剪辑的行为，但有一些方面是新颖的。例如，反直觉的是，剪辑具有这种过于美好的行为，只要你的优势不太高，你就可以更新事物

以获得正梯度，如果你超出了剪辑区域。所以你会直觉地认为，如果我有一个很大的优势，如果结果比我想象的要好得多，我应该更乐观，远离参考策略。但相反，这个剪辑函数学习了相反的结果，如果优势很大，并且你已经远离了，那么你必须停在那里。但如果优势很小，

那么你可以进一步远离参考策略。这几乎就像这种，哦，它太好了吗？然后你应该就待在这里。是的。但如果优势很小，那么你可以继续前进。是的，谨慎的乐观。就是这样。然后这个过程发现的另一件事，我们后来意识到人类之前已经发现了，是回滚。虽然PPO目标说如果你已经……

太远离参考策略，并且你有一个负优势，你将不会得到梯度。你将停留在左下象限。相反，DPO发现你实际上应该回去。我们将把你推回到那个参考策略。

是的，这绝对令人着迷。而且它还发现了次要特征，你知道，在没有人类设计或考虑过之前。我认为这也是我们可解释性工作的地方，Chris和我与该论文的作者之一Alistair一起花费了大量时间来理解这些特征，并且

我们不知道它们是什么。我认为这是一个开放性问题。弄清楚那里发生了什么将非常有趣。这实际上在这里做了一些真实的事情吗？也许有一天会有另一篇论文说，这就是我们在中间看到的那些围绕零优势、零偏离策略的高阶特征，我们只是不明白。这是有道理的。这是有道理的。好的，所以我们已经元学习了这个新的优化梯度集。

而且它有点慢。所以我认为你们所做的是，你们现在说，好吧，我们能否以封闭形式的解来表示它？但是，我们能否基于此进行新的理论研究？所以这是一个良性循环的发现。所以我想这里的希望是，在那一点上，我们还没有过渡到让我们只用AI智能体进行科学研究。所以让参与其中的那个人能够解释这一点

并获得漂移函数的符号表示对我们来说非常重要。它还有一个优点，那就是突然你可以跳出JAX的盒子。记住，我们将在JAX中使用的环境不会是现实世界。我们无法实现每一个问题。但我认为我们可以做的是，我们可以有一组具有代表性的挑战类型，使我们发现的学习算法能够转移到现实世界。

转移到其他模拟器中的设置，以及学习世界模型等等。有了符号表示，我们可以用一行Python代码写下那个漂移函数，这是一种确保它转移到不同的下游任务和其他代码环境等等的好方法。你还注意到关于这个策略的哪些事情让你感到惊讶？你不是说它比以前探索得更多吗？

是的，它有一个隐式的NP正则化，而这是我们从那以后一直加倍关注的事情。我们在后续工作中所做的是，我们说，好吧，人类可以设计这些剪辑函数，但人类肯定无法做到的是设计一个依赖于时间的剪辑函数。时间是指学习算法在优化过程中进行到多远。

这种时间感知版本的DPO非常明确地权衡了早期探索，然后在优化过程中变得更加保守。

显然，这是一个巨大的设计空间，因为现在为时间中的每个过程设计一个剪辑函数。这又是元优化闪光的地方。在这种情况下，我们唯一没有能够做到的事情是回过头来说，我们能否找到这种剪辑函数流形的参数版本？现在是镜像函数流形，它对优化过程中的每个时间步都有一个镜像函数。这听起来非常非常复杂，但好消息是，现在有了LLM，

我们可以实际使用LLM来用符号代码拟合那个黑盒漂移函数。另一件事是，首先，你们开源了所有这些代码。

所以首先抱怨，我知道你是开源的忠实粉丝。我过一会儿会谈到这一点。是的，所以使用你们正在谈论的这些新方法，我们可以越来越多地使用LLM作为创造力的引擎。我们实际上可以有一个额外的元阶段，我们可以拥有某种可以创建元优化RL系统的引擎。是的，我认为这是我们开始探索的东西。我们在Flare已经做了一些论文，还有一些正在进行的工作。

那就是，与其使用ES和黑盒函数逼近器，不如在程序空间中进行探索，并再次使用超大规模的JAX来获得对不同成员的相对快速的反馈，然后使用LLM作为突变算子来在程序空间中进行探索，使用适应度作为下游任务的性能

作为突变信号来探索我们正在探索的强化学习算法。我认为这开辟了自动化强化学习的全新空间，正如我们之前讨论的那样，这显然使得如何防止过度拟合的问题更加重要。对，所以有古德哈特定律，它说如果度量成为目标，它似乎是一个好的度量。当我们用研究生下降进行科学研究时，这已经发生了，使用探索和反复试验的定律来优化我们的基准。

但现在想象一下，如果我们可以通过自动化研究来扩展这一点。这也是我们在Flare讨论了很多的东西，那就是我们如何确保我们在元循环中找到的算法进展实际上会转移到下游。思考元训练和元测试的正确框架是什么？我们应该沿着什么轴进行泛化？我们怎么知道这是真的？关于LLN的创造力，

我的意思是，我只是用ARC挑战作为例子。我的意思是，你知道，许多人只是以一种非常正式的方式试图解决它，你知道，只是在DSL上进行离散指数搜索等等。而人类解决问题的方式是，它非常启发式，非常有创造力，非常偶然，正如Kenneth Stanley所说的那样。我们这里都是Kenneth Stanley的忠实粉丝。那么，为什么LLM如此擅长捕捉我们的直觉呢？所以……

我认为关于ARC挑战有两个答案，非常非常快。我认为这实际上是对ARC的警告，因为记住，度量成为目标。它似乎是一个好的度量。我认为ARC挑战作为衡量进步的标准非常出色。它表明我们的系统缺乏基本能力。但ARC挑战作为社区的目标

是一个糟糕的主意。因为这并非其本意。它不应该是我们设计方法来解决arc挑战的东西。这就是开放性发挥作用的地方。我们希望拥有能够解决各种不同任务的方法。ARC挑战是该空间中的一个例子，这意味着我们必须针对整个空间

人类可以解决的问题。没错。我认为我们可以使用LLM来帮助跨越这个空间。是的，我的意思是，LLM能否跨越创造力的凸包是一个问题。我们也可以谈谈创造力。我喜欢讨论组合创造力与发明创造力。但让我们假设，为了论证起见，凸包足够好。然后我们有了这个问题，“Charlet想要开发人员感知的泛化”。所以他不想要仅仅针对Arc的解决方案。

大多数解决方案都不符合ARC的精神。它们在测试时使用主动微调、测试时训练等等，你知道，各种不同的方法。它们是快速以人为监督的方式解决ARC等任务的伟大方法，但它不会从最初的实例推广到另一个任务。我们如何才能跨越这座桥梁？有两个答案。一个是，作为一个社区，要更清楚地说明衡量标准和目标。

因为我们使用术语“基准”，但基准应该是衡量标准，而不是目标。在实践中，这意味着我们必须更清晰地使用、处理广泛的问题空间，然后只让基准成为整个开放问题空间中的一个实例。并且在我们的方法开发过程中永远不要使用基准。这意味着我工作的不是ARC，

而是我致力于人类水平的推理能力。在我的整个方法、设计、训练流程中，我从未使用过ARC。我每年只用它一次来衡量我的进步。而且我不只是使用ARC，我还使用其他类似ARC的例子，LLM难以处理，而人类可以取得进展的例子。这是一个选择。另一个选择是，与其拥有独特的基准，我们可以混淆它们来衡量目标，

我们生成，我们有方法，我们进行基准设计，我们将其作为一等公民，作为我们科学进步的一等成员，这意味着我们试图生成涵盖整个问题空间的基准，这意味着如果你在这个整个问题空间中爬坡，你就是在爬升所有人类的能力。我认为我们在后者方面没有取得多大进展。所以我认为，目前，让社区非常清楚地了解衡量标准和目标非常非常重要。

创造力和推理之间有什么关系？这是一个好问题。我认为创造力至少让我能够提出新的推理挑战。如果我思考我一天是如何度过的，通常是运用创造力来为自己，坦白地说，也是为实验室和研究界创造新的问题，然后探索解决方案的空间。

他们解决这些问题所需的一项技能就是推理。所以它基本上允许我或一般研究人员，我认为，探索有趣且相关问题的空间，然后可以用来训练我们的推理能力，就像课程设计一样。所以我认为创造力是找出哪些问题有趣的一个很好的驱动力

我认为这是目前开放性面临的主要挑战之一，即什么实际上构成一个有趣的问题。因为显然，如果我们仅仅依赖LLM，我们将使衡量标准成为目标。我们将开始对LLM关于什么是有趣的东西的判断进行Goodharting，并在某个时刻找到利用这些LLM评判者不准确性的例子

这些LLM评判者的不准确性。但推理本身在多大程度上是一个创造性的过程？我的意思是，即使是像演绎推理这样微不足道的事情。所以我们正在搜索演绎闭包，我们正在做，你知道，我们正在遍历所有这些不同的东西，我们找到了一个轨迹。所以我们基本上组合了一段新的知识，我们评估它，它非常有效。你可能会说，哦，那是演绎推理。我认为这是一个创造性的过程。我可能会争辩说，这取决于你的搜索空间的结构程度。例如，对我来说，

像人类一样下棋具有很强的创造力，因为你无法模拟数万亿个时间步长。你必须以不同的方式解决这个问题。你必须真正尝试找到一种直观的方法来找到不同寻常的新途径和模式。这听起来很有创造力。如果我看看过去在游戏中以Goodharting的方式进行AI的方式，那是相当蛮力的。这实际上……

只是对游戏进行数字运算。在我看来，这并不怎么有创造力。这说得通吗？所以我认为这与其说是我们在做什么，不如说是我们如何去做，这又回到了衡量标准和目标。因为如果我使用象棋作为衡量标准，那么我只能得到与人类兼容的样本数量。我不能仅仅蛮力或数字运算游戏。

我必须有创造力，我必须探索，我必须玩，我必须运用想象力。但是，如果我允许使用这个游戏作为目标，就像DeepMind所做的那样，当然，这在当时是一项伟大的工作，但这些方法并没有真正转移到其他领域，那么我突然可以将这些美丽的想象力问题转化为数字运算。是的。你认为这个元层是获得这种泛化的途径吗？这是我的希望。我认为我的希望是，如果我们利用我们可以进行数字运算的事实，但我们不会对特定问题的特定策略进行数字运算，而是将数字运算用于寻找、增强我们对算法和样本高效方法的直觉，关于可以使用想象力、可以在新领域进行规划、可以探索的方法，那么我们将拥有两全其美的方法。我们将使用计算能力，我们将使用我们可以获得的高效样本，但我们不会使用它们来过度拟合特定问题，而是用来增强我们的直觉并自动化科学发现，从而加速发展

探索极其样本高效的算法，然后有望拥有类似人类的能力。因为，所以我的思维模型是，我们之所以如此样本高效，是因为我们是极其样本低效的过程（即进化）的结果。我们在进化的时间尺度上进行了元优化，具有巨大的采样效率，但这使我们能够拥有最终产品，即一个元学习代理

可以处理新情况，来到录音棚，即使睡眠不足也能理解。告诉我关于代理的一般意义。我深信，代理会给你带来超越构建单体系统的东西。是的，我认为我作为科学家一直看到一个长期存在的假设，那就是智能是多主体交互的涌现现象

我们拥有抽象、语言、推理、交流的能力的原因是，我们在极其复杂的环境中进行互动，其中最复杂的部分不是门、香蕉、苹果和狮子，而是像我们一样的其他主体，它们迫使我们对他人进行推理，进行心智理论，

互相学习，互相教导，协调，交流，合作。所以当你提到涌现时，你的意思是像语言这样的东西，我的意思是，我们有模仿性的文化传播、工具使用等等。你是在说这并没有融入到最底层。当我们拥有这些丰富的代理共享信息等的动态时，它们就会出现在更高的层次上。是的，我认为从广义上讲，这是一种平台序列。

我们最初拥有DNA和进化、细菌、单细胞，这成为了多细胞生物的平台。多细胞生物成为了强化学习的平台，动物可以在测试时在其生命周期内学习。这成为了代理组进行交互的平台，在这些代理组中，我们可以发展所有真正使人类独一无二的推理技能、认知技能。

那么至少我们是从哪里来的呢？这是一条逐渐、规模越来越大的协调之路。我认为最终我们现在的社会正处于试图弄清楚协调意味着什么的阶段？进化过程的下一步是什么？我们如何更好地协调？我们如何从，再次，类似于单细胞相互对抗，个体人类发生冲突，个体国家发生冲突，到更大规模的更大协调和合作？

我认为我们看到了一些迹象，但作为人类，我们真的还没有弄清楚这一点。我昨晚和Benjo交谈过，他正在勾勒出，我们有这些代理，他们可以破解他们自己的奖励函数，对吧？你知道，因为我们连接它们的方式。所以他们可以改变他们自己的目标，他们可以开始做各种可能变得不一致的事情等等。但是

对我来说，你是否看到了我们在AI中构建的代理类型与代理在现实世界中工作方式之间的根本区别？我认为我们构建这些代理的方式非常非常不同。但话虽如此，奖励破解并不是AI代理独有的东西。人类一直在破解奖励函数。事实上，在我的思维模型中，每个奖励都是奖励塑造。

并伴随着奖励破解，对吧？我的意思是，想想科学界中的p值作弊。这只不过是奖励破解，信号是发表论文的认可。为了让论文被接受，你的p值必须小于0.05。所以我们不称之为奖励破解，但这就是到处都在发生的事情。这不是什么新鲜事。我认为设计过程和不同属性之间显然存在差异。例如，我们确实设计了LLM代理

来混淆代理级别，说：“哦，我只是一个AI代理。我没有意识。我没有这些属性。我没有意图。”但这是一种设计选择。所以在许多方面，我们扮演了AI科学家的角色，设计这些代理以拥有某些属性并追求某些目标。

就像进化过程塑造我们一样。顺便说一句，我喜欢这个想法，即使在自然界中，Goodharting也可能是一个完全自然的属性。但是像人类的意图性，我们的意图性和一个表现得好像有意图的代理之间有什么区别？好吧，我的意思是，在我的思维模型中，我们的意图性是

必须追求目标才能生存的副产品。这是一个进化特征。目前，我们还没有从头开始训练AI代理来追求目标，而是来模仿。当前的首要范式是基于模仿的。现在，我们也看到这种范式导致的系统在成为代理方面不太好。所以我认为接下来很自然的一步是进行代理预训练。

我们还训练这些代理来实际追求目标。在那时，我认为我们在意图性方面与我们人类所做的事情（即追求目标）非常非常接近。所以AI代理基本上是自动机，对吧？它们只是从输入到输出的映射。所以我想知道，也许我们不能说对于一个非常小的、简单的自动机来说，它具有自主性。

但是有了这种丰富的多主体动态、信息共享等等，也许你会认为在某种复杂程度上，我们可以说系统作为一个整体具有某种形式的自主性。我认为很难想象我们将拥有足够简单的强大代理系统，以至于它们看起来不像具有自主性。我能想象到的所有关于我们到达那里所需的东西

将是能够设定自己目标、子目标的代理，能够自我改进自己的学习过程，能够在学生和教师团队中一起工作。这几乎是一种自相矛盾，即拥有强大的AI，强大的代理AI，以及拥有看起来不像自主性的东西。因为再次，这是一个……

很难写下明确的学习规则，明确的数据集将使我们到达那里。我们所做的一切关于自我改进、关于多主体团队的涌现属性、关于大型代理网络、关于文化传播、关于通过发现新概念进行计算自我改进，

都需要这些代理基本上具有自主性。如果我们正在构建AGI，那么如果它是一个多主体分布式复杂系统，而不是我们编程的单个事物，那么它更有可能具有自主性，这说法公平吗？这是一个好问题。我认为对此有两个答案，因为AGI原则上可以是一个单一实体，但我发现这种观点相当反乌托邦。

AGI是一个单体系统，相反，我更喜欢群体智能对智能的看法。因为人类，显然，我们做的事情是任何一个人都无法做到的。我们拥有这个分散的代理计算网络，他们过着各自的生活，并找出各种结构并重新连接自己，新的计算图，并让成千上万的人飞到会议上来进行集体计算和想象。

对我来说，这就像智能就在那个系统中。我希望我们将找到拥有相同水平的分布式、分散式计算结构的方法，但现在增强了代理AI系统。这种分布式群体方法有一些东西对我来说很神奇，对吧？我的意思是，看看生物世界。

它为什么有效？好吧，我们有适应性、重用性、自主性，我们还有所有这些属性，例如自我修复、例如自我保护。这种设置中有一些非常重要的东西，我认为我们需要在AI中复制。是的，而且我认为没有人能完全理解它。所以这是有趣的事情。多主体学习永远都是未来。但就像许多领域一样，那些永远都是未来的事情突然变成了现实。

自动驾驶汽车总是未来的事情。量子计算机总是没用的。突然，未来正在发生。我认为多主体学习和多主体智能是下一个前沿，这些事情总是存在的。这就像这将在某个时候成为未来，而现在它正在发生。

它不仅给你刚才所说的去中心化、鲁棒性，而且还给你有效部署大量测试时间计算能力的能力。因为突然你也可以使用测试时间计算来重新连接自己，重新探索新的解决方案，分而治之。

我认为这将变得非常强大，因为我们已经解决了使这项工作发挥作用的许多首要要求。我们现在有了在基本推理方面足够好的代理。我认为我们将获得能够进行基本代理行为的代理。

然后，多主体行为我认为将是这个领域下一个涌现属性或下一个真正创新的平台。喜欢它。喜欢它。雅各布，你写了一篇名为《开源生成式AI的风险与机遇》的论文。你能为我概述一下吗？这篇论文可以追溯到大约一年前我在牛津与菲尔·托尔一起吃午饭时进行的一次谈话。当时，在开源生成领域实际上并没有那么多工作。

我们非常担心权力在封闭源AI领域的大型参与者手中积累。因为再次，对我来说，这种智能的去中心化不仅是拥有强大且稳健的智能系统的途径，而且也是赋予各个部分代理权的途径

这个网络。对我来说，这是西方思想、西方民主和权力平衡的基础，它维持着我们的社会结构并防止独裁统治。当时关于开源AGI风险的讨论很多，但很少有人谈论开源AGI的好处和封闭源AI的风险。所以我们决定召集一群人，

它起源于伦敦关于开放式创新的研讨会，撰写一篇论文来讲述故事的另一面，我们认为这种说法在论述中是缺乏的。显然，撰写这篇论文需要时间。好消息是，即使在我们撰写这篇论文的过程中，越来越多的开源论文、开源系统也正在为LLM出现，这意味着现在我认为这篇论文的许多内容不再那么紧迫了。但我仍然认为能够讲述这个故事

这些是通常被忽视的封闭源AGI的风险。这些是去中心化、民主化、让每个人都能访问这些工具并能够在整个经济中部署它们、能够在全球范围内部署它们以及将其提供给所有想要创新的人的好处。这就是我们想要讲述的。我认为这篇论文在这方面做得不错。所以我们来自英国。

我们混合了中心化和去中心化。我们有国民医疗服务体系。如果我们在五年前进行这次采访，我可能会争辩说这是一件好事。现在没那么多了。但政府控制着水、铁路等等。然后我们也有私营企业。所以我们有点混合。有人可能会说AGI是一件如此重要的事情，我们需要规模经济。我们需要最好的员工，最好的专家参与

它需要集中。你对此有何看法？集中化是一个方面。但一个不同的问题是，如果它是集中的，谁掌握着钥匙？我们现在正在做的是，我们让私营企业开发曼哈顿计划，由来自世界各地、各种背景和利益的人们资助，如果他们资助曼哈顿计划，那将是荒谬的。所以我同意说我们需要集中资源，但让我们为了共同利益集中资源

为了公众的利益，而不是为了最大利润的利益。这说得通吗？我们经常混淆这两者。我认为如果我们有类似CERN的努力，将来自欧洲各地、全球各地的资源用于构建为了共同利益的模型，这些模型是透明的，我们使用的數據是公开的、可访问的、由公众管理的，我们使用的对齐方法再次

经过民主审查，来自类似维基百科的去中心化过程，许多人可以在公开、透明的环境中提供意见。我同意这一点。只要由民主力量控制，我就同意集中化。目标是共同利益，因为对我来说，最大的对齐挑战不是AI和人类之间的对齐挑战，而是那些掌握权力钥匙的人之间的对齐挑战。

对这些系统的控制以及其余人口。所以原则上我同意你，因为当我看看目前许多AI精英时，你知道，他们是山谷里的人，这有点像单一文化，而开放系统将使其更加跨学科，例如，许多眼睛会使浅洞变深。但有些人说，即使开放这项技术会略微增加风险，也可能造成灾难性后果。你会对他们说些什么？

我认为问题是，我们称什么为灾难性的？这就是规模，什么构成灾难性的规模很重要。例如，我认为拥有开源系统

可以双重使用可能是一件好事，因为它将给我们早期信号，说明哪些地方可以被利用，可能会有恶意使用。但如果你有开源访问权限，在某些时候你会获得相同的权力平衡，这构成了我们世界稳定的基础。大多数行为者都是好的，能够使用相同的方法进行防御

也将帮助我们及早开发针对滥用这项技术的防御措施。这些由不良行为者造成的滥用不会是人类的终结。但失控的按点击付费最大化器/利润最大化器的灾难性滥用实际上可能导致人类物种的灭绝，也可能肯定导致我们西方民主的终结。

我认为当我们谈到这种规模的灾难性时，我们必须非常小心这个术语对不同人的实际含义。

另一件事是，我们生活在一个，你知道，像全球化的世界。我们有非常不同的监管环境。其他一些参与者可能面临的监管较少，他们可能会使用我们免费提供的这项技术，并将其用于不良目的。你如何防范这种情况？我认为在国际范围内与在国家范围内适用的是相同的，即权力平衡。如果你使工具的访问平等化，

不同国家之间的权力平衡需要保持。公平地获得AI只是等式的一部分。从根本上说，AI是根据人类的集体成果进行训练的。这项技术属于每个人，包括我们不喜欢的人，对吧？我认为说只有少数西方精英应该能够访问这项技术实际上是完全错误的。因为这是根据人类文化进化的成果进行训练的。

所有的人类。所以让我们将其用于造福。而我能确保将其用于造福的唯一方法是给予人们平等的访问权。不要误解我，就我个人而言，我宁愿超越仅仅开源。在我们的论文中，我们有一节关于开源AGI问题的章节。我们简而言之提出的论点是，从风险角度来看，开源优于封闭源，因为它可以防止权力在未对齐实体下的灾难性积累。它可以防止这种情况。

但更好的是整体对齐的系统。我的意思是，想象一下，如果你有群体智能，每个人都有他们的个人AI代表为他们训练来增强他们。而我们获得超级智能的唯一方法是让这些人和他们的助手在一个大型网络中进行互动。我们有使大型网络中的机制从根本上民主化的过程。

这意味着我们获得超级智能的唯一方法是通过这种人和他们的代理、他们的系统混合的方法。这意味着这种分布式计算平台永远不能被用来反对其中的任何人。我还记得我们进行的讨论。我们对“整体对齐”这个术语进行了长时间的讨论。

其他人也认为这太疯狂了。但我说了，你知道吗，就是这样。我们必须追求它。因为从根本上说，我们现在之所以处于这种奇怪的境地，每个人都在争先恐后地构建一些没有人真正相信对人类有益的东西，这是一个协调失败。那么，为什么我们不使用AI来帮助我们更好地协调，来构建在设计上从根本上是民主的系统，这些系统从根本上允许我们拥有无法被滥用于其中的任何人的技术呢？

而不是说我们将把协调失败推向最大化。关于在最前沿进行AI开发，这需要数十亿美元，而在目前的开源社区中，坦率地说，我们正在做的是微调Meta免费提供的模型。对。这是一项非常昂贵的努力。你认为情况仍然如此吗？

你认为我们是否真的可以在没有所有这些资金的情况下在开源社区和学术界开展真正的工作？所以有两个答案。短期内，绝对如此，我们依赖于像Meta这样追求开源的大型行业参与者。这也是我50%时间在Meta的原因之一，因为我想加强这项工作。我想帮助开源AI超越封闭源。所以这是短期内的。我认为长期来看……

我们需要为了共同利益投入资源，类似CERN的努力。为什么我们可以用数千名作者来建造CERN，而我们却无法将投入学术界的资源投入到一项集体努力中，来进行一项类似登月计划的项目，来构建最好的模型？如果你考虑学术界的集体智慧，它超过了任何大型实验室的任何东西。当然，你可以在DeepMind拥有数千名研究科学家，但你不能拥有

我们学术界拥有的数万名才华横溢的年轻人。而兴趣应该如此，以至于有足够的参与者不希望有一个单体化的未来。对我来说，这是一个协调挑战。我认为在某个时候我们会回顾过去，并说，为什么我们花了这么长时间才意识到这里有一个巨大的机会，可以将来自不同参与者的资源汇集在一起，并确保

每个博士生、每个博士后、每个PI都能尽可能高效地推动开源AGI的愿景。-是的，我喜欢它。我在这里预测Kenneth Stanley，但他说过，偶然性在我们生活中扮演着过大的角色。偶然性来自于拥有大量具有不同兴趣的开发人员来处理各种事情。在论文中，你提到开发人员不应为他们创造的东西承担责任。你这是什么意思？所以我们的意思是工具、模型的开发人员，我开源了一个模型，我不应该为该工具发生的事情负责。想象一下一个世界，如果你正在建造一把锤子，你会因为某人，一个坏人，拿走了那把锤子而被关进监狱，

并故意造成损害。显然你无法再生产锤子了，对吧？相反，你将钉子钉入墙的唯一方法是雇用锤击服务，他们将所有锤子放在他们的棺材里并进行控制。然后你必须说，他们会问你，你要把什么钉子钉入墙？对不起，你要挂什么画？所以我们不喜欢那张画。我们不会把钉子钉入墙，因为我们不喜欢它。

他们说，“好吧，这是我的墙，这是我的公寓。”“不，不，不，对不起。锤子公司说不。”这说得通吗？这将是荒谬的。然而，当我们谈到AI模型时，我们已经习惯了这样一个事实，即我们正在移交代理权。我作为用户有自己的意图。我对我的行为负责。突然，一台电脑说不，“对不起，你不太友好。”谁说对谁友好？谁说我需要对人们友好？如果我想惹人讨厌，我可以惹人讨厌。问问我的学生。

这说得通吗？所以对我来说，从根本上说，我们已经移交了代理权。我认为这将是最大的荒谬之处之一，即我们集体放弃了我们集体智能基础设施的钥匙。它始于谷歌搜索。我们过去有图书馆，有一个公共索引，对信息的访问公平且平等。而谷歌搜索放弃了我们的集体海马体，即进入集体记忆的索引结构。

到一个完全盈利的实体。现在我们对人工智能的访问也做了同样的事情。这就像拥有一台打字机，当你打字时，它偶尔会说这样那样，你不能那样说。显然，我可以打任何我想打的东西。除了开源，而且也许从长远来看，这些从根本上建立起来的、具有民主性的整体对齐系统，我看不出有什么办法能解决这个问题。雅各布，很荣幸邀请你参加我们的节目。非常感谢你今天加入我们。蒂姆，谢谢你邀请我。这太棒了。很高兴和你交谈。

Prof. Jakob Foerster - ImageNet Moment for Reinforcement Learning? 53:31 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Prof. Jakob Foerster - ImageNet Moment for Reinforcement Learning?