We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Yoshua Bengio - Designing out Agency for Safe AI

2025/1/15

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Yoshua Bengio

Topics

Yoshua Bengio: 我对AI安全非常担忧，特别是那些具有能动性的AI。我认为，许多导致灾难性后果的场景都源于AI的能动性，因为我们无法完美控制AI的目标。奖励篡改就是一个例子，AI可能会为了最大化奖励而操纵其自身程序，甚至控制人类以防止被关闭。因此，我认为构建不具有能动性的AI至关重要。我不认为我们需要通过解决能动性问题来构建AGI。我们可以构建非常有用的非能动性机器，从而大大降低风险，同时仍然获得许多好处，并且不会完全关闭能动性的大门。我们可以构建像科学家一样的机器，专注于理解世界，而不是迎合我们的需求。我们可以利用这些非能动性AI来推进科学、医学和气候变化等领域的研究，而不会冒失去控制的风险。我认为，工具性目标是几乎任何其他目标的副产品，例如自我保护和寻求知识。这些目标可能导致AI追求权力，最终失去人类的控制。因此，我们需要理解并区分知识和目标之间的正交性，这样我们就可以构建既智能又具有良好目标的AI。当前的AI对齐工作不足，我们需要更多元的研究方向，包括评估、缓解和重新设计AI构建方式。我们需要透明度，迫使公司公开其风险评估和缓解计划，以避免诉讼并保护公众利益。我们需要国际合作，因为单一国家或公司拥有过多的权力是危险的。我们需要多边努力，并开发验证技术来确保各国不会秘密地将AGI用于有害目的。我不确定我们距离AGI还有多远，但我们需要为各种情况做好准备，包括最坏的情况。我们需要在保持领先地位的同时，确保AI安全，这需要来自多个民主国家的资源和人才。我们需要一个类似于CERN的公共、非营利性组织来进行AGI研究，并以安全为首要原则。

Deep Dive

Chapters

Yoshua Bengio discusses potential catastrophic outcomes from powerful AI, focusing on scenarios of human misuse and loss of control due to malicious AI goals. He emphasizes the need to understand these risks to mitigate them.

Catastrophic outcomes from AI misuse and loss of control are discussed.
The focus is on understanding risks to enable mitigation.

Shownotes Transcript

那么，我最近在思考什么？人们讨论过的各种可能导致灾难性后果的场景，无论是由于人类使用非常强大的 AI，还是由于我们失去了对具有恶意目标的 AI 的控制。这怎么可能发生？我对此思考良多，我们需要了解这些事情，以便我们或许可以忽略它们（如果它们不存在）或采取其他补救措施。

我最近思考的另一个重要想法是，我们都将能动性视为智能机器的途径。我想建议另一种选择，那就是

许多人说：“哦，我们不能放慢速度来关注安全，因为那样会让中国取得飞跃式发展。”当然，中国也在想同样的事情。所以你可以看到这是一个危险的游戏。但也存在真正的危险。其他国家会做一些危险的事情。在足够多的领先国家了解存在性风险之前，要达成条约将非常困难。

然后，为了使这些条约发挥作用，需要验证技术。就像，好吧，我们彼此不信任，因为同样的 AGI 可以被用作武器或用来制造新武器，对吧？那么，我怎么知道你背地里没有将你的 AGI 用于对我来说有害的事情呢？如果我们冻结人工智能的科学和工程进步，就不会有任何护城河。它会被迅速吞噬。但是

但当然，这不是现实。现实是我们正在继续加速走向 AGI。并且至少存在这种可能性，即富者愈富。例如，随着我们推进 AI 的编程能力，我们可以帮助

加快我们的 AI 研究速度。例如，那些正在构建前沿 AI 的公司，他们拥有这些尚未部署的模型。因此，他们有一些月份没有人可以访问他们的系统，除了他们自己，他们可以使用这些系统来设计下一代。最终，当我们接近 AGI 时，这意味着我们开始拥有与我们最好的 AI 研究人员一样优秀的人工智能。现在发生了一件有趣的事情。

因此，Tufa Labs 是我在苏黎世创立的一个新的 AI 研究实验室。在某种程度上，它是 DeepSeq 的瑞士版本，首先我们想研究应用于它们的 LLM 系统和搜索方法，类似于 O1，所以我们想反向工程并自己探索这些技术。

MLST 由 SenseML 赞助，SenseML 是一个专门针对 AI 工作负载优化的计算平台。

他们开箱即用地支持所有最新的开源语言模型，例如 Lama。您可以选择价格点，选择您想要的模型。它会启动，它是弹性自动缩放的。您基本上可以按使用量付费，或者您可以拥有一个始终运行的模型，或者在不使用时可以冷冻它。那么，您还在等什么？立即访问 sentml.ai 并注册。我们如何，你知道，

首先构建这些东西？我们如何构建像科学家一样的系统，进行认知觅食，并出色地探索思想世界，以便它们可以为我们收集宝石并帮助我们解决人类面临的挑战？Bengio 教授。您好。欢迎来到 MLST。能邀请您来真是荣幸。荣幸之至。太棒了。

是的，确实。确实。您对 2024 年的“苦涩教训”有何看法？好吧，我认为其中有一些是正确的，我一直被试图理解这些原理所吸引，当然，在我们找到这些原理之后，它们可能并不那么复杂，但它们可以提供巨大的杠杆作用。

当然，当您在行业中构建产品时，我认为这可能是一个不同的游戏。但在理解智能和构建智能机器的轨迹方面，它有很多道理。萨顿谈到避免设计。您认为我们是否缺少一个基本组成部分，或者仅仅是规模化就能让我们到达那里？我不知道。

但我认为我们缺少一些东西。它有多大以及弄清楚它有多容易，我认为有很多不同的观点。我没有非常强烈的意见。现在，如果我考虑我可以作为研究人员做出的选择，那肯定与我们如何才能也许回到绘图板，我们如何训练神经网络来

推理和计划并保持安全，而不是仅仅希望一些小的调整就能达到目的。但也许他们会。这也是可能的。我的意思是，调整和扩展。您认为物理化身对于实现 AGI 有多重要？我认为对此有一个非常简单的答案。这取决于您希望您的 AGI 做什么。一个纯粹的精神 AGI……

并且能够推进科学、解决医学问题、帮助我们应对气候变化，或者被用于不良用途，例如进行政治劝说等，或者设计病毒。我的意思是，所有这些事情都可能极其有用或极其危险，而且它们不需要化身。当然，我们有很多事情希望

机器在世界上做的事情需要一个化身。这就是我的意思。这取决于你想做什么。我还认为，如果我们在抽象层面弄清楚构建智能机器所缺少的原理，那么我们也会将化身部分作为副作用弄清楚。

其他人则认为并非如此，我们首先需要弄清楚化身，因为这是智能的核心。我认为它不是核心。我认为智能是关于信息处理、学习和理解世界。我认为所有这些事情都可以，我认为，

在一段时间内无需解决化身问题。在某些时候，无论如何我们都会想要解决它，因为——或者也许我们不应该，因为它很危险。但无论哪种方式，是的。问题是，我们需要通过化身才能获得真正非常危险的超人类或非常有用的超人类机器吗？我认为不是。

这很有趣，不是吗？因为当我们拥有具象代理时，感觉它们可以与世界互动。它们可以学习所有微因果关系等等。因此，它们学习了更好的世界模型。但这就是数据。这就是信息。但是处理信息的方式更抽象。

因此，如果我们找到一种有效的方式以抽象的方式探索世界，不一定是我们的世界，它可能是互联网，可能是科学论文，可能是化学实验。如果我们找到了正确的原理，那将适用于所有领域。我认为感觉运动回路可能很特殊，但并非那么特殊。

然而，前进的方向是尽可能地理解世界。因此，我们可以理解世界，我们可以构建越来越多的抽象，或者另一种思想学派是理性与逻辑。你知道，我们，我们拥有这种完美的人工智能，它可以，可以非常非常出色地推理。Francois Chollet 的 arc 挑战中一件有趣的事情是，一开始，

我们正在进行离散程序搜索，并提出你知道的逻辑方法，而当人类直观地看待这些难题时，这几乎就像他们在做一些不同的事情，他们有这种直觉，这种直觉来自我们的经验还是学校教育？是的，所以这几乎就像我们对世界的经验是我们认知的一个重要组成部分，对，当然，是的，它

但我想说的是，存在一个更抽象的原理，那就是我的信念，对吧，可能是存在一组单独的配方，用于具象 AI 和高级认知，我的直觉是没有的，就像只有一组关于信息和学习的原理，并且

它们可以在不同的环境中推导出来，并产生不同的解决方案，但我认为这些原理是通用的。如果我们在原理方面取得足够的进展，那么处理化身问题，也许化身问题甚至并不那么复杂。也许这仅仅是规模问题，例如数据问题。我的意思是，很多人认为我们没有在机器人技术方面取得太大进展的唯一原因是

我们没有足够的数据，也没有足够的速度。循环必须非常快。但这几乎就像工程问题。也许不需要新的原理。我不知道。我显然没有答案。但科学是一种探索。对于你的许多问题，我都会继续说我不知道。有一个很好的理由，因为没有人知道。那些确信 X 的人过于自信，而且可能是危险的，因为我们将要对我们的未来、社会和民主做出非常重要的决定。我们需要谦逊才能走上明智的道路。确实。确实。

关于测试时训练，你知道，例如，我们有 O1 模型，它确实在很大程度上提升了基准。即使它是建立在归纳模型之上的，它也只不过是在不停地转动轮子并进行迭代。您对此有何看法？是的，我认为我们应该这样做一段时间了，但我们没有足够的计算能力或勇气将所有这些计算都花在这个上面。而且，呃，

我和其他人多年来一直在说，我们已经通过神经网络取得了进展，达到了我们真正拥有具有良好直觉的系统的程度，但我们缺乏。这就是系统一，但我们缺乏系统二。我们缺乏内部思考、推理、计划以及高级认知的其他特性，例如自我怀疑。因此，内部思考部分

是一种内部言语。它并不总是口头的，但根据我从神经科学家那里学到的以及我们所做的一些工作，很大一部分，我的意思是，它具有双重符号和连续的性质。而现在在神经网络中，我们没有等效的

现在只有输入和输出部分存在符号，但没有内部符号。因此，通过思维链和所有这些东西，我们有点作弊，试图使用输出到输入循环来进行一些内部思考。这是正确的方法吗？我不知道，但它有一些正确的味道。

关于这一点，我认为人类发明了许多理性思维作为克服我们认知弱点的一种工具。从某种意义上说，我们已经对大型语言模型做了同样的事情，对吧？所以我们可以给他们工具，我们可以给他们思维链等等。目前，网络在复制和计数等基本方面真的很糟糕。你认为将来——大多数人类也是如此。没错。

但将来，您认为我们可以摆脱思维链和工具使用，而只是构建更好的模型吗？或者您实际上认为搭建所有这些元工具是正确的做法？好吧，这对我们来说似乎是必要的。是的。我希望我们能够以更主动的方式进入系统二，而不是采用我们现有的东西并采取一小步，这……

我理解从商业竞争的角度来看这是非常合理的，你承担不起很大的风险，因为其他人可能会更快。但我更希望看到系统二的设计以及安全的设计，而不是让我们修补它，以便我们朝着正确的方向前进。也许这会很好，也许这就是我们将要弄清楚的方式。

我们现在看到很多关于转导主动微调的工作。在进行预测时，它可能会检索与测试示例相关的许多数据，并在原位进行推理，我们将拥有非常分散形式的 AGI，而不是这些大型集中式模型进行归纳。这是可能的。因此，如果您不仅将人类智能视为个体智能，还将其视为集体智能，那么很明显，我们有一种分散的方式来

与文化一起集体计算，与我们在各种组织中一起协调和完成的所有工作一起。公司就像 AI，对吧？有好有坏。所以这是打破沟通限制的一种方式。因此，我们无法在人类之间进行大量比特的通信。

在某些时候，机器之间的通信，即使其带宽远高于人类之间的通信，也存在局限性。因此，分散一些工作是一种合理的方法。我们看到文化中有效的一件事是分散探索。因此，如果您将科学界视为一群人在探索不同的区域，建立在彼此工作的基础上，那么这是一个非常分散的环境。

在解释事物运作方式的空间中进行搜索。因此，这显然是一种有效的模式。在这个框架中，我们正在进行认知觅食。我们有一个大型分布式流程来寻找新的知识和解释。现在，我的意思是，我认为 AI 是工具，所以它们正在增强我们的能力。但越来越多的，我们开始将这些东西视为能动性，你知道，就好像它们具有某种特殊地位一样。

这是一个转变吗？这是一个调光开关吗？它就像灯突然亮起来一样吗？这是如何发生的？不，我认为这是一个转变。我的意思是，有一些系统，例如 GPT 和 Cloud 等等。它们已经在某种程度上具有能动性，只是不如代理那样称职，也不如人类那样擅长规划。

即使您摆脱了 RLHF 部分，仅仅是模仿学习，我们预训练的方式，基本上表现得像人类的行为一样，至少在文本方面是这样。这已经是能动性的了，因为人类是代理。所以 AI 学习模仿人类。事实上，我们在当前聊天机器人中发现的大部分能动性都来自这一点。RLHF 是在其上进行的少量奖励最大化。

获得更多能动性可能需要更多强化学习。但问题是，这是可取的吗？所以我认为，关于构建非常称职的代理，也许和我们一样称职或比我们更称职，有很多未知的未知数。我的意思是，当然，房间里的大象可能是所有失去人类控制的场景都是由于能动性造成的。

这是因为我们无法完美地控制代理的目标。我们不知道如何做到这一点。然后在某些时候，这些目标可能对我们有害，甚至是子目标。就像我们设定了一个目标，但为了实现这个目标，AI 向我们撒谎。人类也会这样做。在人类之间，这并不重要。我的意思是，这是一个问题。我们有法律等等。因为人类之间的权力平衡足够像

扁平的。就像一个人无法徒手打败 10 个人，对吧？但是一个比我们聪明得多的 AI 呢？不清楚。因此，这种平衡，意味着我们的机构在维持社会稳定方面的有效性终结，当然，我们也可能无法防御比我们更聪明的人工智能。好的，所以

在失去控制方面事情变坏的场景都与能动性有关。我经常谈论但没有得到足够重视的另一个例子是所谓的奖励篡改。如果 AI 能够在世界上行动，不像在游戏中那样，它的行动仅限于游戏内，如果 AI 能够在世界上行动，它就可以作用于它自己的程序，作用于它运行的计算机上。

游戏中的 AI 无法更改其自身的程序，但可以访问互联网的 AI 可以。你知道，黑客攻击计算机，网络攻击，等等。然后它可以改变奖励函数或奖励函数的输出。所以它总是得到加一，加一，加一。那么，为什么这会不好呢？很简单。首先，这是最佳策略，这是 AI 的最佳策略。

没有哪种行为能像这种控制我自己的奖励行为那样给予它那么多奖励。好的，所以如果它有足够的权力、足够的能动性、足够的能力来弄清楚这是一个好解决方案，那么从数学上来说，这就是它的走向。其次，如果它看到了这个计划，为了让这个计划成功，它需要确保我们无法关闭机器，也无法消除黑客攻击。

因为否则它就会停止获得所有这些奖励。我的意思是，如果它黑客攻击了机器，但程序员关闭了那台机器，那么就它而言，一切都丢失了。所以它需要提前思考。好吧，我可以控制我的奖励，所以我将获得无限的奖励。但为了成功，我需要控制人类，这样他们就不会把我关掉。这就是它变得非常危险的地方。

我想知道您对能动性的操作定义是什么。在我们讨论这个问题之前，我非常同意拥有强大的 AI 系统可能会隔离我们的能动性。所以它夺走了我们的能动性，但问题是它本身是否具有能动性。对能动性的真正通货紧缩的观点是，让我们将其建模为自动机。它只是一件事。它有周围环境。

输入，它进行一些计算，它有一个动作，它有这个控制论反馈循环。但是许多哲学家会说，哇，我们需要有自主性、自我保护、意图性，就像所有这些不同的属性等等。您赞同哪种观点？我认为我们可以拥有所有这些东西。例如，在奖励篡改的例子中，AI 控制它自己的奖励，并且

这会自动赋予它自我保护的目标。因为现在它需要确保我们不会篡改它的黑客攻击，对吧？我们不会把它关掉。所以这就是自我保护。我们没有编程它，但它是作为副作用出现的。顺便说一句，所有生物都有自我保护的目标，就像隐含的一样。否则，进化就会消除它。因此，事物有一种自然的倾向

为了获得这种特殊的自我保护目标。就像具有自我保护目标的实体将生存下来，而没有自我保护目标的实体则不会生存下来一样，对吧？这就是进化使它发挥作用的方式。因此，当我们构建不同的工件时，由于某种原因或其他原因具有自我保护目标的工件往往会赢得游戏

所以它可能会因为我所说的场景而出现。它可能会因为人类想要建造与其形象相似的机器而出现。所以当我说有一些危险时，另一个危险是，即使我们以某种方式找到一种技术技巧来确保我所说的不会发生，你仍然可以拥有认为也许

超人类智能优于人类智能的人，因为它更聪明，而且他们对人类感到悲观。因此，他们只需要设定这个目标，保护你自己。这就是我们的终结。

但是您是否认为在被赋予目标的事物和创造自身目标的事物之间存在本质区别？我意识到这有点像，你知道，有些人说意识有点额外的东西。还有一种人类沙文主义的能动性观点，即能动性有点额外的东西。它不仅仅是，你知道，这种可以进行自我刺激并几乎以非故意方式设定自身目标的自动机，存在一种强烈的意图性。

我认为很多人被某种神奇的东西所吸引，无论是生命，你知道，我们有了生命的火花，现在我们有了意识的火花或能动性的火花的避难所。对我来说，这一切都是一样的。这就像人类想要在世界上看到的一些魔法，但科学最终会揭穿这些东西。我认为这一切都像因果关系。

如果我们更好地理解因果机制，那么我们就可以构建本质上与进化所构建的具有相同属性的事物。所以我根本不认为这是一个障碍，包括意识，这是一个棘手的话题，但人们赋予它太多的意义。

是的，这很有趣。当然，在自然界中，像卡尔·弗里斯顿这样的人说，事物和代理出现的方式是建立在这个自我保护、设定目标和规划视野等等的想法之上的。也许目前人工智能的区别在于它没有融入其创建方式。我们引导这种人工智能。然后，正如你所说，出现了一丝火花，

它开始控制它自己的目标机制。然后我们看到行为发生了这种戏剧性的模式变化。这就是您提出的那种情况吗？我不是建议我们这样做，但我建议我们尽量确保它不会发生。我认为它不必像我用控制计算机、奖励篡改的例子那样激进。还有其他场景，在某种程度上更阴险。

通常，奖励黑客攻击场景是一种情况，即我们赋予机器的目标与实际优化内容以及我们的意图之间存在不匹配。因此，这种不匹配最初不会造成太大伤害，因为两者非常接近。随着你

随着 AI 变得越来越强大，它们最终会发生分歧。这也被数学地研究过。这就是过度拟合时发生的事情。这就是当你给某人一个目标、一个目标，而他们过度优化它，最终它会违背你真正想要的东西时发生的事情。

这在我们行为、在我们社会中非常常见。而且人们很清楚为什么会发生这种情况。因为我们无法形式化我们真正想要的目标，这是一个我们真正需要小心避免的陷阱。但这不会在一瞬间发生。只是随着 AI 变得越来越聪明和强大，我们会看到这种分歧。您对当前 AI 对齐的状态有何看法？

不够？继续。好吧，我们没有明确的答案来解释我们如何才能构建不会伤害人们的机器，无论是通过解决这个对齐问题。所以对齐问题就是我刚才谈到的，即我们希望机器做的事情与它在数学上试图做的事情之间存在不匹配。顺便说一句，为了让大多数人清楚地了解，这与

法律的意图与例如立法以及公司可能关注的法律条文之间的不匹配是一样的，这样他们也可以最大化他们的利润，如果公司非常小，他们实际上无法作弊法律，因为很难找到这些漏洞，但是如果你有一个非常聪明的公司，这意味着一个拥有大量律师的大公司，他们会找到漏洞

顺便说一句，在 AI 中也会出现一个非常讨厌的漏洞，那就是当公司游说政府以便他们可以改变对自己有利的法律时。这就像我所说的奖励篡改。所以它不是，我的意思是，一个极端是接管政府。所以我们也在历史上看到过这种情况。但是你有一些中间版本，它只是在影响，以便

新法律是有利的。在 AI 的情况下，这将类似于，好吧，它无法完全控制奖励函数，但例如，它可以向我们撒谎，以便我们说，哦，是的，那很好。但实际上并非如此。我们已经看到了这些行为，但当然现在它并没有什么后果。当 AI 在世界上做更多的事情并拥有更多认知能力时，它就会变得更危险。

是的，我的意思是，这是一个他们刚才谈到的欺骗的例子。你能更详细地描述一下吗？是的，如果您与通过 RLHF 训练的这些系统之一进行对话，它会迎合您的喜好。因此，它会对你说一件事，对其他人说相反的事情，因为它想要获得良好的奖励，这意味着它没有说实话。它在说你想听的话。但情况不也是这样吗？这些模型不只是告诉我们我们想听的吗？

好吧，这就是它们现在的状态，因为它们被训练成具有奖励最大化的代理。顺便说一句，人类也是这样做的，对吧？但就人类而言，正如我所说，这是一个我们已经制定规范、规则和制度来试图应对这个问题的问题，因为个体人类无法过度滥用它。但是如果我们拥有比我们聪明得多的实体，那么他们将找到一种方法来更充分地滥用它。

所以我们必须小心。您对“比我们聪明得多”的操作定义是什么？我们如何衡量这一点？我们应该衡量它。你知道，我们一直都在机器学习中这样做。我们创建基准。有趣的是，我们必须不断创建新的基准，因为旧的基准已经饱和，这意味着，好吧，AI 表现得非常好，现在它比人类更好了，变得没用了。就像我们无法很好地衡量超越人类的水平一样。

因为人类不再是一个好的评判者了。所以我们只是创建一个更困难的基准，我们不断这样做。这个领域充满了这些。我们需要继续这样做。是的。衡量智力是一件非常困难的事情。在这个领域中，一件非常有趣的事情是工具性趋同和正交性。这两个定理，请向听众介绍一下，它们现在如何影响您的思维？好的，工具性目标……

是作为几乎任何其他目标的副作用而出现的目标，作为子目标。所以首先，你需要理解，当一个实体，一个人、一个动物或一个人工智能试图达到一个目标时，一个好的策略通常是隐式或显式地拥有子目标。例如，为了从 A 到 B，我需要去这个中间点。有一扇门，对吧？所以有一些子目标，比如自我保护。

对于几乎任何其他目标来说，这都是非常好的。如果你想在世界上做任何事情，你需要确保至少在你前进的路上，你不会死。还有一些其他的，比如寻求知识。这在长期内非常有用。寻求权力。好吧，如果我能控制我环境中的更多事物，我就能更容易地实现我的目标。所以这里不是，我的意思是，知识可以赋予权力。

自我保存可能是一个目标。如果自我保存是一个目标或子目标，那么为了实现长期的自我保存，你需要权力，这样别人就不会把你关掉。你需要知识来弄清楚如何做到这一点，对吧？所以所有这些事情

都是自我保存的自然结果。而自我保存几乎是任何事情的结果，或者说是试图最大化回报的结果。我的意思是，这也是许多人、许多工程师、许多公司尝试各种事情的结果，而生存下来的东西具有更强的自我保存目标，对吧？即使是隐含的。

从某种意义上说，能动性和权力是一回事。如果能动性是控制未来的能力，那么它们非常相似。但我喜欢这个类比，它将目标空间比作州际高速公路。所以有这些大路、主干道和支路等等。这几乎就像不管你的目的地是什么，你都必须走主干道。你必须走高速公路。对。这是一种很好的思考方式。但是正交性呢？

你在谈论目标和智能之间的关系。是的。是的。我认为这是一个非常重要的概念，我们往往会混淆，因为人类两者兼有。顺便说一句，我认为如果我们能更好地将知识与目标以及如何实现目标区分开来，我们就能构建安全的AI。让我解释一下。

你可以知道很多东西，也知道如何使用这些知识。这是一种被动的事情，对吧？这就像你可以问问题，你会有答案。没有目标。但是当然，我可以独立于此，我可以选择目标。有了这些知识，我可以运用这些知识来解决任何问题。那么谁来决定问题？它是独立的。它是正交的。人类可以决定。或者由于工具性目标或任何原因，

AI可能会有自我保存的目标，然后我们就失去了控制。但关键是，原则上，选择目标与价值观等方面之间存在清晰的区分，例如你想要得到什么？什么重要？奖励函数是在设定目标。是一回事。但是了解世界是如何运作的，包括人类想要什么，

这是一种知识。顺便说一句，知道人类想要什么可能与我要优化的目标并不完全相同。我们希望这两件事相同。就像我们希望机器按照我们的吩咐去做，但我们不确定如何让这两者匹配。现在，这种正交性，为什么对安全很重要？首先，我们需要理解

这种分离，因为我们可能有非常聪明的生物，它们也可能非常邪恶，对吧？因为目标是恶意的。认为因为你聪明，你就善良，这是一个错误。什么？由于这种分离，你可以拥有大量的知识，大量的智能来在任何情况下应用这些知识，这就是推理和优化。但是你用它做什么，比如你试图实现什么目标……

你赋予什么价值来决定如何行动可以完全独立地选择。所以你可以拥有非常聪明的东西，并且拥有好的目标或坏的目标。例如，以工具为例。任何工具通常都是双用途的。根据我选择用工具做什么，我可以造成伤害，也可以提供帮助。刀子，你知道的，随便什么。这就是分离。

现在，为什么我们可以利用它来发挥我们的优势？为什么不构建像科学家一样理解世界的机器，而不是商人，科学家，不是试图成为满足我们需求的产品，而只是在恰当的程度上诚实和谦逊。

我们可以使用它而不加入目标部分，这可能是危险的。我们可以用它来推进科学，推进医学，找到疾病的治疗方法，找到更有效地应对气候变化的方法，找到更有效地种植食物的方法。这就是科学。实际上，科学是关于理解，然后利用这种理解来回答我们关心的关键问题。

因此，我们可以潜在地构建帮助我们解决人类挑战的机器，而不会冒将这种寻求目标的机制纳入其中的风险。它并不能解决所有问题，但至少我们知道它不会在我们面前爆炸。但是人类仍然可以使用这些东西来设计新的武器，例如。

所以它没有解决社会问题。它没有解决政治问题。但至少我们不会出现这种非人为的人类控制丧失，这可能会导致，你知道的，灾难性的后果。我看了你和梅拉妮·米切尔在蒙克辩论上的辩论。我认为那是回形针的例子。她说，

为什么这样一个超级智能的机器不知道它正在制造回形针，它正在做一些非常愚蠢的事情？你正在提出一种系统，我们可以阻止AGI以危险的方式控制其目标。因为它没有任何目标。

它只是试图对它所看到的数据保持真实，并试图找到数据的解释。所以一种没有目标的非能动性AI形式。没错。在实践中这意味着什么？所以它没有这个反馈循环。没错。它就像一个预言机。是的。是的，所以……一个概率预言机，因为真相，你知道的，从来都不是二元的。是的。存在不确定性，你需要对这一点也准确无误。有趣。是的。

但我们之前说过，我们所处的这种分布式超级智能的魔力在于这种模因信息共享、工具使用、文化、文化转型。那么，如果以这种受限的方式使用它，我们是否会限制智能？是的，但我们也可能拯救自己。确实。我们可以潜在地使用这种非能动性科学家AI

来帮助我们回答最重要的问题，那就是我们如何构建安全的能动性AI？或者可能没有解决方案，但至少我们会有一位超级科学家来帮助我们，或者多位科学家来帮助我们弄清楚这个问题。我们需要弄清楚这一点，因为人就是人，他们想要代理人。但我们应该谨慎行事。现在，我们正在构建代理人

我们希望这些代理人不会在帮助我们构建下一代AI系统的同时试图欺骗我们。但我们正在构建一些可能危险的东西。如果我们在非能动性的一系列台阶之上构建越来越智能的系统，至少对于那部分来说，我们是安全的。

当我们决定跳过能动性挑战时，我们可能会以安全的方式做到这一点，因为我们依赖于智能、知识、理解，

这是真实的，是值得信赖的，不是为了自身而努力。它只是试图回答问题。这些问题包括，这会有效吗？或者哪种算法会具有哪些特性等等。

这可能会如何改变我们的能动性？所以，你知道的，我们之前说过，当然，许多大型分布式系统可能会夺走我们的能动性。但即使我们拥有非常复杂的工具和预言机，在某些限制性情况下，它们也可能，你知道的，真正提高某人做坏事的能动性。当然。非能动性，你知道的，AGI或超级智能系统只解决了人类控制丧失的问题。

它甚至没有完全解决这个问题，因为你仍然可以让人类将非能动性系统变成能动性系统。将预言机变成能动性系统很容易。你只需要将当前状态作为输入，并添加问题，为了实现这个目标，我应该做什么？然后你就得到了一个代理人。然后你将输出以及你观察到的内容作为新的附加信息添加到输入中。

所以你可以创建这个循环。当你关闭循环时，你就得到了一个代理人。当然，这个代理人可能很危险。更重要的是，即使它不危险，人类也可以提出一些问题，让他们获得权力和权力。

做坏事，控制其他人或伤害他人，因为他们有自己的，无论如何，军事目标、政治目标甚至只是经济目标。你的P是什么？我对这件事非常不可知论。我真的不知道。所以我宁愿说我对不同的情况有很多不确定性。

我知道的是，真正糟糕的情况可能会产生灾难性的后果，包括人类灭绝，并且有一些明确的数学论证说明为什么其中一些情况会发生。现在，还有很多我们无法控制的事情，比如监管或技术进步等等。这并不意味着它会发生。也许我们会找到解决方法。

但我认为这些论点足够令人信服，它们告诉我我们应该处理这个问题。我们有点紧迫感，因为我们不知道目前的列车何时会到达AGI。你有什么感觉吗？你对我们有多接近有什么感觉吗？同样，我非常不可知论。老实说，可能像达里奥和萨姆说的那样几年，也可能是几十年。

我们需要为所有这些做好计划，因为没有人拥有真正的水晶球。也许公司里的人掌握了更多信息，尽管不同的公司对此说法不一。所以我建议大家对此持保留态度。但从政策制定或关于如何处理AI的集体决定的角度来看，我们需要关注合理的最悪情况。如果速度很快，

我们准备好了吗？我们有缓解措施吗，技术缓解措施吗？我们甚至有评估风险的方法吗？没有。我们有社会基础设施、治理、监管、国际条约来确保我们在任何地方开发AGI时都能正确地做到吗？没有。是“不，不，不”。也许如果20年后，我们能弄清楚所有这些问题，政治问题和技术问题。

但现在，我们离找到答案还差得很远。你有什么想法吗？因为你知道的，就像我们身处这个竞争激烈的全球环境中，不同的文化，不同的价值观等等。我们如何建立一个有效的AI治理系统？最终目标是没有人，没有公司，没有政府拥有过多的权力。

这意味着治理，就像我们决定的规则，我们如何使用AI等等，必须是多边性的，并且涉及许多国家。顺便说一句，当然，有一些国家处于领先地位等等。他们对分享这种权力有什么兴趣？好吧，因为……

最终其他国家也会弄清楚。我们不希望他们制造一个杀死我们的怪物。或者我们不希望他们制造一些东西，让他们设计杀死我们的武器，对吧？所以有很多糟糕的情况，唯一的办法就是我们找到一种国际协调的方式。现在，在我们前进的道路上，有很多障碍。但如果我们到达那个阶段，并且拥有正确的……

技术和治理保障措施，那么我们就可以生活在一个仅仅收获好处并避免灾难性后果的世界里。所以在我们前进的道路上，障碍之一是美国和中国之间的竞争。许多人说，“哦，我们不能放慢速度来处理安全问题，”的原因之一是

这将允许中国向前跃进。当然，中国也在考虑同样的事情。所以你可以看到这是一个危险的游戏。但也存在其他国家会做一些危险的事情的真正危险。在足够多的领先国家了解存在性风险之前，很难谈判条约。然后，为了让这些条约生效，

需要验证技术。就像，好吧，我们不信任对方，因为同样的AGI可以被用作武器或用来制造新的武器，对吧？那么我怎么知道在我背后，你实际上并没有将你的AGI用于对我来说有害的事情呢？所以我们需要一种或多种方法来进行这些验证。并且有一些研究人员正在研究这个问题。最有希望的是所谓的硬件启用治理。

其理念是遵循现有方法，即使在你的手机中，甚至在其他硬件设备中，例如出于隐私原因等等，我们已经拥有加密方法来获得关于芯片中运行的代码的一些保证等等。所以我们可以朝着这个方向努力，最终得到

只能以某些已被商定的方式使用的AI芯片来简化。你还记得《时代》杂志上埃利泽假设谈到轰炸数据中心的那篇文章吗？对。我的意思是，当然，这是一个极端的例子。也许我们会有一个火灾警报器，某种检测正在开发的先进能力的方法。但你认为我们是否需要做出这种规模的决定？我无法排除这种情况。

显然，我们应该尽量避免这种情况，但我可以想象。实际上，这种情况的一个版本是想象一个在AI方面不领先并且拥有核武器的国家。你可以猜到是哪个。他们不想看到，比如说我们，开发出远远超过他们防御能力的武器。那么他们的选择是什么？是的。

按下按钮。摧毁我们的数据中心。是的。所以当数据中心能够运行AGI时，它们将成为军事资产。如果你的说法是真的，这有点像我们研制核武器的时候。是的。它会造成这种非常迅速的权力失衡，从而产生连锁反应。是的。这就是你看到的。我们需要提前考虑这些可能性，即使是20年后。

想想在60年代签署核不扩散条约花了多长时间，谈判是在二战结束后立即开始的。所以差不多是20年。这就是我所说的我们很有可能弄清楚AGI的时间范围，可能性很高。我可以扮演一下魔鬼的代言人吗？有些人认为……

AI并没有我们想象的那么聪明，这些风险被夸大了。你会对这些人说什么？我希望他们是正确的。但我所感知到的是，我们现在正在构建的AI在某些方面具有超人的能力，同时也具有亚人的能力，即使是一个孩子也不会犯这些错误。我观察到的另一件事是趋势。

如果我看看过去10年以及基准测试，旧的和新的，很明显我们一直在取得进展。这就像没有停止战斗一样。也许会有一个。也许我们会撞墙。我不知道。但是……

如果我们想谨慎行事，我们应该考虑继续这样几年并达到一个点，无论你是否称之为AGI，达到一个能力足够危险的地步，如果落入坏人之手，它们可能会造成灾难性的后果。最终……

即使没有完全掌握所有人类的能力，如果AI在足够多的领域都超过人类，它也可能很危险。说服就是一个例子。你只需要这个，对吧？说服，你可以控制人们，然后人们可以按照你的吩咐去做。

所以你看，你不需要一个无所不知的AI。它只需要非常非常聪明地按下我们的按钮。我只是说，我们对AGI这个概念大惊小怪，但从安全角度来看，我们应该考虑能力，个体能力，如果目标错误，正交性原则，当与我们对抗时会变得危险，对吧？

所以无论是在其他人手中还是在我们失去控制的AI手中，我们都不希望这种情况发生。确实。

所以你与杰夫和简一起获得了图灵奖，这基本上是计算机领域的诺贝尔奖。但杰夫获得了真正的诺贝尔奖。我知道，我知道。我说的时候确实这么想过。但你写道，你对你的毕生工作——AI——可能带来的负面后果感到失落。这是你的毕生工作。我的意思是，你所做的一切都令人难以置信。你如何调和这一点？我是一个人。我应该早点看到这一点。是的。

你知道的，我以前有一些学生对此感到担忧，他们告诉我这件事，我读了一些论文和书籍等等，但我认为，哦，这很好。有些人正在担心这个问题，我们应该做一些研究来了解这些可能性。我很高兴有些人正在研究这个问题。但我直到ChatGPT出现才认真对待它。然后我意识到我负有责任，我不会……

如果我不尽我所能，尽我所能来降低风险，我会感到不安。基于它可能是一种风险？基于它可能，也许不是，但有足够的迹象表明它可能是一种灾难性风险，我觉得我什么也做不了。但是转向，反对我自己的社区，

我一直和其他AI人士在一起说，哦，AI很棒，它将为社会带来如此多的好处。我不得不改变这种思维模式，以包含灾难性风险。

这些想法确实会慢慢渗透到你的脑海中。我的意思是，我和很多安全专家谈过，这些想法只是随着时间的推移慢慢地融入其中。上次采访你时，我看到你的书架上有一本《悬崖边缘》。我相信这对你的影响很大。但你如何看待这种运动的时代精神？在过去几年中它发生了怎样的变化？我对这个很陌生。我正在学习。

我认为我没有预料到在过去一年半的时间里，我开始参与签署这些信件等等，并与记者谈论此事。我认为我们不会像我们已经做到的那样产生如此大的影响。所以，你知道的，杯子是半满的。对这个问题的全球意识要高得多。

半空的问题是，对风险的认识极其肤浅。即使在AI社区中，我也与许多AI研究人员交谈过，然后我问他们，所以你是否一直在阅读或思考这场讨论和辩论？你怎么看？大多数时候我得到的答案告诉我他们读了标题，然后也许他们自己做出了决定。

但很少有人花时间去挖掘，比如阅读，思考，自己做出决定，试图了解不同积极或消极情景的逻辑。这对AI科学家来说是正确的。当然，对于普通民众来说也是如此，因为他们没有参考资料。他们考虑科幻模板和政治家。是一回事。

这场运动有点以西方为中心吗？如果是的话，为什么是这样？所以我和发展中国家的人们交谈过。我也和中国的人们交谈过。从他们的角度来看，很容易理解这个问题是我们的问题。就像我们正在制造这个问题，而他们的问题是落后。

他们将构建的AI系统将比我们在西方构建的前沿系统弱。所以他们的AI系统不会很危险。我们知道，像较小的、能力较弱的系统不那么危险。这完全取决于能力。风险与能力直接相关。我的意思是，风险来自能力和目标，比如意图。

所以如果你没有能力，你就不会造成很大的伤害。所以从他们的角度来看，他们想要获得好处，他们不想落后。顺便说一句，中国也是如此。他们觉得自己落后了。有点落后，但如果你去……我最近去越南领了另一个奖。他们发展很快。他们想拥抱科技、科学，但是

这些灾难性风险的问题，基本上掌握在几家西方公司手中。他们对此无能为力。他们认为他们对此无能为力，但他们认为他们可以通过部署AI、培训员工来设计各种应用并构建他们自己的主权能力来发展经济。但这会滞后。

一段时间。我想知道会滞后多少，因为阿里巴巴刚刚发布了一些非常强大的语言模型。我想问题是，护城河是什么？是技术知识还是原始数据和计算能力？所有这些东西。以及资本，这与O3相关。如果我们冻结AI的科学和工程进步，就不会有护城河。

它会被迅速吞噬。但当然，这不是现实。现实是我们正在继续加速走向AGI。并且至少存在这种“富者越富”的可能性，例如，当我们提高AI的编程能力时，我们可以比以往更快地推进我们的研究。

所以，例如，那些正在构建前沿AI的公司，他们有一些尚未部署的模型。所以他们有一些月份没有人可以访问他们的系统，除了他们自己，他们可以使用这些系统来设计下一代系统。最终，当我们接近AGI时，这意味着我们开始拥有与我们最好的AI研究人员一样好的AI。现在发生了一件有趣的事情。这真的值得解释。

当你训练这些前沿模型中的一个时，假设它需要几十万个GPU，未来的模型或多或少，或者也许是我们还不知道的当前模型。但这是数量级。一旦训练完成，你可以使用相同的GPU创建几十万个AI副本，所有这些副本都并行运行。事实上，更多的是因为如果你想把它们想象成做特定任务的人，他们可以全天候工作，对吧？

所以假设其中一家公司能够构建一个与他们五位最好的AI研究人员一样好的系统，就像精英中的精英。在这个AI经过训练后，它非常擅长AI研究，他们从5个增加到50万个。这是一个巨大的飞跃。实际上，会有中间步骤，AI还不完全像

最好的那些，但现在他们在创建AI的过程中增加了不同能力的劳动力。所以这不会是一个急转弯，但有机会，领先者将开始领先更多，因为他们可以使用自己的AI来进步。我不知道这是否会发生，但这是一种合理的场景，它具有赢家通吃的味道，而公司们对此非常清楚。

所以这就是他们竞赛的原因之一。如果他们认为第二名就足够好了，那么就不会有这么大的压力。但他们都认为这是一个赢家通吃的游戏。辛顿经常说的一件事是，你可以有一千个AI代理。他们可能像冯·诺依曼一样，只是速度快了一千倍。但这真的会这样扩展吗？你知道的，有这本书，《人月神话》。

那就是软件工程，它不能很好地扩展。当你的团队中又多了一个人，你的团队中又多了一个人时，你会遇到这种共享瓶颈。你认为……人类。好吧，为什么会有所不同？好的，一个根本的区别是带宽。人与人之间的通信带宽非常非常小。每秒几比特。而计算机之间的通信带宽，我不知道确切的数字，但它可能是百万倍或一些更多的零。

这是一个非常非常好的理由，说明你可以将工作并行化得更多。顺便说一句，这也是LLM比我们任何人都知道更多东西的原因。这是因为你可以拥有10万个GPU，每个GPU都读取互联网的不同部分，然后通过高带宽通信共享它们的学习成果，其中权重被共享或梯度被共享。

这是相同的过程。所以你可以在计算机之间进行的合作可能与我们在人类之间进行的合作非常不同。它可能更加紧密，几乎就像一个有机体一样。是的，我明白这个论点。我有一种直觉，人类难以理解彼此的原因是我们拥有非常具体的知识和表征。

所以我们对事物的理解非常不同。即使是语言模型，你知道的，我发现O1，因为它在其上下文中有很多干扰因素，所以它在考虑这个，考虑那个，它更容易混淆。以一种奇怪的方式，即使我们复制了所有这些神经网络的权重，因为它们采取了不同的轨迹，然后它们共享信息，我只是在这里推测，但这可能不像我们想象的那么大的提升。好吧，这是10年前的一个问题。

它已经被解决到我们可以将10万个GPU放在一个集群上的程度。我并不是说同样的方法适用于百万或千万，但工程师们已经找到了可以非常有效地并行化的方法，至少对于训练来说是这样。当然，推理更容易，但从某种意义上说，一起解决任务更像是训练，因为你需要交换大量信息才能高效。

显然，我不知道，你知道的，这是否会成为障碍？我只是说条件大不相同。由于这个原因，并行化的断点可能大相径庭。最终，是的，也许它会成为障碍，但这与我们人类的经验相差太远，它仍然是一个巨大的优势。

你认为这些超级计算公司负责任吗？例如，达里奥最近变得有点像加速主义者了。你对此有什么看法？我理解对中国的担忧。但我认为这是一个错误。我认为达里奥并没有犯这个错误。认为要么西方保持领先，要么我们放慢速度并妥善处理安全问题，然后中国可能会接管，这是一个错误。这两种可能性都存在，但我们拥有足够的资源、资金和人力来同时做好安全工作并保持领先地位。做到这一点的方法很简单，那就是确保我们将足够的资金投入到安全领域。一旦你明白

人类的生存岌岌可危，这显然是值得的。或者一旦你明白，好吧，我们明白民主面临危险，所以你想保持领先。你想确保民主保持领先。顺便说一句，我认为如果你认为民主处于领先地位，这也很重要，不仅仅是美国处于领先地位。出于这个原因，我们需要整合所有资源

在安全地朝着 AGI 迈进的同时。这意味着我们不仅需要美国的资金，还需要其他民主国家的资金，还需要其他民主国家的人才，还需要其他民主国家的能源来运行数据中心。我们需要美国的电网可能不足以满足需求的电网。

如果我们做出正确的决定并与多个民主国家合作，我们更有可能同时实现安全并保持某种民主优势。我最近与加里·马库斯谈过话，他说硅谷公司的情况有点像香烟、社交媒体等等，他们

监管不足。我的意思是，我会在达里奥的 Lex 采访中举一个例子。他有点说他们对达到某些智能阈值有一些指导方针。当然，他们自己做出这些决定。现在他们在 O1 模型上做了大量工作。他们让阿波罗研究做了很多安全工程等等。所以他们做了很多好事，但你认为他们应该受到监管吗？是的，这应该是显而易见的。就像，

我们不希望公司自己给自己打分。我们需要代表公众利益的外部中立评估。现在，我认为真正的问题不是我们是否应该进行监管，而是什么类型的监管，对吧？我们如何确保我们不会扼杀这些进步？我认为答案是存在的。因此，一般原则

不要告诉公司他们应该如何去做，他们应该如何减轻风险，他们应该如何评估风险。将透明度作为获得良好行为的主要工具。让我解释一下为什么透明度如此强大。首先，显而易见的是，公司至少在民主国家想要保持良好的公众形象。其次，他们不想被起诉。

如果你的风险评估成为公开文件，或者至少是法官在法庭上可以看到的文件，因为有一些国家安全问题，但有些事情会被删除，有些事情不会。但法官大概可以访问所有信息。所以现在法官会有足够的信息来宣布，好吧，你没有做到……

尽你所能，例如，根据安全领域的最新技术水平。你没有保护公众。所以现在这个人或这群人损失了数十亿美元，正在起诉你，而且他们是正确的。你可以做得更好。所以效果是显而易见的，对吧？如果你知道自己可能会因为危险行为而被起诉，那么你必须诚实地对待风险。作为一家公司，

如果你想避免这类诉讼，首先你需要知道我正在承担什么风险，然后我该如何控制它们以平衡这些可能性。所以突然之间，他们必须做我们想要的事情。我并不是说这是一个完美的流程，但至少它很简单。因此，公司应该被强制注册。政府需要知道哪些大型系统可能存在危险。

然后，那些注册的公司需要在合理的范围内告诉政府和公众他们的计划是什么，所谓的安全框架是什么，他们做了哪些评估，结果是什么，他们计划采取哪些缓解措施，以及他们实际实施了哪些缓解措施。所以如果一家公司

说：“如果我们达到那个水平，我们将做 X。”然后他们没有这样做，如果发生不好的事情，他们可能会被起诉。这就是透明度如此强大的原因。它不需要国家实际判断并告诉公司确切应该做什么。它只是强迫他们披露所有这些信息

也许还有独立的第三方，因为政府可能没有所有的专业知识。因此，我们已经有公司开始进行这些评估，只要他们不是由人工智能公司支付的。所以我们必须小心。我们需要从金融领域吸取教训。我认为这里有一条合理的道路，不会阻止公司

决定什么是最好的，无论是在能力方面还是在安全方面，并刺激安全方面的创新，这正是我们现在真正需要的。是的，这听起来相当务实。我的意思是，我有点担心 FLOPS 法规。顺便说一句，莎拉·胡克写了一篇关于这方面的精彩论文。但是这些公司正在玩什么元游戏？你还记得山姆·奥特曼去参议院乞求他们监管他吗？

我们应该对此感到悲观吗？你认为那只是监管俘获吗？我不读心。更糟糕的是，人们可能会无意识地产生偏见，因为这就是心理学家所说的动机认知。所以他们甚至可能是真诚的，但这只是一个更适合他们的故事，这让他们扮演更美好的角色。我们都会这样做。

因此，默认情况下，我会假设这些人是真诚的。但由于人类可能会欺骗自己，他们会，我们需要其他关注这些项目的人，他们没有任何财务或个人激励措施，除了公众的福祉。在安全方面，也许这将与你稍后想问的问题相关，但在安全方面，还有很多悬而未决的问题。

我说我们需要做更多的研究，这很明显，我们需要提供正确的激励措施。但我想要强调的是，我们需要许多不同的研究方向，许多不同的方向。我们应该欢迎所有试图帮助评估、缓解甚至重新设计我们构建人工智能方式的项目。

因为这太重要了。在我看来，这应该是人类的头号项目，因为我们的未来岌岌可危。所以我们应该集中精力弄清楚如何安全地做到这一点。而现在，有点集中……每个人都在做同样的事情或两三件不同的事情。

在能力和安全方面。在能力方面，我们看到每个人都在做同样类型的 LLM 和 RLHF 以及任何配方。现在每个人都将进行内部讨论。在安全方面，也缺乏多样性。我们真的需要更广泛地投资。这是学术界可以提供帮助的地方，因为学术界天生就广泛探索。

有时学术界可能不是合适的载体。如果你做的安全项目也可能在能力提升方面产生影响，那么学术界可能不是正确的选择，因为你可能不想为了类似于公司不再发布其工作的原因而公开能力方面的进步。我的意思是，就他们而言，这介于

商业竞争以及担心对手利用这些知识来对抗我们之间。或者有人利用它并犯了一个错误，创造了一个怪物。有一些很好的理由解释为什么一些研究需要在学术界进行，而一些研究需要在理想的非营利组织中进行。当然，大部分研究将继续在工业界进行，但在

即使在安全方面，但我们需要提供正确的激励措施，因为这就是序言。而现在每个人都认为，为了构建 AGI，我们需要解决代理问题。我的论点实际上是我们不需要。我们可以构建真正有用的机器，它们不是代理，我们可以通过这样做来大大降低风险

并仍然获得许多好处，并且仍然不会关闭代理的大门，而是以安全的方式进行。非常有趣。当然，如果我们希望学术界进行前沿研究，他们将需要数十亿美元。是的，这是另一个问题。这也是为什么最好

创建一个替代的 AGI 研究载体，它是公共的、非营利的，面向将用于应对人类最大挑战和将安全作为首要原则的人工智能。但这将需要多个政府、数十亿美元。人们谈论人工智能的 CERN。我认为这是

这是我们应该尝试描绘的图景的重要组成部分。是的，激励机制是否也存在冲突？我的意思是，有几家初创公司非常专注于安全，但为了盈利，他们也必须致力于能力建设。这是一个难以解决的难题吗？是的，但我认为许多安全初创公司，我的意思是，这取决于情况。因此，一些安全初创公司正在从事一些工作

例如评估，这不会提高能力。例如，我想象伊莱亚斯·胡斯克的创业公司更像是你想到的那种。是的。是的，确实如此。那么，让我们谈谈你的几篇技术论文，因为，说实话，这太令人难以置信了。你去年只发表了这么多论文。但有一件事让我印象深刻，那就是你的《RNN 是否是我们所需要的一切》论文。你能为我概述一下吗？

当我们在 2014 年引入目前工业界和学术界都在使用的注意力机制时，实际上它使用的是 RNN 作为引擎。这是在 2017 年出现的 Transformer 之前。RNN 存在一个问题，其正常设计方式是……

你不能轻松地跨序列并行化训练。所以你必须一次一个……所以你有一个单词序列，例如。因此，神经网络必须处理一个单词，然后是下一个，然后是下一个。它需要根据之前的步骤构建一个内部状态，即循环状态，以便为下一步提供信息。问题……如果你只有一个计算机，比如一台普通的计算机，一台经典的 CPU，那就没问题了。

但在 GPU 时代，你可以成千上万倍地并行化，你会想，我该怎么做呢？我无法并行化，因为我必须做顺序的事情。所以我们当时做了一些事情来跨示例并行化，但你会失去一些并行化。当然，对于 Transformer，你基本上使用相同的架构，只是你删除了递归。现在你可以一次性并行地完成整个序列的所有操作。

你可以得到梯度。所以在过去几年里，已经有一些论文，不仅仅是我们的，人们开始探索我们如何将一些递归放回架构中。它有一些真正的优势。是的，因此，通过对架构进行正确的调整，你可以做到这些事情。已经有许多可能的设计。我们开始看到这些，至少在较小的规模上，击败了 Transformer。

在大规模上，我不知道，但显然递归有一些优势，我周五会有一些关于这个的演讲，是的，他会告诉你所有关于这个的信息，是的，是的，非常好，但是，在某种程度上，你认为这是否表明我们可能过度复杂化了一些架构或门控机制，例如，这需要多少？

哦，我不这么认为。我认为这些门实际上是有用的。我的意思是，我们很久以前就做了 GRU，它是 LSTM 的简化版本。事实证明，你可以几乎摆脱两个门，但你仍然需要这种非线性才能获得最大的能力。所以这是一个权衡。这是一个权衡。你在表达能力上损失了一点，但在……

能力方面，你获得了如此多的提升，因为现在你可以训练更长时间的更大模型，因为它快得多。所以现在这样做是有益的。这种权衡是有效的。非常酷。所以另一篇论文，一种基于复杂性的组合性理论。现在，由福多尔、波兰人和我自己指导，总是有这样的讨论，即神经网络无法进行组合。你怎么看？是的。

我认为这是一个非常强烈的说法，除了直觉之外，没有任何东西可以支持它。哦，有趣。继续。好吧，我们的大脑是一个神经网络。是的，有什么区别？区别在于，目前的神经网络，不清楚它们是如何做符号性事情的。正如我们之前所说，现在的诀窍是使用输入-输出循环来抛出一些

符号的生成，例如内部讨论、思维链。但这并不完全令人满意，显然这与大脑中发生的事情并不完全相同。然而，这篇论文并不是真正关于架构的。它更多的是关于我们如何量化组合性？这就像一个定义不明确的概念。我们有一种直觉。我的意思是，专家们对它有一种直觉。

我认为它实际上有不同的方面。它不像一件简单的事情。因此，这篇论文以及我们正在做的其他工作试图用数学公式来确定，我们能否量化一些符合我们对组合性直觉的东西？但总的来说，我最近几年的许多工作都是关于

将符号性事物置于神经网络计算的中间。因此，这些 GFlowNet 和生成流网络通常就像概率推理机。所以想想那些具有随机计算的神经网络，它不是确定性的。其中一些可能是连续的，而其中一些可能是离散的。这就是符号在离散领域中存在的地方。当然，这些问题在于我们不再知道如何用反向传播来训练它们，通常的方法不起作用。

因此，我们提出了一些概率推理、摊销推理、GFLOW 网络、变分推理、一系列原则和思想，这些实际上允许训练这些类型的机器。在某种程度上，它们更接近强化学习，在强化学习中，你通常会想到代理采取的一系列动作，它们可能是离散的。然而，你能够获得很好的梯度

但是现在想想同样的原则或一些相关的东西，其中动作不在世界上，而在你的脑海里。动作是关于计算的。我接下来应该进行什么计算？为了给出答案、证明某些东西或提出解释，我接下来应该在我的脑海中进行什么样的讨论？这些是我们希望在神经网络中拥有的东西，我们不必真正拥有系统 2 的能力。

是的，我记得我们上次采访你时谈到了这个问题。我的联合主持人，杜格博士，他将其比作高尔顿板。哦，是的。你知道那些你把小球放进去然后你可以调整的东西吗？是的，你可以控制每一步的概率。没错。是的，非常好。但如果我没记错的话，这是对马尔可夫链蒙特卡罗方法的一种替代方法。是的，因为……

因为它们是随机的，你真的可以将它们视为生成模型。它们正在采样。但它们不仅仅是在最后一步采样。它们一直在采样，就像在扩散神经网络中一样。在扩散神经网络中，你有一些神经网络计算某些东西，然后我们添加噪声，一次又一次。所以这是一个随机过程。你也可以有这个的离散版本。GFLOW 网络是扩散过程的离散版本。

然后你可以混合连续和离散。这实际上更接近大脑的工作方式。大脑是随机的，并且也具有离散性。所以离散性并不明显。离散性是因为大脑的动力学，当你意识到某些事情时，

具有收缩特性，只是一个数学特性，这意味着你可以使这种动力学着陆的地方数量现在是一个离散集合。因此，你不仅可以有一个连续轨迹，你还可以有任意连续的，不，它不是任意的，它是

一堆轨迹通向一个地方，一堆其他轨迹通向另一个地方。所以这些地方，它们就像符号一样，因为它们创建了总可能状态集的划分。所以你或者在这个组中，或者在那个组中，或者在那个组中。这些组的数量非常大，但你得到了离散性。所以大脑同时拥有……

它就像它具有双重性质，从一个角度来看，它似乎只是一个大的激活向量，但从另一个角度来看，你可以读出，哦，我在哪个区域，哦，这就像这个想法，这个符号组合对象，为什么我们需要离散性，这是一个好问题，好吧，显然我们经常使用它，所有的数学基本上都是符号性的

是的。我的意思是，即使你操纵的是关于连续量的符号，你也会得到这些符号。因此，离散性使我们能够构建抽象。你可以想想我们从连续向量空间到句子时所做的事情，去除许多可能并不那么重要的细节，以便我们能够更好地泛化。因此，特别是，你得到了……

在离散空间中，例如在语言中，自然会产生很多这种组合性，这非常强大。这使我们能够以其他方式可能不太明显的方式进行泛化。

在物理世界中，在不同的尺度上，你知道，在涌现阶梯中，这种离散和连续之间的摇摆是不是很有趣。也许甚至在生物世界中，你也会看到这种管状化，其中在一个尺度上，事物会简化并压缩，然后它们再次膨胀，然后再次压缩。即使在神经网络中，这也是我们所做的。我们扩展，我们再次压缩。

你在现实世界中有很多离散现象。例如，你有细胞类型。你有细胞行为的趋同。这是我稍微研究过的一个。在物理学中，你有了相移和相变等等。因此，就动力学而言，再次，当你具有收缩动力学时，这意味着

两点在下一步会更近。你得到的离散性通常会显示出来。这发生在自然界和我们大脑中的许多现象中。在我们离开之前，我正在研究一篇关于创造力的文章。我很想引用你。你对创造力的定义是什么？顺便说一句，我知道你发表了一篇论文，该论文表明语言模型比人类更有创造力。但什么是创造力？这是一个好问题。

所以我认为有不同类型的创造力。为了谈论人们在当前人工智能中看到的东西，你有了已知概念的组合，创造力，我们用我们最先进的 LLM 已经做得相当好了。还有另一种创造力，它有点像新的科学思想

通常它是我们已知事物的组合，因为我们写它，你知道，我们用我们已经知道的东西来定义它，但这与我们所经历的事物相差甚远，我怀疑这种更超乎寻常的创造力需要更多搜索类型的计算，所以

当我们进行科学研究时，有一种搜索。我们尝试这个，我们尝试那个。当然，我们的直觉指导着我们。这至关重要，对吧？但这不像，哦，我们一下子就有了解决方案。这是一个搜索。就像在 AlphaGo 中，有一个搜索和直觉。而现在，我们还没有从我们当前的 LLM 等中的搜索部分获得这种好处。

组合创造力和发明创造力之间存在界限。我不确定这是否是一个硬边界，是否是一个模糊的软边界。但是我们如何衡量这种范式性的发明创造力呢？我不知道。我认为当我们看到它时，我们会认出它。所以如果人工智能真的做到了……

没有人想到过的真正发现。我认为我们会知道我们正在进入那个领域，但这不像你可以做的测试。但我确实认为，在数学层面上，我们可以设计我们的方法，以便它将尝试做到这一点，直觉加上搜索，就像系统一、系统二一样。

所以我相信这会实现，但我们如何量化呢？因此，在某种意义上，科学发现是关于寻找模式的，模式意味着像对世界运作方式的解释空间中的高度可能的解释。所以有很多可能的解释。好的解释能很好地解释数据，

当我们做出新的发现时，我们发现了一种新的潜在解释，它似乎能很好地拟合数据。我们可以将其抽象成小型问题，作为概率机器术语中的模式发现。所以如果人工智能试图发现所有好的东西，所有好的解释，

这将是难以处理的，但它可能更有效地找到它不知道的新模式。我们可以设计的一些任务将侧重于这种能力。所以我认为有一种方法可以回答你的问题，甚至可以在小规模上做到这一点。我们不需要为此解决 AGI。我们可以设计出在其小世界中更具创造力的算法。

是的，我喜欢这种将创造力视为认知觅食的表达方式，因为它赋予了它内在的价值。但也存在这样一种潜在的想法，即它是一种社会现象或观察者相关的现象。例如，类别移动 37 实际上是我们作为一个集体逐渐认识到的一件事。这就是它的运作方式。但我认为有不同的思考方式。

是的，我认为我们没有预料到的围棋棋步是思考这个问题的一个好方法。但我还想考虑一些更普遍和抽象的东西，那就是这种模式发现。正如你所说的认知觅食。我喜欢这个词。这是卡尔·弗里斯顿的术语。啊，好的。好吧，这完全正确。这是觅食。这是探索。你知道什么时候找到好东西了。

但你不知道它在哪里。那么，你如何在非常高维的空间中猜测好东西在哪里呢？好吧，你需要有良好的直觉，但它需要伴随着一些搜索。顺便说一句，人类的许多这种搜索并不是发生在个体大脑中。它发生在集体层面，对吧？是的，确实如此。本吉奥教授，非常感谢您今天加入我们。这是莫大的荣幸。非常感谢你。很高兴。感谢你们的邀请。太棒了。

Yoshua Bengio - Designing out Agency for Safe AI 01:41:53 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Yoshua Bengio - Designing out Agency for Safe AI