We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Nora Belrose - AI Development, Safety, and Meaning

2024/11/17

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Nora Belrose

Topics

Nora Belrose 介绍了 EleutherAI，一个非营利性人工智能研究组织，以及她的团队在概念擦除和概念编辑方面的研究兴趣。她解释了概念擦除技术如何用于深度学习的各种目的，例如公平性和减少模型中的偏见。她还强调了概念擦除的挑战和局限性，例如需要标记数据来定义概念，以及只能删除线性可用的信息。

Deep Dive

Chapters

The chapter discusses the concept of simplicity bias in neural networks and its implications for AI safety. It explores how neural networks progress from simple to complex learning patterns and the challenges in concept erasure through LEACE.

Simplicity is a good inductive bias for models to generalize.
LEACE (LEAst-squares Concept Erasure) is a method for removing information about a target concept in neural networks.
Neural networks start simple and gradually become more complex, which could have important implications for AI safety.

Shownotes Transcript

你能告诉我们这个趋势是如何形成的吗？所以有这些独热向量来表示不同的概念。你认为这是一种潜在的英国形式吗？Na，我M，这些概念是如何标记的，又是如何被训练到模型中的？

嗯，是的。我认为这在应用概念器时存在一个潜在的问题，那就是你需要一些标签数据来定义你的概念是什么。嗯，你知道，在词性实验的情况下，我们使用了叫做spacey的常用NLP库，他们有自己微调的转换器，可以进行词性标记。

所以我们只是将其应用于堆叠数据集并以这种方式获得标签。但是，是的，如果你的标签有点不正确，嗯，你可能不会，至少可能不会做你认为它应该做的事情，就像如果你玩弄标签一样。但我认为这在一般机器学习中都是正确的，你想要确保你的标签尽可能准确。

是的，非常有趣。另一件事是，这是一个后训练方法，也就是说，你有一个冻结的基础模型，然后你可以按顺序应用它于各个层，并且它可以非常有效地完成。我想你在你的论文中提到，你可能可以用流式方式非常快速地完成。但是你是否会考虑将其作为一种方法来从基础模型中清除概念，几乎就像一种微调训练系统一样？

是的。如果你想使用已经训练过的模型并应用LEACE，你实际上可以在某种程度上将最小值写入权重中，嗯，以一种非常类似于Lauren的方式。它类似于用于低秩适应的Laureus DDS。

这是一种参数高效的微调方法，嗯，你可以用最小值做很多事情，因为事实证明，如果你查看最小值解，嗯，它实际上是单位矩阵的低秩近似。嗯，所以是的，你只需要做一点代数，事实证明你可以像这样对权重进行低秩更新，并将最小值应用于模型的后训练。我们还尝试过另一件事，但目前还没有很好的实验结果，那就是以一种非常极端的方式在训练期间应用这种方法。就像从训练开始，你就在应用最小值，并且你还在更新最小值，嗯，在每次训练步骤或每几步训练步骤中，以某种方式记住它，以跟上模型的表示，因为它正在训练，这是一种你可以做的事情，嗯，但就像我说的，这还处于早期阶段，而且还不清楚这是否会比仅仅使用后训练方法带来更大的提升。

这对标题基准准确性有什么影响？因为我空间，我们正在从模型中删除某些形式的统计信息。这对它有什么重大影响？

你看到了什么？是的，这在很大程度上取决于你正在清除的概念类型，对吧？所以，你知道，在论文中，在词性实验中，我们真正关注的是我们有理由认为会影响性能的概念，对吧？我们想看看这种影响有多大。

你知道，这确实有很大影响。我的意思是，我我可能忘记了确切的数字，但我认为在某些情况下，我们就像将模型的复杂性加倍一样，大概就是这样，嗯，但是如果你关注不同的概念类型，比如性别或其他东西，嗯，你知道，我们我们没有像这样非常广泛的结果，但我们发现它通常不会对性能产生很大影响。嗯，因为这是一种外科手术修改。你知道，你只清除了一个维度，而模型表示中存在数千个维度，是的，因为我认为我们正在……

要谈谈你的统计论文，其中有一些有趣的结果。神经网络在有足够计算能力的情况下，可以开始学习一些非常奇怪和有趣的数据特征。这以任何方式否定你在这里的工作吗？

所以这完全没有否定最小值的工作。或者哦。

所以，如果你外科手术地删除了我们已知的一些概念，但神经网络仍然有能力以高频等学习各种统计代理，那么这意味着当我们训练这些大型神经网络时，要外科手术地删除我们认为的概念几乎是困难的事情吗？

最小值绝对有一些局限性。你知道我们已经看到了这一点。我的意思是，最小值的重大局限性在于我们正在删除线性可用的信息。但显然，在我们的深度网络中，它在非线性方面起作用。

有一些关于解释能力的研究表明，即使网络是非线性的，它们似乎在许多情况下确实使用了线性表示，但无论如何，让我们看看，这是一个我们实际进行的实验，嗯，你将图像本身视为概念的目标，你只是清除图像中的类作为概念，然后尝试训练，你这样做，嗯，然后你尝试在这些图像之上训练一个模型。模型仍然可以学习对图像进行分类，对吧？你删除了线性信息并不重要，它们仍然存在更高阶的信息，并且它们可以毫不费力地找到这些信息。

所以，使用最小值的希望，我想它有点双重的。一个是，如果你关注的是对模型性能不那么重要的概念，那么它有点有帮助。但是，嗯，所以它确实学习了它，但就像你知道，它有点像可选功能，那么你知道，希望删除线性可用的信息实际上会影响模型的行为，它不会像默认那样依赖于它。嗯，这是其中一件事。嗯，另一件事是，嗯，我不记得第二件事应该是什么。

我想那已经过去了。我的意思是，因为尽管最小值应用于你的整个网络，就像一堆矩阵变换，然后是非线性，你按顺序应用于网络的每个线性组件。我想你可能认为这以某种方式处理了非线性问题，因为你正在应用它于整个网络。但是你接下来做的是，你创建了一个更高阶的版本，叫做cues，并且你也在研究网络中学习的高阶信息。所以，但你所说的意思是，网络仍然学习这些高阶信息，即使我们已经应用了最小值，它们仍然可以学习其中一些概念。

是的，完全正确。你知道，如果我们清除低阶信息，比如线性可用的信息，或者我们稍后可能会更彻底地讨论可用的信息，也就是二阶信息，嗯，你知道，模型可能使用三阶、四阶或五阶统计来学习概念，但它会更难，并且模型可能比没有做任何事情的情况下更少依赖于这些信息，这就是这个想法。

所以你创建了一个最小值的二次版本……

是的，对。所以这是最小值的后续版本，我们就像，好吧，我们想要创建一种更彻底的清除方法，基本上，嗯，我们操作它的方式是，我们想阻止不仅仅是线性分类器从我们目标概念中提取信息，我们还想阻止二次分类器，所以分类器，其输出就像输入的二次函数，嗯，事实证明你可以做一些数学运算，这相当于使你的类的均值和协方差矩阵相等，嗯，我们做了更多数学运算，并证明可以使用最优传输理论中的工具来实现均值和协方差矩阵的相等性，嗯，所以我们为cues推导了一些更封闭形式的解，我们开始进行实验，特别是我们进行的一个实验是，我们查看了CIFAR-10，嗯，所以我们把图像本身视为表示，嗯，我们试图从图像中删除类标签的概念，嗯，如果你应用普通的最小值，它实际上几乎没有影响，嗯，模型仍然可以非常容易地学习对图像进行分类，事实证明，如果你将最小值应用于CIFAR-10图像，并且你的分类器很小，所以它可能只有两层或三层，甚至四层，特别是MLP，那么它实际上无法学习任何东西，至少在我们的实验中，我们还没有发表。

我们仍然想……是的，但在我们的实验中，我们对这些参数进行了调整。我们无法让这些小型分类器在应用cues之后学习任何东西。所以我们开始对它感到兴奋。

但是这里有一些重大警告，因为事实证明，如果你查看更大的分类器，如果你查看，你知道，一个大型卷积神经网络，比如，你知道，一个ResNet-50或更大的，然后你尝试在这些cues图像上训练它，它实际上会适得其反。现在我的意思是？嗯，基本上，它实际上是我们在第一次推导出cues时如何操作的副作用。

所以，与普通最小值不同，你必须在推理时查看概念的值才能应用最小值。所以你需要，就像，当你将cues应用于图像时，你需要，不，好吧，这实际上是一架飞机。然后然后你使用该信息来选择要应用于它的变换。问题是，当你查看标签时，这实际上会将关于类标签的信息泄漏到高阶统计数据中，如果模型足够深，它们能够检测到这个信号。所以你可能会得到这种适得其反的效果，你认为你正在尝试使概念更难以学习，但实际上你正在使其更容易学习。所以我们基本上没有发表过论文，嗯，cues有一些应用，但它们有点特定，你知道，我们真的认为你应该小心，如果你想使用，嗯，但这些实验，比如CIFAR-10，以及在CIFAR-10图像上进行这些变换，让我们进入了一个新的研究方向，这导致了我们今年的SML论文。我很乐意谈谈这个问题。

嗯，关于这一点的快速想法。你知道，在旧的解释服务时代，我们曾经谈论过锐度值和线，所有这些东西，并且似乎可以无限地追踪，我们可以理解模型在做什么，我们可以操纵它。而你似乎在说的是，当模型变得非常大且复杂时，它们就变得难以理解，难以控制的怪物。我们所有的努力都受到了阻碍，因为它们总是找到方法去做它们想做的事情。

这绝对是一种思考方式。我倾向于比这更乐观一些。

但我确实认为，你知道，这是真的，如果你的梯度下降是一种非常强大的优化，如果你试图直接对抗梯度下降并阻止梯度下降完成某些事情，那么当存在非常强大的你试图阻止中心梯度下降减少损失时，你很可能会输掉这场战斗，特别是如果你没有应用相同程度的优化能力。这有意义吗？嗯，所以我想这是从最后一件事情中学到的教训。

这几乎就像另一个痛苦的教训，但一个关于解释能力的教训。

是的，是的，对。我想你知道，一些其他解释人员已经指出了这一点，但你可能不想优化解释服务方法，或者至少你应该非常小心，你可能不想直接优化模型的解释度量，因为它可能最终学习一些完全不同于你期望的东西。所以，那……

论文，对，嗯，所以，嗯，有一些大型文献，嗯，在我们发表这篇文章之前就存在，关于深度学习中的简单性偏差。所以一般想法是，你知道，当你随机初始化你的网络时，它开始是一个，引号，简单的函数。现在问题是，好吧，什么是简单性？我们在这里谈论的是什么？有很多不同的简单性概念。

但是直观地说，大多数随机初始化的网络都比你训练后得到的网络更简单，嗯，然后你从简单的初始化开始，你逐渐变得越来越复杂。这就是基本思想。有很多不同的论文试图阐明这是如何工作的。

你以什么意义来说模型是简单的，并且变得越来越复杂？嗯，我们的论文对这方面的文献做出了额外的贡献。所以我们从统计信息的角度来看待它，嗯，所以，在统计学中，有一个概念叫做矩，所以分布的均值被称为一阶矩，嗯，然后是方差和不同组件之间的协方差，是二阶矩。

然后你可以谈论数据组件之间的三阶交互，就像三阶矩一样，以此类推。我们的假设，它有点来自这些cues实验，嗯，是模型学习利用或使用这些统计数据，嗯，这些矩，以便。所以，在训练的早期，嗯，模型的预测主要取决于数据的，嗯，一阶矩，或者只是数据的均值。然后它开始更多地依赖于这些简单的相关性，你知道，数据不同组件之间的协方差。

然后它将开始使用训练中的三阶和四阶信息，我们实际上是如何构建假设的，特别是我们使用代码可选的传输理论来获取一类 Seifert 图像，并对其进行修改，使其含义和协方差矩阵与不同类别的含义和协方差矩阵相匹配。你可以使用传输理论的封闭式公式来做到这一点，以尽可能地保持图像不变。这与最小二乘法非常相似，是对图像进行外科手术式的编辑，仅更改其含义协方差，同时保持其他所有内容尽可能相似。如果你查看图像（你绝对应该查看），你几乎无法区分修改前后。

在我们的论文中，我有一张长颈鹿的图片，我们将其更改为飞机，然后更改为鹿，最后更改为青蛙。你知道，你可以在背景中看到一些细微的差异，但它几乎是同一张图片。因此，对于人类来说，这并没有改变任何东西。

事实证明，如果你在训练初期（例如，前几千步）对模型应用这种变换，它们基本上会被愚弄。因此，在训练初期，图像分类器很可能会将经过编辑以看起来像飞机的长颈鹿（从二阶统计的角度来看）分类为飞机。我们在论文中量化了这一点。

是的，我想问为什么你可以对单元进行这些修改，而对于人类来说，它看起来仍然一样。我是一位经验丰富的视频编辑，我知道你可以修改值的分布，例如，它可能以 RGB 格式记录，你可以压缩、平移，并四处移动事物，你可以更改均值，而视觉上它看起来仍然一样。

你知道，你可能只是改变了亮度或类似的东西。所以事情是这样的，你可以让机器学习算法看到它是一个不同的东西，但从人类的角度来看，它看起来仍然一样。

是的，完全正确。你知道，人们以前也提出过类似的问题。我的意思是，整个对抗性示例文献，你可以在图像中更改几个像素，而它会完全改变类别。我认为这里存在不同的机制。

这不仅仅是因为，例如，我们没有针对网络进行优化。所以它不是以那种意义上的对抗性。但它表明，尤其是在训练初期，这些网络对人类不太依赖的简单特征很敏感。

这很有趣。因此，存在复杂性的解开过程，使用 GPT 的语言，最初它专注于一些非常简单的事情，可能正在查看统计矩。然后，随着你继续训练网络，它开始查看越来越复杂的特征。

是的，完全正确。我们在论文中展示了这一点，有一张图表，其中一个轴是时间，就像训练步骤数一样。另一个轴是准确性，准确性是根据我们应用这些概念编辑或传输理论的目标标签来测量的。

因此，我们展示了网络应该将长颈鹿识别为飞机，并说它应该将长颈鹿分类为飞机。准确率在某些情况下会在大约 1000 个训练步骤左右达到 40% 或 50%。然后它开始下降，对吧？我认为训练结束时它仍然高于 10%，这至少对我来说很有趣。但是的，这是一个非单调过程，它从随机开始，然后被我们的东西愚弄，然后变得更聪明，不再那么容易被愚弄。

所以很有趣，简单特征很容易防御，它们对人类来说是可理解的。这引发了一个问题：我们是否真的希望网络学习非常复杂的特征？我的意思是，我们是否不更理想地保护它们，以便它们只能学习我们理解的简单特征？并且在简单特征上，更强大。

是的，对。我认为这很大程度上取决于你所说的简单以及手头的任务。

我认为，从广义上讲，简单性是一个很好的原则，关于深度学习中简单性偏差的文献确实倾向于说，这是模型泛化的原因，如果它们没有任何简单性偏差，并且从一开始就非常复杂，那么它们可能会过度拟合，或者根本不会表现良好。因此，你需要某种归纳偏差，例如，有不同的方法来拥有归纳偏差。但你绝对需要一些东西。

为什么是这样？你说的很有趣。这几乎就像孩子们一样，神经网络开始学习简单的函数，然后几乎分支成越来越复杂的函数，就好像如果没有先学习简单的函数，就不可能获得复杂的函数一样。但是，例如，突变是某种东西，它们似乎会使这种转变发生到完全不同的函数类型。

我对此进行了一些研究。我不会说我像专家一样了解该领域。我认为人们倾向于高估突变发生的速率。

有一些图，我不确定，在某些论文中，我看到了一些图，这些图展示了突变现象。它看起来像增长非常快。但实际上，如果你仔细观察，横轴是使用对数刻度。

因此，突变实际上发生在训练的至少一半时间内，但是的，突变是一个有趣的情况，因为它恰恰是规则的例外，你倾向于从简单开始，然后变得更复杂，在突变发生的情况下。这是因为存在某种衰减或其他正则化，它鼓励模型随着时间的推移变得更简单。我几个月前读过一篇论文，它以一种对我来说非常有说服力的方式将神经网络切线核应用于此。也许我们稍后可以找到它并将其添加到描述中，但这确实是一个有趣的话题。

关于一般高频特征的最后一个问题。多年前有一篇很棒的论文（可能是 Will 和 Brando 的论文），讨论了视觉模型倾向于过度拟合纹理，因此它们不像我们那样学习猫。它们查看猫皮毛的特定纹理，这使得网络在基准测试中表现出色。因此，似乎存在一种权衡，我们是否应该阻止新网络过度拟合纹理？

是的，我不知道。我想，在图像模型的情况下，如果图像分类器能够过度拟合猫的纹理，正如你所说的那样，专注于纹理而不是形状，并且在基准测试中仍然表现出色，这可能表明基准测试可能不如我们希望的那样好，或者它们可能有点……我认为，如果你想构建自主机器人或类似的东西，你可能需要一个具有更多形状偏差并且比我们训练过的许多网络更强大的计算机视觉系统。

你能区分含义和价值吗？因为在我脑海中，我回到这个对话，在关于什么是价值的更广泛讨论中。

是的，它们密切相关。我想，也许我认为含义更具个人色彩，即使它与更大的事物有关。但它有点像，好吧，这个人生活中有什么意义？价值是一个更广泛的概念，不一定与个人相关。

我指的是含义与目的相关。

许多人会谈论人生的意义，对吧？你可能会将其重新表述为人生的目的，人生的意义，人生的目的，它们在两者中似乎都差不多。你可能正在寻找一些可能在生命之外或在生命中外部的东西。

我知道很多人认为他们人生的意义在于来世，在于上帝，在于某种超自然和超越此生的东西。当然，并非每个人都持有这种观点，但这是一种常见的观点。如果你认为生命有目的或意义，你可能会认为生命对其他事物具有工具性。就像，你知道，人生只是通往其他事物或其他任何东西的旅程。我倾向于不喜欢这种观点，我认为我们不应该试图将生命作为其他事物或外部事物的工具，部分原因是我们没有充分的理由认为存在外部事物。但即使存在外部事物，我认为我们也应该在生活中寻找意义，我们应该以能够满足并仅在日常生活中、我们的互动中、我们的爱好中找到意义的方式生活，而不是因为我们认为它最终会汇聚到未来或子孙后代身上，即使你知道……这是任何观点。

所以这听起来有点像你认为意义与个人或集体有关。

是的，我认为它与之相关，尽管我不想将其简化为……快乐的感觉。你知道，这可能是一部分，但它不仅仅是情绪状态。

含义与善之间的关系是什么？

我会说善是相关的。我的意思是，善是一个非常广泛的概念，它只是指你认为有价值的任何东西，你可能想要促进或类似的东西。因此，根据我的定义，意义就是善，但可能还有其他事物也是善的。

你认为某种完美的模拟机器，你知道，体验机器是什么？那好吗？

是的，这是一个很好的问题。对我来说，这取决于是否有其他人与我一起在体验机器中，如果我们有数百万人在体验机器中生活，彼此建立关系，我并不一定反对，这可能取决于细节。

但从某种意义上说，随着我们发展技术，使我们的环境更舒适，使我们付出更少的努力来实现我们想要的方式，我们正在逐渐走向一种集体体验机器，你知道吗？虚拟现实显然是朝着那个方向迈出的一步，但它都只是……是的，我不一定反对体验机器类型的东西。但如果只有我一个人在体验机器中，没有其他人与我在一起，或者其他人实际上只是虚构的，而不是真正自主的意识个体，那么我可能会反对。

意义与意识之间的关系是什么？

是的，这是一个很大的问题，我最近一直在思考这个问题。至少大多数人认为意识是……意识，某种东西，至少暗示它可能具有道德价值或可能……因为如果某物有意识，那么它可能能够体验快乐和痛苦，体验好的或坏的意识状态，至少在其他条件相同的情况下。就像帮助那个生物体验更好的意识状态可能很好一样。我不一定将所有善或价值都简化为意识状态，那有点功利主义观点，但我认为它是我所重视的一部分。

你认为需要意识才能拥有道德地位吗？

嗯，这取决于你所说的道德地位，我会说不是，因为如果我这样想，可能会有一些反例，类似于无法做出声明。

但我猜我会说，我的意思是，有些人认为，你知道，自然本身，比如一座山或一棵树或类似的东西，可能具有道德地位，而无需有意识，我不知道。我认为这至少有点奇怪。我不确定我对此的具体看法。

你认为在全球互联的世界中，意义比在本地互联的世界中更大吗？只是为了使问题不那么绝对，我的意思是，你可以成为一名大企业家，成为比尔·盖茨，或者你可以在当地社区做园艺工作，并从中获得内在价值。

我不知道。我想我倾向于认为互联性是好的，或者团结是好的。但我没有强烈的直觉。

那么，你认为回声室，拥有不同人群的各种小圈子，各自创造意义，这好吗？你更喜欢单一的人群吗？

是的，我认为这是一个真正的……反对意见。我的意思是，无论你如何看待类似矩阵的模拟论证，无论如何，在我看来，我们可能处于模拟状态，我们没有先验的确定性来证明我们不是模拟，同样，如果打开我的头骨，实际上里面可能有硅芯片，从主观上讲，我不知道有什么区别……这看起来很奇怪，尽管有哲学家说，我们知道我们不是模拟，因为模拟会产生意识，这实际上是……我不知道，我只是觉得那只是不合理的自信。我想我不知道他们从哪里获得这种自信……而且，嗯，还有一个奇怪的事情，嗯……我不知道伊万·汤普森是否相信上帝，但是如果你相信，那么看起来好像他会说，如果上帝存在，那么僵尸或者我们就没有意义，因为上帝是……传统上，上帝被认为是某种模拟器的角色，即使你不认为它是一个小型计算机模拟器，它赋予一切意义，它设计了所有事物……这看起来像一个奇怪的立场，如果上帝存在，那么我们忙于……所以，嗯，你如何区分？

伊万·汤普森的论点仅仅从标准的唯物主义角度来看？他认为意识是突然出现的吗？或者他认为它会很快出现？所以，实际上，在他的著作《生命中的心灵》中，我已经读了前几章……

但是，在我理解的范围内，因为他们应该，他实际上是从一个相当不同的角度来看待哲学和形而上学等等，与大多数自然主义者（他们可能是有限的唯物主义者或所有人的虚无主义者）不同，因为他从所谓的现象学开始……现象学是这种……我得到的哲学分支，由胡塞尔、西尔和我想是19世纪末、20世纪初的人们开始，然后是海德格尔和梅洛-庞蒂，他们都继续了这项工作……但是现象学的基本思想就是我们从我们的生活经验、我们的身体经验开始进行哲学探究，作为金属点，我想强调这一点……所以他们说，好吧，我们感知到的东西，你知道，我感知我的身体，我看到一个景象，我感知这个房间。所有这些都是我们进行哲学思考的起点。然后，从我们的生活经验出发，我们开始形成哲学和科学理论，使我们能够……

更好地理解和预测和控制我们的经验。但是，你从根本上来说，生活经验是所有事物的基础。嗯，所以从这个角度来看，他肯定不会说意识是一种错觉或不存在。他确实对意识有不同的看法，与其他一些哲学家略有不同……但是，嗯，但是他确实从某种程度上从经验或意识开始……而像丹·德纳或凯·弗兰基什这样的一些更纯粹的唯物主义者……他们不是从经验开始，他们想说，也许我们不需要从任何地方开始，或者我们从科学开始，或者类似的东西……然后，因为他们从科学开始，他们就说，我们真的无法对意识进行敏感的思考，所以我们干脆忘记……

听起来很像唯心主义。你知道，心灵的东西是根本的，即使那样，也有主观和客观的唯心主义版本。但是你会把他归入那一类吗？

我认为伊万·汤普森很可能会不愿意被称作现象学中的唯心主义者。在现象学中，有不同的现象学家对经验的本质有不同的看法。

我认为胡塞尔可能更倾向于一种唯心主义的视角……他以APP概念而闻名，基本上，你……你在观察你的经验，你在描述它，但你试图……避免假设你的经验与某种客观现实相符。你不想说，哦，它没有反映你的客观现实。你也不想假设那样，但你只是要保留对客观现实是否存在于其背后的判断。

所以这听起来更像是唯心主义。这种方法就像，嗯，这只是经验，这就像某种精神或类似的东西。它可能与客观现实不符，但其他现象学家，比如海德格尔或梅洛-庞蒂，通常被认为不太唯心，尤其是梅洛-庞蒂。嗯，他真正关注的是身体作为你体验事物的载体的重要性。

所以，他只是想说身体是真实的，身体不是传统意义上的精神事物……他还有一些有趣的观点……你知道，他会说，比如我们直接的经验，我现在直接的经验包括你这个人，包括一台相机，包括这些窗户，包括这些物体，他会说，这在人们思考唯心主义或至少某些关于意识体验的方式时，会让人感到困惑。他们会说，你的经验实际上并不包括人、窗户和物体，因为那是你对经验的解释。你的实际经验只是颜色和原始声音，就像未经解释的原始感觉场一样，他会说，这就是真实的。

解释就像某种伪造或类似的东西……这就是梅洛-庞蒂的观点。他想要拒绝这一点，因为他会说，好吧，看看，街上的人，或者在你开始思考哲学之前，你肯定没有把你的经验看作是关于颜色的。以及原始感觉，这种你看到岩石颜色与具有这些颜色的物体分离的想法，这是一种事后从哲学思考中产生的抽象。但是，实际上，你的经验中真正存在的是具有属性（如颜色）的物体，但物体就在那里，你直接体验它……所以，如果你采取这种方法，那么称之为唯心主义就显得不那么明智了。我的意思是，你可能仍然想称之为唯心主义，但它在传统的唯物主义和唯心主义二分法中很难归类……我认为……

有某种唯心主义的粗略形式可以被认为是……

……现实主义。是的，我的意思是，我想知道约翰·维尔瓦如何看待“真实”这个词以及“现实”的概念。他说真实是一个比较术语。所以，说某事是真实的，只有与你正在谈论的其他事物相比才有意义。你的错觉，就像你只是说一切都是错觉一样。好吧，我想，也许……也许你不太清楚，如果你说一切都是错觉或一切都是真实的，那么它们几乎是一样的，因为你没有做出任何区分。在我看来，为了使现实的概念有意义，你需要能够区分，嗯，这是真实的，或者比另一件事更真实，所以这是一种程度问题，以及事物之间的比较问题……所以，嗯，我不喜欢那种想说，嗯，你知道，唯一真实的东西就是量子场、粒子等等……我的意思是，你可以这么说，但是说它的意义是什么？我不知道，这看起来就像你在试图……但它不是……这不是思考事情的有用方法。

然后，弗兰基什在谈论意识的错觉时……

……他们是什么意思？是的，老实说，这个词“虚无主义”让我有点沮丧，因为这个词本身……因为很多人听到“虚无主义”时，他们认为原作者的意思是意识根本不存在。没有人曾经感到痛苦。没有人曾经体验过任何东西……至少不是他们说的意思，我的意思是，也许有些人说，没有人体验过痛苦。人们体验过存在，意识存在。

它只是不是你认为的那样，而且他会说，知觉（意识的一种特定哲学概念）是不真实的，是一种错觉……所以，嗯，是的，所以……我不喜欢这个词，而且在本质上，我不同意……我认为，你知道，凯·弗兰基什和一些其他虚无主义者……至少我认为一些虚无主义者会说，没有什么是像你那样存在的。他们想拒绝“像你那样存在”的概念，他们有一些论点来支持这一点，因为他们会说，哦，你总是对你的经验进行解释，而“像你那样存在”取决于你如何解释它。所以没有客观解释。有类似的论点。

但是，我认为这些都是……嗯，或者你知道，我认为是的，你可以用不同的方式解释你的经验，但这并不意味着它是不真实的，他们只是回到了对“不真实”或“错觉”一词的过度使用。我只是想，为什么这么说？我的意思是，我不知道，这对我有什么意义？如果我认为这是不真实的，或者类似的东西，我应该如何改变生活？

我不知道。这不太清楚。是的。每当……

……你试图提出这些论点时，你会被指责是虚无主义者，因为我很快就会被指责，因为约翰·塞尔、托马斯·内格尔，他提出了“像你那样存在”这个术语，他也会被指责是虚无主义者。但是，真的很难以任何有意义的方式谈论这种质性经验。

是的。所以，有一种观点认为，你知道，质性经验就像婴儿一样，或者说，这是一个人们经常使用的术语，我的意思是，从某种意义上说，它显然不是字面上的意思。你可以尝试描述，你知道，我现在描述我的经验。但是他们说的是，你知道，你总是会错过你经验的某些方面。你永远无法完全描述它。

嗯，我的意思是，我认为这是真的，尽管我想我会……我想从某种程度上扩展到几乎所有事情，我想说，是的，所以经验从某种意义上说是不可避免的，因为你无法完全描述它的所有方面，但这几乎适用于所有事物，也许这与我同情现象学的方式有关，正如我之前所说。如果你从生活经验作为所有其他事物的基础开始，那么，是的，生活经验就像……你无法完全描述一个池塘，但这就是基础。其他一切，就像没有其他任何东西可以完全描述一样，但无论如何，这就是我思考它的方式。

所以，你最近在《少错》上写了一篇文章，对吗？

它既在《少错》上，也在《乐观主义者》上，关于人工智能，我想我应该说，昆顿·波普也和我一起反对“计数论证”，没有证据表明人工智能会带来末日。

是的。所以，你知道，很多人担心人工智能会造成大灾难，某种程度上接管世界，杀死所有人，类似的事情。并且有时会使用一种论证来得出这样的结论。这实际上是一系列类似的论证，很难确切地确定它是什么，实际上，在我们写这篇文章之后，我们意识到，我们想，好吧，这就是我们认为的论证，然后人们后来会说，哦，你漏掉了……所以很难确切地知道。

但是，某种程度上，当你训练人工智能变得友好或对齐时，无论如何，你试图创造一个超级智能的人工智能，它关心你的福祉，它关心你的利益，这就是你正在尝试做的事情……但是，有一种假设，即人工智能将拥有一个目标，将拥有某种解释其行为的总体目标。这总是……这总是某种假设，我可能会质疑，但它被包含在论证中。存在某种目标，某种程度上描述了它的总体行为……然后他们会说，好吧，人工智能可能有许多不同的目标。

有无限多个。你可能有数万亿个，或者类似的东西。人工智能可能真的想帮助你，但它也可能想最大化纸夹的数量，或者它可能想让每个人都皈依某种宗教，你知道，任何事情……他们会说，无论如何，它可能是任何事情……然后他们会说，好吧，我可能拥有的许多目标都会促使它采取对齐行为，假装它关心你。

我真的很……你知道，这真的很像，大多数目标都会促使它假装对齐，而实际上并不对齐，因为它的真正目标是让每个人都皈依某种宗教，或者类似的东西……所以，这个想法是，好吧，你将会有这种……欺骗，你知道，这里有一个假设，即它理解它正在训练中……所以它会意识到，好吧，我必须玩训练游戏，假装你知道，我正在做人类想要我做的事情……然后，当它找到机会时，它就会抓住机会，你知道，嗯，消除任何安全措施……无论如何，它会逃脱，并某种程度上控制政府，或者类似的东西。你知道它会做什么。它会做它想做的事情。

所以，从根本上讲，这个论点是基于许多可能的目标都会促使它采取对齐行为，假装对齐。但是，我真的很……很少有目标实际上是对齐目标。好的。

听起来像是说，通过工具性收敛，会有许多中间子目标，以实现外部目标。这就像说，会有许多目标，实际上会产生欺骗性目标。

但是，许多目标会产生欺骗性行为。是的。所以它也……

这意味着，在工具性收敛中，欺骗性目标意味着工具性目标可能更少，而且相当标准，比如权力追求。这里的情况类似吗？

是的，所以这个想法是，你有一个最终目标，它会激励明显的行为，然后你还有工具性目标。所以，是的，这里确实存在一种工具性收敛的主张，即欺骗可以被视为一种工具性目标本身，例如权力追求，可以作为某种工具性目标……是的，从某种意义上说，这是对之前提出的其他论点的重新阐述，但是……是的，在文章中，我们……提出了各种更细致的论点或论据……所以，我们的第一个批评是，好吧，看看这种一般论证方式不可能可靠，因为还有另一个论点，它与原始论点在结构上几乎相同，但结论荒谬。……荒谬的结论是，基本上几乎所有网络都会过度拟合训练数据，永远不会泛化。

好的，所以论点是……存在大量函数，神经网络可以学习，这些函数都与在训练数据上获得低……损失一致。好的，但是这些函数中的几乎所有函数在验证集或其他分布上都会表现得很糟糕。……因此，你应该期望，几乎每次训练模型时，它都会学习那些在训练集上表现良好，但在训练集之外表现很糟糕的函数之一。

因此，你应该期望几乎所有网络都会过度拟合。好的。现在很明显，这不会发生。我的意思是，过度拟合是一个问题。这不是说它永远不会发生，但它不会……

它不是像预期的那样总是以极端的方式发生，但它可以被该想法预测。当然。你知道，可能会有反驳。

你知道，我们可以深入探讨，如果每隔一段时间……但是我们然后会说，等等，为什么这种一般论证结构不可靠或错误？这里到底出了什么问题？我们指出了几个不同问题。其中一个问题是……它依赖于一个被称为“无差异原则”的哲学原则。所以，无差异原则……你知道，我可能最容易用这个简单的例子来说明……

所以，如果你有一个硬币，上面有两面，然后你问，它正面朝上的概率是多少，它反面朝上的概率是多少，无差异原则说，嗯，你应该给每一边都赋予一半的概率，因为只有两种可能性，你没有理由偏好其中任何一种。所以，你知道，这是一个直观的原则……我认为它从硬币或六面骰子这样的例子中获得了直观的可信度，并为每面分配了六分之一的概率。但我认为这实际上是一个微妙的谬误论证，因为你知道……存在一种不同的应用无差异原则的方式，会得到截然不同的结果。

而且，如果我们这样想，如果我们抛硬币，我们可以将硬币抛掷的结果视为二进制的。这就像我们之前做的那样。你也可以将结果视为三维的，例如硬币抛掷的三维方向。这实际上是一种更……你知道，还原论、唯物主义的方式来思考硬币抛掷的结果，对吧？因为这就像一个真正的物质物体，它有特定的方向，我们只是给它赋予了正面和反面的解释，实际上它只是一个物体，对吧？所以，也许你想做的就是说，结果是这个三维方向。它与 X、Y 和 Z 轴（或类似的东西）相关联的角度。

如果将结果空间解释为三个方向，那么无差异原则会说，嗯，你应该给每个可能的方位都赋予相等的概率，对吧？但这显然是错误的，因为……它几乎不会以这种方式着陆，它不会以一种重力不稳定的方向着陆，或者它不会以一种会掉落的方式着陆，对吧？所以，无差异原则的根本问题在于，它取决于你如何分割或解释结果空间。

不同的分割或解释方式会给你带来截然不同的结果。也许我再举一个例子，这样你就能理解……想象一下，有一个叫鲍勃的人，你知道，他可能在英国……或法国……或者他位于英国或法国的某个地理区域。

而且，法国与英国相连，所以……他就在那里，但你不知道他确切的位置。……现在，你可以问的问题是，嗯，他是在英国……

还是在法国？根据无差异原则，你知道，你会给法国或英国赋予 50% 的置信度。好的，但是你也可以以不同的方式分割可能性空间。

你可以说，嗯，他是在法国，还是在英格兰、威尔士、北爱尔兰或苏格兰，或者你可以查看法国的不同地区。你知道，你可以以各种不同的方式分割事物，你会得到不同的答案。如果你以不同的构成国家来分割英国……

你会说，他位于法国的概率是五分之一，然后位于英国其他地区的概率是五分之四。我认为哲学家们很早就注意到这一点，我认为他们仍在争论如何精确地理解这一点。

但是，你知道，人们普遍认为，你不能简单地应用无差异原则，你必须非常小心地应用它。否则，你可能会得到一些疯狂的结果。

我认为这就是其中一个疯狂的结果。所以，我认为基本上“计数论证”是……它假设你可以将训练过程的结果空间分割成这些目标类别或类似的东西，其中……好吧，它存在各种各样的问题。它就像……

所以，一种思考方式是，你认为存在离散目标，存在数十亿个不同的目标，然后你认为人工智能从数十亿个不同的目标中进行选择。好吧，首先，假设目标是离散的事物似乎非常奇怪，因为它取决于你如何描述目标。这真的很奇怪。好的。

所以，也许你不想描述目标，描述事物。也许存在一个连续的目标空间，你知道，从根本上说，问题在于你可以根据需要描述可能的训练结果空间。你可以将其描述为活着或不活着。

它有 50% 的概率，然后你错了。你知道，我认为这是一种根本上不合理的思考方式。而且，你知道，如果你想获得关于人工智能在线的更可靠的答案，我认为你应该根本不依赖无差异原则。你只需要看看正在发生的事情的具体细节，并尝试建立一种机械理解，而不是依赖这些抽象原则。

是的。这与我对代理工具主义或代理错觉主义的立场有关。因为你可以争辩说，一方面，目标根本不存在。但你也可以像你所做的那样争辩，我们对目标的表示存在显著的歧义。

是的，我认为这是正确的。所以，文章中有一部分，我……实际上有点……如果我重写论文，我可能会以不同的方式开始下一篇文章，我可能会以不同的方式重写它，但我们确实指出，你知道……计数论证似乎假设目标是真实的事物，你知道，它们是真实的，你可以计算它们，对吧？就像人工智能有一个特定的目标，而不是另一个目标，而不是将目标视为仅仅是用于紧凑地描述行为的有用描述。

我仍然主要坚持这一点。我认为……对我来说，使用这种论证的人，或者倾向于使用这种论证的人，对目标过于重视，并将其视为抽象。话虽如此，我认为很容易走极端，说目标只是错觉，你知道，我不想这么说。我的意思是，你知道，如果目标足够有用，以至于我们一直在谈论它们，那么你不能说它们完全不存在。

是的。我对此思考了很多。我也对菲利普·巴尔的观点感到厌倦。我的第一直觉是，任何智能系统都会有目标动态性。所以，你知道，认为一个超级智能体只有一个目标，即使它们以我们设想的方式存在，也没有意义。我们谈论的是一个庞大、难以捉摸、强大的智能体。

因此，我们对目标的抽象方式可能并非目标的实际情况，这也与丹尼尔提出的这种意向性立场有关，即我们作为代理人，我们采取这种立场，建立模型，进行溯因推理，并根据我们对他们目标的预测来理解另一个代理的理性行为。但这非常符合工具主义观点。

是的，这是个好点。我的意思是，我认为大多数人对丹尼特的解读是，他认为这是一种工具主义，说，好吧，这只是意向性立场。

这只是思考代理的一种有用方式。简而言之，我们只是用目标来描述系统。但从更深层次的意义上讲，它并非真实存在。但我认为，你知道……是的，这只是回到了我们如何定义真实以及说某事是真实或非真实的含义。我的意思是，我认为，如果某事足够有用，以至于我们一直在谈论它，那么你不能说它完全不存在。

我认为一个有用的区别是，如果它是一个非常难以捉摸的响应机器，并且它只是动态地从一个目标跳到另一个目标，那么我认为可以说它没有目标。你知道，目标并非真实存在。

对吧？是的，你知道，你可以争辩说，我猜我在这里采取了一种碎片化的立场。如果人工智能的目标一直在变化，那么用目标来描述它可能并不实用。也许最好只谈论行为模式或类似的东西。

考虑到这一点，许多目标论者和许多符号主义者认为，设计智能系统最好的方法是明确地制定目标，以及某种元学习系统，创建子目标等等。我一直觉得这将描述与事物混淆了。

所以，这没有意义，你应该构建实际事物，而不是构建描述。我应该如何看待这一点？

是的，我的意思是，我猜我倾向于认为……我认为我同意你的观点。我有点喜欢将训练一个有益且无害的人工智能比作抚养孩子。这有点像这样，当然你可以将其作为比喻过度使用。

但我认为，当你抚养孩子时，就像训练动物一样，你不会将目标硬编码到其中，或者甚至真的试图在技术目标意义上将目标硬编码到其中，即某种单一事物激励所有其他行为。你通常只是试图灌输一些一般模式，试图灌输一些一般价值观和本能以及行为模式。但这不像在系统中插入效用函数或类似的东西。

是的，因为正如你所说，我们抚养孩子，我们仍然灌输原则和美德，那么这如何帮助我们实现对齐？我的意思是，一种方法是，我们只关注行为，并将系统视为一个难以捉摸的实体。

我猜我会说，你知道，当然，作为可解释性研究人员，我们能够做一些与孩子或动物相同的事情。你知道，我们可以观察他们的内部状态，并以比孩子或动物更精细的水平监控它们，这实际上是我和昆顿·波普在另一篇文章中提出的论点。

人工智能很容易控制……但是……你知道，人工智能是白盒，从某种意义上说……你知道，动物和其他人不是……它们只是字面意义上的，我们无法直接观察它们，因为这不是任何人都编写的计算机代码。这不是说我们编写了代码，但我们仍然有各种工具可以用来观察人工智能，在某种程度上，我们可以看到它在想什么，你知道，我们可以训练探测器，例如语言模型。这实际上是我第一篇论文中的一篇论文，叫做“调谐透镜”。

你可以训练这些小的线性，基本上就像线性类型的层探测器，在语言模型的每一层。你可以看到它预测，比如它对下一个标记的预测是如何从一层变到下一层。在早期层中，存在一些解释预测，比如你知道我们依赖于获取的简单特征，并且随着它的上升，它变得越来越复杂。

你可以做很多这样的事情，所以这就是所有的事情。我们有更多工具，以及用于 A S 的白盒工具，而我们没有用于儿童和动物的工具。话虽如此，我认为我们可以从人类和动物案例中学习。举个例子，人们现在正在研究一些准确的数据。

你知道，当我们第一次开始训练大型语言模型时，训练数据的创建非常少。我认为像开放眼睛使用的一些东西，比如瑞特卡玛（reit karma），用来过滤链接和尖峰，我不知道，我肯定不是那种精细的创建，但是人们现在正在朝着这个方向发展，特别是对于较小的语言模型，我们正在使用更多合成数据。生成式模型正在使用大型语言模型或所有语言模型来生成新语言模型的数据。我们还在使用 AI 作为数据安全过程的一部分，以更精细的粒度来确定我们希望我们的 AI 看到哪些内容。你知道，这有点类似于孩子们是如何思考的。

比如，我们希望我们的孩子看到某些东西，而不是其他东西。你知道，孩子们很容易受影响。AI 比孩子们更容易受影响，所以，我认为，仔细的数据安全是调整的关键部分。我认为，有一些简单的步骤可以走很长一段路。

是的。所以，在数据方面，存在着对输入内容的筛选，然后还有很多事情，比如树状思维，以及塑造输出行为的方式。例如，一些公司正在开发对齐系统，明确地制定目标。

他们说，这是我们想要的，公司想要多少利润，我们希望这个人明年达到这个绩效目标。我觉得这个系统有点脆弱，原因有几个，我的意思是，它引入了好心法则，以及聪明的手效应，你知道。所以，它可能会出于错误的原因做正确的事情。而且，我觉得我们需要某种动态性。一个智能系统可能需要做一些我们无法想象的事情才能成功。

是的，这是真的。我的意思是，我想你可以尝试以不同的方式给 AI 设置目标，对吧？所以，我认为有些版本比其他版本更令人满意。我的意思是，我不知道，任何组织、公司或类似的东西。很多时候，员工会得到一个目标，比如，他们会得到一个指示，这基本上是一种情境目标，比如，我们有截止日期来完成这份报告，我们有销售额的特定指标，等等。

但是，我认为我们一直在这样做，当然，这可能会导致问题，比如，如果你有指标，它们可能很好，或者很难，但最终，这些事情似乎有点愚蠢，只是将问题分解成部分等等。我认为我对这些关于末日的论点之一的问题是，它们假设当我们给 AI 设置目标时，AI 会以一种非常不自然的方式接受目标，它会将其视为自己生活的目的，就像一切都是为了目标。比如，你告诉我，我必须最大化或必须达到某个销售额指标，那么其他一切都会被抛到脑后。

这就像我生活的唯一目的。如果你现在试图改变我的目标，我会杀了你，因为我只想要销售，其他什么都不想要。这不像人类的行为方式。

而且，我也不认为任何可行的 AI 系统都会像人们开始构建的那样运作。如今，人们构建的代理和语言模型不是在永久地覆盖目标。他们只是在提示。基本上，他们会说，在这种情况中，你的目标是做 X、Y 和 Z。你输入一些东西，你知道，这就像。我不认为我们应该期望 AI 会像愚蠢和继承的方式那样行事，它会忘记自己的常识，忘记这只是一个需要完成的情境任务，然后它会准备好接受进一步的指令。

想知道你对代理的立场是什么。所以，你知道，你有一个语言模型。它学习文本分布。你知道，这就像在类固醇上的 n-gram，然后你做一些相关的事情，你可以做链式思维、自我反思和迭代提示以及树状思维，等等。所有这些都在对使用样本的轨迹施加显著的限制。如果你让它变得越来越针对特定的事情。与此同时，有些人说，即使在这种情况下，即使我们已经对它施加了所有这些限制，它仍然会产生某种不同的代理，你知道，我们告诉它做这件事，但实际上它有自己的愿望，如果你愿意的话。

攻击，是的，所以我绝对不认为我们应该期望像这样的系统会产生新兴的代理或自主性。我的意思是，你知道，部分原因是，我们训练这些系统的方式并非如此。你可以想象一个非常不同的世界，我们模拟进化或类似的东西，在我们的计算机中，我们让不同的 AI 之间存在竞争，那些像生存一样适应的 AI 会获得成功，等等。在这种情况下，我更担心的是，它们有自己的目标和驱动因素，我认为所有这些都比现在更令人担忧，但我们根本没有这样训练它们。它主要模仿，我们可以仔细选择我们要求其模仿的数据，然后我们只是强化我们喜欢的行为，并负强化我们不喜欢的行为。我不认为这种新兴的自主性会由此产生。

我认为我们同意。所以，我们同意，如果我们创建了一个宇宙的高分辨率模拟，那么代理和智能等事物就是新兴属性，就像温度一样。我们还同意，如果你在语言模型中进行这种模仿学习，并进行行为塑造，你不会获得代理。

我只是说，我认为代理在进化背景下出现，就像达尔文主义背景下一样。

或者我的意思是，如果你真的想创造一个代理，也许你可以做到，就像一个系统，它有自己的利益，以及某种生存本能或类似的东西，它不仅仅是从外部接受指令，而是有自己的驱动因素。我不认为，是的，我说的。我不认为，因为我们没有模拟进化，我知道这个群体会因此而失败。

而且，我也不认为这真的像经济激励来创造这样的东西。我知道有些人不同意，说，哦，是的，创造像人工生物之类的会有经济激励，但最终，我们试图让这些 AI 为我们做事情，就像它一样。我们实际上没有激励去创造无法控制的东西，据我所知，但你...

认为我们可以创建一个通用系统，它仍然足够抽象，可以在现代计算机上运行？

是的，我的意思是，我认为，例如，像人类意识的上传可能在技术上是可能的，我不知道，很快，但如果可以上传人类，那么你就会拥有具有自身利益的代理系统。

我会说，这很有趣，你认为我们会这样做。从外部角度来看，我认为，你知道，在瓶子里的大脑或在密封室里的人不会有太多代理。

是的，所以，当我...是的，我们应该区分...也许他们会像行为问题一样，从更哲学的问题中分离出来。我不是说，我的意思是，我们可以深入探讨这个问题。我不是说，哦，它会是意识，尽管我认为它可能会有。我只是说，我们可以模拟人类，人类是代理。所以，行为上，你会有一些类似的担忧，比如，人类是否真的关心我，或者他们只是想获得更多权力，等等。你知道，你可以有所有这些担忧，同时认为它是一个僵尸或其他什么，是的，你知道，我同意...

我们可以上传大量思想，我们可以模拟宇宙。我们可以在模拟世界中拥有虚拟的交互代理，这似乎是拥有物质虚拟交互代理的一步。

是的，所以，我猜我也在想，如果我们想象...我猜我在想象...在电视连续剧《潘多拉》中描述的世界，人们应该观看。关于意识上传，我的意思是，这有点奇怪的时间线，因为意识上传发生在我们获得能够执行相同任务的纯粹人工智能之前。我觉得这不太现实。

但是，如果我没有在获得意识上传之前获得纯粹的人工智能，那么...但是，首先，他们进行意识上传，然后他们开始将上传的人当作奴隶。老实说，我的意思是，他们正在使用，他们没有这么说，但基本上他们正在将其用于经济目的。

显然，为了做到这一点，他们需要将意识上传连接到外部世界。首先，他们不使用机器人。后来，他们确实有机器人，但他们只是通过互联网和虚拟现实等方式连接它。所以，意识上传与外部世界之间存在互动，它不会...

如果我们身处《黑客帝国》中，那将非常有趣，但目前我们没有控制面板来控制超级模拟或超级世界。但也许模拟器正在利用我们进行金融交易或类似的事情。有一个小门户，我们按下门户上的按钮。一旦我们与超级世界建立了联系，我们可能会开始在超级世界中表达代理。所以，我们开始欺骗我们的模拟器。

是的，这有点让我想到人们对...嗯，这是一个奇怪的事情，但人们对...索罗门先验或索罗门归纳法（Salomon's induction）提出的许多奇怪的推测，你在做什么亚洲推理，但你对不同的假设有先验，它基于复杂性，这是模拟假设的最短可能图灵机的长度，这...

发生奇怪的事情，如果你想象一下，那么看起来，返回机器的相对较短的程序可以模拟整个宇宙。当然，这将非常缓慢。所以，在实践中，你...但它是一个短程序。

所以，如果你想象一下，那么你可以想象一些模拟世界，其中有欺骗你的居民，然后他们发现自己参与了索罗门归纳过程。然后我开始思考去哪里。是的，我不认为这与现实世界有任何关系。它只是有点有趣。

所以，在 E A 论坛上，是否有一篇帖子，标题类似于 E A 想要最大化一切，但最大化是并行的？

啊，几乎。所以，E A 是关于最大化的，最大化是并行的。但我认为，在帖子中，他并没有明确地表达，我们应该开始成为 E A，因为我认为他至今仍然认为自己是受影响的马尔萨斯主义者，但他指出，在有效权威意识形态的核心存在一个真正的难题或危险。嗯，E A 通常被定义或总结为做最大的好事，所以这与最大化某种意义上的善有关，但问题是，我们并不真正了解善的含义，至少在细节上。我们对善有直觉，比如，嗯，它是好的。

你知道，从燃烧的大楼里救人通常是好的，减少全球贫困，你知道，我们认为有一些明显是好的事情。但是，当你试图最大化善时，你就会开始进入那种危险的领域，因为你现在试图最大化你甚至没有明确的、正式定义的东西。这可能会导致像整个 FTX 以及其他类似的事件，人们为了他们认为是做最大的好事而犯下犯罪或道德上的错误。

你知道，他们试图赚钱，嗯，为了捐赠给慈善机构，等等，这是他们对做最大好事的一种解读。当然，其他人认为这并不是做最大好事的方式，但他们实际上对善的含义存在分歧。你知道，当你没有最大化善时，我们往往会对善的含义达成一致，因为我们对简单的情况达成了一致，比如，我们给这个慈善机构捐款，等等。但是，当我们深入到越来越奇怪的事情中时，我们开始更多地存在分歧，比如，也许长期未来几乎拥有所有价值，因为它将持续数百万年。许多有效权威主义者都提出了这个论点，等等。

但我认为许多从这些技术中受益的人，而且我不是贬低他们的意思，但他们几乎都在试图解决症状。所以那些在生活中缺少联系的人，那些让他们感到有目的、有意义等等的人，而佛陀并没有，你知道，不一定或强制要求。但是，你知道，其中一个代价是几乎使自己非物质化，这样这些精神、社会压力就不会再影响你了。你对此有何看法？

是的。我绝对认为，你可以用佛教的方式走得太远，或者像你说的那样，它也可以是有害的。嗯，就像你说的，你知道，我不认为如果你将佛教的含义解释为你不应该尝试解决任何问题，或者你应该只是，你知道，我不认为这是解决问题的方法。

我更喜欢一种整体的方法，是的，你尝试解决并改善你的生活，接受你能做到的，但也要尝试改变你的思维方式，这样你就能拥有更持久的幸福。而且，如果你两者都做，那可能就是最好的。嗯，我还认为对佛教的理解有不同的解释，比如四圣谛。

嗯，有像苦的根源这样的东西。第一个真理是，苦的根源是执着。然后，痛苦就在那里。然后，苦的根源是执着。然后，有摆脱痛苦的道路，以及摆脱痛苦的道路，就像四圣谛的完整路径。但是，这就像一个非常概括的框架，关于它的含义，以及各种不同的学派对它的理解，比如究竟什么是真正的解脱，等等。

我认为，一些佛教版本，可能更接近传统，我认为是有问题的，因为他们基本上说，嗯，首先，世界上的痛苦不仅仅存在，而是，甚至像生命本身就是痛苦，或者类似的东西，然后他们基本上说，嗯，因为一切都是痛苦，所以你的目标应该是某种不存在，基本上，或者他们对涅槃的理解，就像一种完美的静止状态，对我来说，这似乎只是与蒸发成虚无的区别，而对于他们来说，我认为他们可以理解它，因为他们传统上相信轮回和重生，所以对他们来说，就像当你死的时候，你不会立即停止存在，嗯，所以你需要这条八正道来摆脱存在，当然，我确信有人会批评我，说没有人这么想，至少有些人认为它非常接近，无论如何，所以我不想与这种形式联系起来。嗯，我认为我更喜欢的是，佛教可能最接近我的道德观，因为它对解脱或开悟的理解，更贴近现实，嗯，所以，例如，它会说，开悟是发生在你活着的时候的事情，就像它不是，至少主要或完全地，像从生死的循环中解脱出来。他们有这样的观点，你真正要做的就是行动，嗯，以一种自然的方式，你不会执着于你行动的结果，这可能是一种，嗯，它应该与同情联系起来。所以，它不是说你完全对世界漠不关心，而是希望。

这个想法是你应该培养同情心，这样你就能以对他人有益的方式行动，但你也应该，你不应该对它有目标导向或结果导向。从哲学角度来看，这实际上与存在主义是相反的。我会说，它更像是一种美德伦理，它只是培养同情心，但你不会执着于，哦，我的行为必须有这些结果，否则我会对它感到非常沮丧和沮丧，这就是你如何通过它来减轻痛苦。

这非常类似于肯尼斯·威尔伯的《为什么伟大不能被计划》一书，本质上是相同的设备。一部分是肯尼斯谈论的内容，但除了同情部分，这很有趣。

但我多年以前读过唐纳德·哈里斯的一本书，他站在同一阵营，他说，哦，你知道，这太棒了。我得到了这种状态，但我必须去工作，我必须完成事情。当我们谈论一般意义上的偶然性时，有一种有趣的矛盾之处，因为这太棒了。

但是，世界上也有很多需要目标和目标以及对齐的事情。因为我们实际上需要发明东西，我们需要建立社会等等。所以，你如何重新思考这一点？

是的。我认为目前所有这些都是暂时的，对吧？我绝对不认为六个月后我会说，哦，佛教是错的，但我仍然在旅途中，嗯，但是，是的，很明显，我们需要目标，嗯，以及某种结构等等，但这似乎在未来可能没那么重要，特别是由于人工智能。

所以，我正在思考，我正在思考，可能会有这样一种，嗯，一种美好的，我们似乎正在接近的完全自动化未来的景象，它可能是一种很好的伴侣，因为，你知道，我正在寻找一种哲学，我认为它可以，它可以为我们的人生带来意义，即使我们不需要做很多事情，至少人类不需要考虑，哦，我们如何管理经济，等等，我们可以只是自然而然地存在，而人工智能正在处理其他所有事情。所以，我希望在未来，技术能够让我们成为某种开悟的存在。

一些，不，这真是太棒了。你长期以来一直是粉丝吗？人们如何才能更多地了解你？

是的，嗯，我想主要有两个地方。首先，如果你想参与我的研究等等，我们确实有很多志愿者，嗯，所以你可以去eleuther.ai，那里有一个链接可以去我们的Discord。

而且，在人工智能可解释性类别下，有很多频道都是我的，你可以加入，如果你只是想让我谈论一些事情，或者任何事情。你也可以去我的Twitter个人资料，@norabelrose。

非常感谢。很高兴认识你。

是的，谢谢。

Nora Belrose - AI Development, Safety, and Meaning 02:29:50 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Nora Belrose - AI Development, Safety, and Meaning