We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

How Do AI Models Actually Think? - Laura Ruis

2025/1/20

Machine Learning Street Talk (MLST)

AI Deep Dive Transcript

People

Laura Ruis

Topics

我研究了大型语言模型在推理任务中的表现，发现其性能提升不仅源于规模的扩大（能够记住更多类似内容），更重要的是模型学习到了一种更有趣的、与数据量或参数量相关的质变。我的研究使用了影响函数来分析预训练数据对模型推理的影响。结果表明，事实检索任务的影响函数得分集中，而推理任务的影响函数得分分散，这说明推理依赖于更多更广泛的数据。此外，在推理任务中，相同类型的文档对不同问题的答案影响相似，这支持了程序性知识的观点，即模型并非简单地检索信息，而是综合运用多种知识来解决问题。代码在大型语言模型的推理过程中具有显著影响，这可能是因为代码中包含了大量关于程序和步骤的描述性信息。代码的影响既有正面也有负面，目前尚不清楚其具体机制。我的研究结果表明，大型语言模型能够从代码中学习步骤式推理过程，这为数据合成提供了新的思路。大型语言模型的推理能力并非始终如一，而是存在多种模式，有时是基于检索，有时是基于推理。模型的推理能力受限于其自身特性以及输入数据的限制，但这并不意味着它完全缺乏推理能力。数学推理能力可能可以迁移到其他类型的推理，但数学推理只是推理能力的一个方面，其他类型的推理，如归纳推理，则更难评估。

Deep Dive

Shownotes Transcript

如果我理解正确的话，你创建了类似推理的查询，以及某种类似事实检索的查询。是的。在那篇论文之后，我留下了一个问题，比如，在多大程度上

是规模使这些模型在这些任务上变得更好？这种规模在多大程度上推动了性能，或者它是如何推动性能的？仅仅是因为模型看到了更多类似的东西，因此可以记住更多吗？还是它真的在做一些更有趣的事情，从更多的数据或更多参数中学习到某种质的不同？如果语言模型正在做一些类似于近似推理的事情，

这与形式推理有什么区别？所以我相信它们是在非常受控的环境中。我们已经证明，连接模型可以进行形式推理。因此，我认为从经验上和理论上我们已经证明它们可以进行某种系统性或符号计算，尽管它仍然有限。但是问题

我最新的论文是它是否也可以从野外的数据中学习到近似地做一些这方面的事情。我认为它可以，我的论文并没有完全证明这一点。它只是表明它正在做一些可以应用于许多不同问题的可泛化的事情，但直觉上我认为这是可能的。

我想你会同意，即使我们没有明确地试图创造它，代理也可能出现。是的，我认为这是有趣的情况。DeepMind的Zach Kenton有一个定义。他们也对代理的安全感兴趣，几年前他们对代理做出了这样的定义：代理是当它的行为以不同的方式影响环境时会改变其策略的东西。

你可以很容易地在环境中或某个环境中创建一个LLM系统，其中环境也是一个LLM，这样它就符合这个定义。所以我认为重要的是，像这样的东西什么时候会从像下一个标记预测这样简单的事情中出现？这就是我感兴趣的。Tufa Labs是我在苏黎世创立的一个新的AI研究实验室。在某种程度上，它是DeepSeq的瑞士版本。首先，我们想调查

所以LLM系统和应用于它们的搜索方法，类似于O1。因此，我们想调查、反向工程和探索这些技术。MLST由SenseML赞助，SenseML是一个专门针对AI工作负载优化的计算平台。

他们开箱即用地支持所有最新的开源语言模型，例如Lama。你可以选择价格点，选择你想要的模型。它启动了，它是弹性自动缩放的。你基本上可以按使用量付费，或者你可以拥有一个始终工作的模型，或者在你不用的时候可以冷冻它。所以你在等什么？访问sentml.ai立即注册。

劳拉，很高兴你在MLST上。欢迎。谢谢。很高兴来到这里。你能告诉我们关于你自己的事情吗？当然可以。我是劳拉。我是伦敦大学学院的博士生，由Tim Rocktashel和Ed Grafenstetter指导。我也在Cohere兼职。

我广泛地对理解语言及其与人类认知的关系以及我们如何在人工智能中评估这一点感兴趣。在多大程度上，人类智能的支柱也可以出现在人工智能中？例如推理，包括数学推理、社会推理等等，以及物理学。

特别试图理解最先进的模型是如何做它们正在做的事情的。非常酷。我是Coheir、Ed和Tim的忠实粉丝。很好。这非常酷。我也是。好的，所以你刚刚写了一篇论文。现在有一个巨大的争议。例如，我一直在和Sabah Rao交谈。他称LLM为……

近似检索引擎和O1近似推理引擎。所以他说他们在做一点推理，无论那是什么意思。但是你写了这篇论文。它在社交媒体上引起了极大的兴趣。预训练中的程序性知识驱动大型语言模型中的推理。给我们一个电梯演讲。是的，我之前一直在对语言模型进行评估，试图理解它们是如何进行社会推理的。

我们设计了一个基准，并根据它们的社会推理能力对模型进行了评估。

在那篇论文之后，我留下了一个问题，比如，在多大程度上是规模使这些模型在这些任务上变得更好？这种规模在多大程度上推动了性能，或者它是如何推动性能的？仅仅是因为模型看到了更多类似的东西，因此可以记住更多，并且似乎具有更多能力吗？还是它真的在做一些更有趣的事情，从更多的数据或更多参数中学习到某种质的不同？

当然，过去我们评估机器学习方法的方式是将测试与训练分开，但这在今天已经不可能了，因为模型只是在所有内容上进行训练。测试现在在训练中。因此，我们想了解语言模型何时生成零样本推理轨迹。例如，对于简单的算术，它可以生成达到答案的步骤。

它是否依赖于之前在训练中见过这些确切的步骤？还是它在做一些可泛化的事情？它是否在自行采取步骤并得到答案？

这就是这篇论文的动机。非常酷。所以你使用了影响函数来进行这项分析。你能解释一下它们是什么吗？是的。是的。当我偶然发现这个工具时，我非常高兴，因为它来自稳健统计的这种方法，试图回答关于模型的反事实问题。

所以它试图逼近的问题是：如果我必须从数据集中删除这个预训练文档并重新训练整个模型，会发生什么变化？模型参数如何变化？以及由此产生的完成的对数似然。这就是影响函数估计的，这就是我们用来确定预训练数据如何确定模型的推理步骤的工具。

非常酷。所以如果我理解正确的话，你创建了类似推理的查询，以及某种类似事实检索的查询。你比较了这些查询的影响函数做了什么。是的，完全正确。我们将这项事实性任务作为一种基础，因为影响函数非常近似。我们实际上并没有为每个数据点重新训练模型，因为这将过于昂贵。

所以你想对你的发现有某种直观的理解。事实检索是这项任务的自然任务，因为对于这些事实性问题，回答它们的唯一方法是检索相关的文档。我们将此与推理轨迹的影响分数进行比较。这些任务只是零样本推理类型的提示，模型本身会生成推理步骤。

因此，如果模型要对这些类型的推理进行检索，它实际上必须从预训练数据中检索每个推理步骤，因为它会输出零样本本身，即推理轨迹。我没有给它任何例子。

所以如果我理解正确的话，你工作的直觉是，当我们进行事实检索时，它看起来非常集中。所以它只是去一个文档并检索事实。当它进行推理时，它看起来非常分散。它正在查看大量包含推理过程的文档。是的。是的。这是你可以从中得出的抽象。当然，实际上，即使它在进行事实检索时，也会发生更多的事情。

因为它需要遵守语法。还有各种各样的风格元素正在发生。但是……

更重要的是，我认为这篇论文中最引人注目的发现是，对于事实检索，文档对事实问题是否有影响并不能预测它对另一个事实问题的影响。它们依赖于非常不同的文档集。而对于推理问题，如果它属于相同的任务，例如，计算数字之间的斜率，但对于完全不同的数字，

文档的影响非常相似。相同的文档可以以相同的方式影响这些问题。而我们没有在事实检索中看到这一点。这就是我们称之为程序性知识的基础。非常有趣。对于家里的朋友们来说，推理任务的一个例子可能是两步算术、计算斜率、求解线性方程。事实检索可能类似于，什么是最高的山？是的。

是的，什么是最高的山？最大的海洋是什么？比内克图书馆（耶鲁大学图书馆）在什么年份开放？这些都是事实性问题的例子。然后我们有三个不同的推理任务。一个是简单的两步算术。所以你可以想象七减四乘以八。那是……

两步算术，你首先必须计算七减四，然后做三乘以八。计算斜率需要我认为更多步骤，三步，你在二维空间中有两个不同的点，你必须计算y点和x点之间的差，然后将它们除以彼此以获得两点之间的斜率，是的，然后线性方程任务是，你有一个线性方程，你必须解出x

这也需要三个简单的算术步骤。所以我们观察到，当我们进行推理任务时，模型正在以某种抽象的方式从所有这些文档中综合知识。是的。那是推理吗？

首先，我会说是的。但我对所谓的推理并不那么严格。也就是说，我不认为只有形式的、循序渐进的逻辑推理才是推理。我认为深度神经网络可以进行这种推理，但我们的论文并没有表明这就是这里发生的事情。但我认为重要的是，它似乎……

从许多不同的文档中获取知识并将其应用于相同的任务。这是一种可泛化的策略，它使用这种策略来生成逐步的知识来解决某种问题，对我来说这就是推理。但这并不意味着它对其他形式的推理（例如归纳推理）有很多影响。是的，我的意思是，它是……

我想我们可以讨论什么是知识。我和Dago讨论过这个问题。据说它是合理的真信念，但他说是合理的有效信念。所以你可以说，在某种意义上，这些文档中信息的模板化有点像创造有用的知识。是的。有用和真实的区别是什么？

好吧，我认为这取决于我们是否可以仅仅根据公司中的一堆数据来知道某事是真的。总是有这种认识论上的差距，不是吗？就像，我们可以拥有真正给我们提供事实的模型吗？是的，是的，真的。真正有趣的事情

从阅读你的论文中，你发现当进行推理时，像Stack Overflow和代码这样的东西，这真的非常像对推理过程有很大的影响。这很奇怪，不是吗？因为它是代码。感觉不一样。你怎么看待这个问题？

这是一个好问题，我花了很多时间研究这些结果。我真的花了几天时间试图理解那里发生了什么，因为我认为重要的是，我们发现了许多证据表明文档影响了类似的推理问题，例如一个文档影响了许多斜率问题，另一个文档影响了许多线性方程问题。但是，似乎对所有类型的推理都具有正面和负面影响的唯一文档是代码。

我试图研究代码的哪些方面使其具有如此大的影响力。

我没有找到任何模式。重要的是，我们不仅发现它是两者兼而有之，即它对推理有好处，而且在某些情况下对某些方面有害。所以，当然，传统的观点是代码有助于下游能力。OpenAI知道这一点。Entropic知道这一点。他们用纯代码训练的模型初始化他们的模型。但我们真的不知道那里发生了什么。这基本上就是我现在正在研究的。我试图更好地理解这一点，因为……

是的，我无法在我们这篇论文中发现的数据中清楚地找到模式。这很奇怪，不是吗？因为代码感觉像是人类认知过程的完美体现，对吧？你知道，我们正在解决问题，然后我们在代码中体现出来。这对我们如何设计用于训练这些模型的数据集有什么影响？是的，是的，我认为确实如此。

趋势是在预训练语料库中添加越来越多的代码，以便对模型进行训练。所以我认为这肯定对它有影响。我认为重要的是，我们在本文中发现的一件事是，模型似乎可以学习进行这些逐步的推理轨迹，以从纯描述性代码中的程序描述中输出它们。

计算两点之间斜率的Python代码片段对实际问题、提示以及要求模型以文本形式执行该操作的提示具有高度影响力。如果这是……

泛化，如果你可以在程序上训练一个模型，它可以从中学习执行这些程序，我认为这对于我们应该如何例如合成地生成数据将非常有影响，它可能有助于生成大量的程序，而不是像逐步应用这些程序一样，或者你知道，更多地关注两者

我想是因为这种分散的性质，所以在代码中有很多解决斜率等等的例子。在某种程度上，这是一种鲁棒性。

你明白我的意思吗？所以，在某种程度上，这给了我们许多解决这类问题的方法。是的，是的，我明白你的意思，如果你不仅看到了应用，还看到了逐步推理，而且还看到了给你提供更多不同表达方式鲁棒性的程序，或者是的，或者仅仅是在拥有更多冗余或拥有许多相同事物的许多表达方面，它将

对数据集的不同选择具有鲁棒性，它仍然有效。而事实检索，如果事实不在数据集中，它就无法工作。是的，这绝对是正确的。我的意思是，从这个意义上说，这是一种可以更好地泛化的抽象。关于这个抽象的事情，

我之前和写GSM符号论文的那个人谈过，道格拉斯·霍夫施塔特说抽象是一堆类比。

对。所以，你知道，我们在脑海中有一些概念，比如椅子的概念。对我们来说，很难描述什么是椅子，因为我可以给你一百万种不同的描述，甚至是字母A。他写了一本书叫《表面与本质》，他在书中谈到A可以写成多少种不同的方式。所以这可能是我们的大脑工作方式的事实。

并没有像我们认为的那样真正拥有这些高级抽象。就像实际上所有这些神经回路激活通路都在激发，我们通过一百万种不同的视角来了解抽象。你认为这是否可以与神经网络的工作方式在某种程度上类似？

是的，我认为语言也是如此。我认为……我的意思是，我没有想到这一点，维特根斯坦想到了，但他写了一整本书，他只是像一页又一页地试图表明你无法定义一件事。总会有一个情况，它并不完全适用，对吧？一切都模糊不清，意义基本上是使用的，它可以根据上下文等而改变，并且

我认为这是语言的优势，这种抽象不是……

正式的或纯粹的象征性的，而是非常模糊的，因为没有明确的意义或抽象概念的界限。是的，我们谈到了蒙塔古。所以他认为，你知道，我们应该像它是一种形式语言一样对语言进行建模。当然，它很复杂，而且非常非常具有建设性等等。

鉴于自然语言不是形式语言，你认为LLM是合适的工具吗？

是的，我认为这是我们在过去几年中看到的，因为蒙塔古试图将语言形式化，而这并没有导致最简单的形式化。将语言形式化非常困难。我认为蒙塔古提出了这种非常严格的组合性形式，这非常有用，因为语言中肯定有一些东西，其意义是……

由各个部分组成。这绝对是正确的。但是蒙塔古定义这种严格方式可能也不正确。可能存在……如果你想使这种严格的组合性在语言中起作用，你必须提出非常迂回的函数，其中一个词的意义是整个句子的函数，或者类似的东西，并返回到词本身。而如果你采取更

宽松的组合性或系统性形式，就像Feuder提出的那样，大致上只是说，如果我们教别人一个新词，比如“翻转”，然后说我昨晚吃了很棒的“翻转”，那么我们使用语言的方式是可预测的。你可以立即

估计这个词可能是食物，或者是在晚上，所以可能是一种甜点，你可以在许多不同的句子中使用它，这是一种组合性和系统性形式，几乎看起来像是正式的和可预测的，就像它一样，你可以正式地描述它，但实际上我们已经尝试过了，这并没有真正奏效，这可能正是语言模型效果更好的原因，因为它们可以近似这种系统性，但它们不是

纯粹的形式系统。所以你已经说过语言模型可以发展对世界的因果理解，这非常有趣。我想这最终回到了语义本身。所以你知道约翰·塞尔说，人类拥有语义的原因基本上是因为我们与世界在物理上和因果上是嵌入的，对吧？并且

许多语言学家，如Piantadosi，都在谈论诸如概念-角色语义之类的东西，并且现在围绕着我们如何仅在语言模型中构建语义有一个完整的思想学派。你有什么看法？是的，我喜欢Piantadosi的作品，它在许多方面激励了我，我同意他的观点，但是

我想说他可能也，或者我不知道，我不应该替他说话，但是当然，世界中的参考也发挥着作用。当孩子们学习语言时，他们从……这又是我从Pianta Dosi那里听到的，是……

语言学习的阶段，最初公主就像一个穿着漂亮衣服并且总是对你友好的好女人，孩子可以在世界上指着它，它有一个明确的参考。但是随着语言的发展以及孩子成为成年语言使用者，这种参考变得越来越不重要，并且变得越来越抽象。

现在作为一个成年语言使用者，我可以和你谈论COVID疫苗，但我无法挑选出来。如果你给我一堆物质，并问我这些物质中哪一个是COVID疫苗，或者它是由什么制成的？我不知道。当然，还有很多例子

我们讨论的事情在世界上没有任何参考。但是COVID疫苗只是其中一个有参考的例子，但我不知道如何挑选出来。我仍然认为我理解什么是COVID疫苗，并且对它的含义有一些感觉。但是如果我知道如何在世界上挑选出来，我的含义也可以进一步发展，对吧？这意味着我更好地理解了它，并且拥有更好的世界模型。你认为这些事实和你谈论的推理之间有多少明显的界限？

可能不是真的，因为当我想到事实检索并构建这些任务时，我经常难以提出纯粹的事实性问题。所以你可以想象，如果你问某人，世界上最大的海洋是什么？

也许这个人正在检索世界上所有的海洋及其大小，并进行比较，然后说，哦，它是太平洋，然后他们进行了一些推理，所以没有明确的界限，我确实试图使这些问题非常事实性，例如比内克图书馆在什么年份开放，你可以想出一个你可以推理答案的方法，但你确实需要一些原子知识来回答这个问题，但是

是的，一切都模糊不清。所以回到塞尔，你知道对中国房间实验有很多回应，比如机器人回应、系统回应等等。我想在某个时候，模仿，功能性模仿，变得如此之好，以至于这是一种没有区别的区别？是的，这是一个好问题。我认为那时你……这就是为什么像François Chollet这样的人提出ARC这样的东西很重要，对吧？是的。

他对智力的定义实际上是关于以新颖的方式行动和在新颖的情况下使用你的知识。一个仅仅模仿的系统永远无法做到这一点。我们可以设计一种方法来衡量理解的深度吗，无论那意味着什么？

我们正在尝试，我认为评估是该领域最困难的部分之一。本周我听到了一种关于移动目标的有趣的描述。有人以积极的方式对其进行了描述，我完全同意这一点。他们说人们不断地移动目标，人们认为这是一件坏事。但实际上我们正在做的是共同完善我们的定义。

所以首先我们说，哦，如果一个系统可以下棋，它一定很聪明，对吧？但是然后它可以下棋，然后我们说，哦，那不是我们真正想要表达的意思。等等，让我移动目标。这不是问题。它帮助我们完善我们的定义，它帮助我们……没有人确切地知道什么是智力，但是……

设计越来越复杂的基准并不断移动目标，可以更清晰地了解它实际上是什么以及我们都在谈论什么。

是的，我认为经验正在帮助我们更好地在我们心中划分空间。例如，我认为我们过去对理解和推理有相当清教徒式的观点，即你要么在推理，要么不在推理。我认为我们开始用这些模型看到的是，存在这种瑞士奶酪问题，有时你处于瑞士奶酪中的一个洞中，它会变得疯狂，有时是检索，有时是推理。这几乎就像存在这些不同的功能模式一样。

有时它进行更多推理，有时它进行更少推理。是的，完全正确。我的意思是，这也是我思考它们的方式。有一种观点认为，如果你能证明一个模型出错，它就一定不能推理，但我认为这不是真的。我认为这是一个如此复杂的系统，并且

如果你以某种方式提示它，它可能会使用与你以另一种方式提示它时完全不同的函数或程序，或者无论你如何概念化它正在做什么。如果你给它一些对它来说非常陌生的标记，以至于它无法对它们进行推理，这并不意味着它不能进行这些实际的推理模式以及构成这种推理基础的规则。但这只是系统的一个局限性。它是一个统计模型。

所以你专注于特定类型的数学推理。你认为它们会转移到其他形式的推理吗，比如解决伦理困境之类的事情？是的，这是一个好问题。我认为它们会。

但是当然，推理是一个多方面的概念，数学推理几乎无法涵盖所有方面。所以数学推理非常正式，它有规则，这就是我们选择它的原因。我们所考察的推理类型非常简单，你实际上可以在预训练语料库中找到答案。

但是有一些形式的推理，我们，比如归纳推理，你找不到答案。如果你只看到，如果你只观察到白鹅，你能从中推断或归纳出黑鹅不存在吗？我不知道。这是一种实际上构成大多数科学基础的推理形式，并且……

更难看出语言模型是否可以做到这一点。但我认为从根本上说，它可能可以。在这种情况下，对正在发生的事情进行某种验证变得更加重要，为什么它使这种归纳成为可能。

我们能否进行实验来验证它？如果语言模型正在做一些类似于近似推理的事情，这与形式推理有什么区别？你原则上相信连接主义本身可以扩展到形式推理吗？是的。

我认为它可以，我认为我最近的论文给出了……所以我相信它们是在非常受控的环境中。我们已经证明，连接主义模型可以进行形式推理，它们实际上可以学习以一种方式应用系统规则，从而在新的问题上达到100%的准确率。Lake和Baroni在《自然》杂志上发表了一篇很好的论文，其中提到了这一点，

还有其他论文也证明了这一点，例如Andrew Lampinen的《主动因果策略的被动学习》，这些论文表明，如果你以这样一种方式设置问题，即模型可以学习执行任务，而不是依赖于……

数据中不重要的事情，它可能可以学习在新情况下应用任务，所以我认为从经验上和理论上我们已经证明它们可以进行某种系统性或符号计算，尽管它仍然有限，当然，它无法处理完全新的标记，但我的最新论文的问题是，它是否也可以学习做一些

近似地从野外数据中进行这种形式推理或符号推理。因为语言模型不是在经过精心策划的数据上进行训练的，因此你使规律下降的唯一方法是学习底层规则，因为这些论文通常就是这样做的。问题是，它是否也可以学习做一些形式推理或符号推理？我认为它可以。

我的论文并没有完全证明这一点。它只是表明它正在做一些可泛化的事情，它可以应用于许多不同的问题。但直觉上我认为这是可能的。所以人们总是有一种关于差距的概念，尤其是在创造力、适应性、处理新颖性等方面。事实上，许多人认为智力的定义是处理新颖性。是的。

所以总是有这么一件事，我们可以进行组合式创造，对吧？所以我们可以通过重新组合我们已经拥有的片段来进行推理。但人们说这种创造性的创造，比如能够，你知道，在所有直到1945年的数据上进行训练，然后发明一些在那之后出现的新的定理。人们直觉上觉得模型无法做到这一点。是的。你怎么看？这真的是目标，对吧？像那种东西，真的会很酷。我

我不认为目前的语言模型能够做到这一点，但我并不认为这在技术上是不可能的。即使在目前的体制下，如果我们能找到如此多的数据，让模型能够学习到与提出新信息相关的因果潜在数据生成过程，那么

它就能做到这一点，但当然，我们使用了过去几千年创造的大部分数据，或者至少我们正在尝试……这可能无法通过这种方式扩展到如此高的智能，但是……是的，我认为这在理论上并非不可能，它有点涉及到爱因斯坦是否提出了一些他以前从未见过的天才想法，或者他是否也站在其他科学家的肩膀上，长时间思考问题，并利用这些来提出新的知识，我认为可能是后者，而且这并不特殊，我们不能……好吧，我不想说爱因斯坦不那么特殊，他是，但我们可能在某种程度上能够重现这个过程

所以蒂姆·洛克塔谢尔，他在开放性和创造性等方面做了一些很棒的工作。

这很有趣，因为伊利亚·苏茨凯瓦在这次会议上做了一个演讲，他说我们正在撞上数据墙。对我来说，这无法通过理智测试，对吧？因为如果你仔细想想，你可以用无限多种方法生成更多数据。你可以转换我们已经拥有的数据，并且可以生成大量数据。但这就是它进入蒂姆·洛克塔谢尔领域的地方，这不仅仅是关于生成更多数据。而是关于生成有趣的数据。

我发现吉尼和类似的东西非常有趣，我同意系统的智能完全受其环境复杂性的限制。所以我认为这是一个有趣的方法。我还认为，是的，所以我认为扩大数据规模是有帮助的，因为它使得模型越来越不可能抓住虚假的相关性。

它将越来越有助于学习生成这些数据的因果世界模型，你获得的数据越多，因为它可能与你以前见过的内容在语义上越不相似。但是，如果你能够以某种方式从我们拥有的所有数据中选择数据，以一种足够多样化的方式，

让你能够更快地学习这种因果机制，而无需查看，我不知道，数万亿个标记，我认为这也许也是可能的。我认为这是由这些对照研究所告知的，这些研究表明你可以训练一个模型在一个任务中做一些系统性的工作

但是我们如何训练一个模型在尽可能多的任务中做一些系统性的工作，就像我们希望语言模型做的那样？你对整体扩展的理念是什么？你认为如果我们只是将当前的方法扩展，我们将获得显著更好的结果吗？或者你认为我们错过了什么重要的东西？我不会反对扩展，因为这看起来很可怕。它运行得相当好。

但是，是的，我认为扩展很酷。我认为它存在问题，并且可能存在更高效的数据方法。仅仅因为理论上你可以训练一个模型使用下一个标记预测来完成许多不同的复杂任务，并不意味着这是最好的方法。也许有一些关于干预环境和生成你自己的数据的方法可以帮助解决这个问题，并且可以使模型更高效地使用数据，

我可以看到这在未来可能很重要。我认为伊利亚也提到了，并非特别如此，而是代理或代理人。也许这与被动学习和主动干预学习之间的区别有关。

我们应该稍后再讨论代理问题，因为我们有很多话要说。我们不妨稍微谈谈1988年的Fodor和Pylyshyn论文。这是他们著名的连接主义批判，他们说人类思考的方式非常正式。你知道，我们有这些规则，我们有这种组合性，所以我们可以

我们可以将“玛丽爱约翰”推广到“玛丽爱简”。我们也可以取一个句子，然后对其进行反转。我们可以将其分解回所有组成部分，并且可以弄清楚事物的意思。从表面上看，神经网络并没有明确地这样做，但也许它们可能会隐含地这样做。你对此有何感想？

是的，我认为Fodor和Pylyshyn的论点绝对经受住了时间的考验。尽管有一些理论工作表明，在连接主义体制下学习符号函数并非不可能，例如Smolensky在90年代关于张量积表示的工作。这是一项理论工作，表明你可以进行一些符号函数

在连接网络所代表的亚符号体制中的计算。但无论如何，这个论点都经受住了时间的考验，因为我们之前也谈到的这种系统性绝对是语言中存在的东西，如果你想理解人类如何用这么少的例子产生如此多样的东西，这是有必要解释的

例子或记忆，这对……我不知道……30年左右来说是一个挑战，而且可能仍然是……它可能仍然与这种将智能视为能够处理新信息的观念有关，但我认为现在已经有大量经验性工作表明，实际上像神经网络这样的亚符号模型可以

可以进行符号计算，尽管不是显式地。我的意思是，是的，显式地，就它们可能以语言的形式输出一些符号计算，并明确地对它进行推理而言。这可能是一个好主意。但它们可能也能隐含地做到这一点

是的，我想有一个主题就是拥有强大的理论工具，尤其是在那个时候。所以，你知道，这种生产力的概念，能够生成无限数量的句子。我的意思是，乔姆斯基说句子的概率是一个矛盾的说法。说这个根本没有意义。是的。

正如你所说，它确实感觉我们的语言是组合性的。同样，乔姆斯基说这是思维的语言。因此，如果我们的语言是组合性的，那么我们的思维肯定也是组合性的。所以这可能几乎是一个直觉泵，用来推断我们大脑的工作方式。是的，但我确实认为……所以这涉及到语言是否是思维的问题，对吧？

我认为这一点现在已经被相当严格地驳斥了。我认为语言对我们如此有用，正是因为我们的思想不是组合性的，因为我们可以将其用作组合工具，而我们在大脑中可能很难系统地做到这一点。我的意思是，例如，F. Federenko在2020年进行的工作表明，患有失语症的人仍然可以成为国际象棋大师。因此，当你的语言系统完全混乱时，你仍然可以很好地推理，在我看来，这驳斥了语言就是思维的理论。

你之前对我说过，好吧，有什么大不了的？为什么我们需要可逆性？当我说可逆性时，我认为我是在说分解。所以，你知道，他们谈论的是组合性，但我认为分解非常重要。这是能够回到组成部分。这不仅仅是能够解释事情

我在想什么，它也关乎简约性和重用。例如，我们在McInturk关于缩放单语义性的论文中看到，金门大桥的表示分散在神经网络中的所有这些电路中。感觉上，当然在心理学层面，感觉我们的大脑并非如此运作，但这可能只是一个错觉。

是的，我很难说，我的意思是，我不想评论神经科学，因为我对这方面一无所知。但我可以说的关于这一点的是，在我看来，模型以这种方式表示它非常有用。也许就像

它正在进行非常分布式的表示，对吧？这基本上是90年代人们相信连接主义模型的核心原因，这种分布式表示，所有神经元基本上都可以为所有不同的任务点亮，只要存在一些共享结构。这使得它们如此灵活，并且实际上使它们在新的情况下如此出色。我想还有一个广泛的主题。所以当然20年前，

我们过去常常使用明确的策略设计人工智能系统。因此，规划是一件明确的事情。推理是一件明确的事情。甚至像Kevin Ellis的DreamCoder这样的某些架构，它都有一个明确的清醒梦境状态。所以当你做梦时，你会扩展你的假设空间。然后就像，你知道，当你清醒时，

你会选择那些有效的，而神经网络一直在进行这种扩展和收缩。但是，我们从较新的架构中看到的是，它们做的事情差不多，但它们越来越隐含地这样做。就像我们没有硬编码它一样。没错。这就是我们在过去几年中学到的东西，那就是

这可能是正确的做法，因为这是我们从LSTM到Transformer中学到的东西，这实际上很有趣。我的第一篇论文是关于组合性的。我们与Brendan Lake等人一起设计了这个基准，我们在数据中剔除了系统性经验，我们证明人类可以很容易地做到这一点，但LSTM做不到。这都是预先的——

转换器、LLM和ChatGPT以及类似的东西。有人本周告诉我，实际上转换器在我们那篇论文中设计的多数测试中几乎达到了100%的性能。并非全部，但大多数。

这只是转换器比LSTM更适合组合任务的一个例子。我们也许可以从中吸取的教训是，LSTM具有这种明确的递归性，这似乎非常有用，对吧？

因为显然存在近期偏差。显然，我们刚刚谈论的内容比我们，我不知道，你我上次见面时谈论的内容更相关。但是，如果这种近期偏差如此明显，你为什么要构建它呢？因为模型可以很容易地从语言中学习它。这就是我们在过去几年中学到的东西，如果某些东西可以学习，就不要构建它。

或者使用Excel STMs。是的。是的。前几天与Spoke交谈。是的，他正在谈论他们的新的指数门控方案允许他们能够，你知道，覆盖他们的记忆。是的，非常酷。但这有点奇怪，不是吗？因为……

存在这种概念，我对他这么说，我们什么时候才能看到Excel STMs的行业应用？我认为在行业中，人们的看法是这无关紧要。这只是关于规模。没错。但这也是OpenAI的情况。他们不在乎这些，比如，组合性的，比如，它是自动分布的吗？他们是……

我们是否剔除了正确的东西？它以前见过吗？不，他们只是说，我们将使其在分布中，并将对其进行扩展。这基本上就是他们的天才之处。无论架构是什么，无论它看起来多么像大脑，或者为什么它在理论上应该比其他东西更好，如果你能……

你知道，使用更多的浮点运算，那就更好。让我们快速谈谈Smolenski。我总是把他的名字念错，所以我将慢慢地说。所以大约在1990年，我想这是对这个照片污染问题的回应。他说，有了这些，你知道，连接主义模型，你仍然可以实现符号处理的基本能力，你知道，例如表示变量绑定和结构化数据以及组合运算。他提出了什么？

所以他提出了一种数学框架，这是一个用于变量值绑定的数学框架。这就像这种非常直观的符号计算，对吧？无论值是什么，变量都可以取它，你可以对其进行处理，结果会很好。

可靠且相同，并且……是的，进一步的通货膨胀说……连接模型做不到这一点，这导致了连接主义者和符号主义者之间长达十年的来回讨论，Smilensky用张量积表示给出了这个答案，说不是这样的，你看，你实际上可以用纯粹的亚符号连接主义方式表示变量值绑定

这就是他在张量积表示中所展示的，你以分布式亚符号方式表示变量和值。你可以对它们进行处理，它们都嵌入到这个连续空间中，这个分布式空间中，但是你仍然可以在处理后从变量中提取值。他们称之为解绑。那么这种方法的缺点是什么？而且，我认为这里有一个飞跃的信念……

神经网络能够以某种方式近似他所谈论的内容。好吧，我没有读过这篇论文，但Tom McCoy与Smolenski一起发表了一篇论文，我认为标题是《RNN隐式学习张量积表示》。

这似乎表明它们可以，但这只是基于标题。我认为自从我了解张量积表示以来，这篇论文就一直在我阅读清单上。但你是对的，这种方法的局限性是什么？这是一个纯粹的理论论证，对吧？他对失败通货膨胀说，看，你实际上可以做到这一点。

这并不意味着它是实用的。这并不意味着它可以扩展。他90年代提出的张量积表示根本无法扩展。因为它在你要表示的变量数量上呈爆炸式增长。所以假设变量是序列中的位置，而值是标记。

那么张量积表示将，我认为，是平方的，或者不，像，在你要表示的位置数量和标记数量上呈爆炸式增长。所以这是不可行的。我认为Smolenski正在微软从事这项工作，所以我相信他正在努力使其更具可扩展性。但我从阅读那篇论文中得到的另一个收获是，

要真正从这种分布式表示中获得这个值，某些东西需要是线性的、独立的，就像

矩阵中的行或类似的东西需要是线性且独立的。在我看来，这似乎是一个非常严格的限制，可能不会自然产生，或者也许会，因为我发送的人也告诉我，如果你随机抽样，它在高维空间中几乎总是线性独立的。所以也许这并不是一个很大的限制，但是，他当时提出的方法并没有那么可扩展。是的。所以，是的，

这些张量外积由这些角色和填充物组成，显然这些角色需要相当多的手工工程，是的，我们有这个组合爆炸问题，但无论如何，这很有趣，这是一个潜在的未来方向。好的，劳拉，代理如何融入这一切，只是为了稍微调整一下问题

有些人非常担心代理。我前几天和Benji交谈，他说代理真的很糟糕。你知道，这将导致这些东西控制它们自己的目标，这可能非常危险等等。我们应该消除所有代理。是的，我完全同意这一点。就像如果你考虑一个也是代理的人工智能系统，或者只是一个普通人，都可能非常危险，对吧？代理可能在很大程度上是造成这种情况的原因。

因此，如果你有两个系统在能力上完全相同，一个是代理，另一个是工具，我更喜欢工具。问题是，我不确定是否可以在没有代理概念的情况下达到一种有趣的智能形式。

所以我对这个问题的兴趣只是，我们如何定义这个概念，以及我们如何检测它是否存在于系统中？我认为这是一个非常困难的问题。当然是的。你认为LLM在任何有意义的程度上都具有代理性吗？

是的，这是一个我一直在思考的问题。我认为代理有很多定义，对我来说，它只是一种目标导向的意图性，我们可以深入探讨这到底意味着什么。LLM有吗？我认为你可以以某种方式将其视为对代理的建模，也许它也对它们的目標进行建模。

所以，当然，他们试图对文本进行建模，而这个文本是，他们试图有效地预测下一个词或下一个标记，并减少那里的损失，而这个文本是由代理生成的。

并且如果你也理解这个代理的总体目标是什么，那么这可能有助于减少损失，所以如果这个代理试图说服你，也许这会告知……不是你，而是羔羊，但如果代理是文本试图说服某人或某事，那么也许对这个目标进行建模有助于减少可能出现在该文本中的标记数量

当我们说LLM试图说服某人时，

存在这种奇怪的事情，不是吗？因为在某种程度上，代理是观察者相关的。这是我们说另一件事所具有的东西。所以感觉在光谱的底部，它可能是因为LLM可能并没有在想，哦，劳拉是一个代理，劳拉有这个目标。为了控制劳拉，我需要这样做。它为此服务。感觉一开始有一种无意的代理形式。是的。

这可能更危险，对吧？如果它意外地劝服了你，并且它不理解当你这样做时可能发生的事情，那么这可能更危险。所以它有点涉及到模拟某事和自己想出某事之间的区别。我不知道你如何找到两者之间的区别。我想你会同意代理可能会出现

即使我们没有明确地试图让它出现。是的，我认为这是有趣的情况。我最近一直在思考这个问题，我认为有趣的情况是它出现的时候。DeepMind的Zach Kenton有一个定义。他们也对代理的安全感兴趣。几年前，他们对代理做出了这个定义，这个定义是关于如何……

如果你……一个代理是当它的行为以不同的方式影响环境时会改变其策略的东西。这是一个很好的定义，我认为这绝对捕捉到了我同样认为关于代理很重要的一些东西。但是你可以很容易地在一个环境中或某个地方创建一个LLM系统，其中环境也是一个LLM，这样它就符合这个定义。

所以我认为重要的是，像这样的东西什么时候会从像下一个标记预测这样简单的事情中出现？这就是我感兴趣的。我们如何衡量这一点？是的，这是一个好问题。我对此没有答案，但我一直在思考这个问题。我甚至与一些心理学家交谈过，实际上是纽约大学的Ellen Su，她研究人工智能中的意图检测。

所以我们可以从心理学中学习一些方法，这些方法可以帮助我们在这里获得信息。但我认为我一直在思考的事情是，是什么使代理可能变得有趣和复杂，那就是规划。所以如果一个代理，如果它不能规划，它可能不是非常有用或危险。

所以，规划似乎是能够实现复杂目标的代理的一个重要方面。所以我一直在更多地思考规划，并试图检测模型何时可以进行规划，以及下一个标记预测器何时可以被设置为进行规划。是的，很有趣，这么多人都在关注同一个想法。我的意思是，当然存在主动推理。

卡尔·弗里斯顿会说，规划范围基本上是事物代理程度的衡量标准。甚至伊利亚·苏茨凯瓦，他基本上说，智能事物是由其规划范围定义的，几乎如此。Josje Barck告诉我，代理是控制未来的能力，而未来当然意味着规划范围。

但是你肯定认为代理从根本上来说是关于这种与环境的控制论信息交换。你能告诉我关于这个吗？是的，你刚才说有人称之为控制未来的能力，这与我认为的一致。我认为代理是采取行动以控制其自身未来输入的东西，这基本上是换一种说法。

而且我认为重要的是，它能够在不确定性环境中做到这一点，因为你想要弄清楚反射和可能确定性环境（其中没有任何变化）以及存在不确定性并且系统仍然可以控制未来的环境之间的区别。

在某种程度上，你知道，在生物世界中，我们被分解成所有这些自主细胞，而代理只是通过相互作用的复杂性而出现的东西。然而，我们仍然谈论LLM具有某种类型的代理。两者之间有什么区别？哦，这是一个很难回答的问题。我认为这只是我们用来描述复杂行为的抽象。

我们可以以一种适用于……你知道……我们所是的细胞球，以及LLM以非常不同的方式组成的其他类型的细胞的方式来获得这种抽象。我认为你无法用这种观点来获得这种……你知道……感觉像是一个代理的那种东西，就像有一些东西……

你知道，我的意思是，我之前描述的这种抽象并没有解释清楚，也许它并没有描述成为一个代理是什么感觉，或者它是否感觉像是我自己设定目标，或者它们是由环境引起的，

我不知道如何做一个定义来区分这两件事。我想世界模型也参与其中，为了对未来进行规划，你必须对世界有一个非常好的表示。是的，绝对的。你的世界模型因果关系越强，你就能更好地规划。我的意思是，你还需要其他东西，比如某种方式来表示你正在展开的可能的未来。但这绝对是，是的。

这甚至似乎表明，因果嵌入式代理，我们有这种主动的意义建构，持续学习。所以我们一直在做实验，对吧？我们正在了解世界中的微观因果模式，这使得我们更……你知道……使我们的世界模型保真度更高。语言模型似乎对此有一个非常全球化的版本，但这仍然效果很好。

你所说的全球化是什么意思？Lazen，即使它们是从许多、许多混合在一起的数据源中学习到的所有这些模式，它们也可以学习强大的表示，可以很好地响应它们的影响。但我们处于这种情况，持续学习，主动感知，比如了解我们的环境。所以感觉我们对我们所处的世界有了更好的理解。是的，绝对的。这是真的。我认为我们有……

我的意思是，我们有这些我们智能所建立的某种核心知识系统，对吧？而且……

在某种程度上存在于世界上的所有动物中，这表明它们对于在世界上生存非常有用，以至于它们对所有事物都会出现。而语言模型是在语言上进行训练的，它们可能对所有这些事情都有一些感觉，但它们不像我们那样受到约束。语言本质上能够描述不可能的事情和物理上不可能的事情，以及富有想象力的事情，

想象和类似的东西。因此，它们表现出一些不同的行为、幻觉和产生不可能的事情也就不足为奇了。但人类在非常、非常不同的环境中学习。我们也学会了通过语言谈论不可能的情况，并想象一个可能或不可能的未来，并对这些事情进行推理。但我们仍然受到物理现实的约束。

所以我经常与我的联合主持人Dagar博士意见相左。所以他有一个非常实际的代理定义。他认为它基本上只是一个自动机，对吧？所以它是，我的意思是，我可以给你定义。它是一台从环境E接收输入S的机器，执行取决于S的非空子集的计算C，并采取取决于C以修改E的动作A。所以它基本上就像，你知道，你有一个环境……

几乎如此。老实说，你甚至可以使用这个粗略的定义来描述主动推理和许多其他类似的事情。但我不喜欢它的地方是，你知道，它基本上描述了一种状态机。当然，对他来说，环境可能意味着环境中的任何周围事物。而且

对他来说，计算非常重要。所以他是乔姆斯基层次结构的忠实粉丝，他认为图灵机有一些特殊之处。所以他认为我们作为强大的代理，我们必须能够进行这种递归的、嵌套的、迭代形式的计算，这使我们能够进行规划等等。但对我来说，这似乎有点像有点奇怪，对吧？我喜欢这个想法。

代理的哲学概念，我意识到这有点含糊不清，因为我使用了像涌现的自组织、自主性、学习、适应性、意图性、代理程度等等这样的词，感觉就像一台从输入到输出映射的计算机程序，这怎么可能是一个代理呢？是的

是的，这真的是问题所在，对吧？我认为我同意你的观点，你的联合主持人给出的这个定义是，我的意思是，这是一个公平的定义。我只是认为它强调了错误的东西。我认为它恰好没有解释我发现代理有趣的东西，那就是这种在不确定性下行动的想法，对吧？它没有涉及到这一点。

我们对代理有一种非常直观的感觉。如果我们能够以一种更……

更抽象的方式来描述它，而不是这个定义，这个定义以某种方式抓住了温度计（你也可以用系统来描述它）和代理之间的区别，因为这就是我们试图做的，也许没有区别，但人类却能感知到这种区别，这实际上是核心知识系统代理之一，这一点……

这段20世纪40年代的视频很好地展现了这一点，视频中有一个大三角形和一个小三角形在一个二维环境中移动。还有一个带开口的小盒子，小三角形试图躲避大三角形。它进入了盒子，大三角形就像……

撞击盒子，这些只是移动的形状，但我们立即将代理赋予它们。我们说大三角形很坏，小三角形很害怕。也许这是我们应用代理核心知识系统失败的一个例子，因为它们可能不是代理。有人把它们编程成这样。我们直觉上能区分代理和温度计。

这就是我想表达的区别，而你的共同主持人的定义并没有真正触及到这一点，代理在多大程度上只是我们思考的方式？是的

你的意思是它不是真实的，或者类似的东西？它可能是真实的，也可能不是，因为它是一种划分世界的重要方式，它已经作为一种核心认知基元植根于我们之中，但这似乎是我们识别事物的方式的基础。是的，是的，它绝对看起来是基础的，我认为它之所以重要，是因为一个代理……

可以对我们有用，或者以不同于非代理的方式有用，或者可以对我们造成不同于非代理的危险，而这是否只是我们感知到的东西，而不是根本存在的，这并不重要。是的，我想有时人们会说，我们只是把一切都哲学化了，你知道，当我们谈论意识时，像……

大卫·查默斯这样的人说，我们可能是哲学僵尸，这可能只是一点额外的东西，即使是自由意志，这几乎是代理的一种更强的形式，那就是在那种情况下，你可以做得不同。所以我们就像在想象事情本可以如何不同，这与意向性类似，我们认为意向性就像语言模型或自动机可能做的事情之上的一种东西，并且……

这些哲学特性有用吗？我认为有用，因为它们再次触及……所以对我来说，有意识的感觉绝对是某种东西，人们对此谈论了很多。所以它一定触及到一些有趣的东西，我会这么说。因此它是有效的。我认为意向性也是如此，

我只是把它看作一种有用的行为抽象，可以指导我们更好地理解认知是如何出现的，或者某些动物与其他动物的不同之处，以及如何……

也可以帮助我们评估人工智能，以及它们是否正在做一些可以被视为有意图和目标导向的事情。所以我认为我不喜欢自动机观点的另一个原因，或者甚至是强化学习的扩展，那就是它是一种行为主义。

那就是我们只关注事物所做的，而没有关于心理状态是什么样的丰富认知模型。在我看来，这可能对你来说是一个有趣的偏离，因为在某种程度上，就像在语言模型讨论中一样，你似乎在争论说我们并不真正关心，你知道，把函数卷积成这个大混合体并不重要，但对于代理来说，你似乎在说我们需要有一个明确的结构来解释代理是如何思考的。

是的，我不认为它不会……表示并不重要，对吧？我认为它们非常重要。我认为在纯粹目标导向的语用表示和某种程度上与你所处的当前情况或你拥有的当前目标脱节的表示之间存在区别。两者都很重要，我认为两者都存在于现实世界中，存在于动物中，也存在于语言模型中。所以……

我不认为我们如何卷积或我们如何做这并不重要，但我确实认为对已经学习了什么样的表示以及它们是否很好地反映了我们希望模型学习到的因果世界模型进行推理很重要。

所以我认为这种行为是你所说的这个定义有点行为主义。我认为这正是我对它的问题的关键。我认为，是的，因为它是，它是，它有点像，当然。是的，这个定义适用，但它并没有向我解释为什么我关心这个系统，以及这个系统有什么有趣之处。而且，嗯，是的。

是的，行为通常可以解释很多东西，你可以对行为说很多话。但是，如果你了解产生这种行为的表示，你就可以更有效地描述一个系统。我知道你是Janus的《模拟器》文章的忠实粉丝。他说，我想你可以用代理的方式来解释这一点，即语言模型可以分解成这些角色扮演者。你对此怎么看？

是的，我认为那就像……首先，我是这篇文章的忠实粉丝，但我……

之所以成为忠实粉丝，是因为雅各布·安德烈亚斯的《语言模型作为代理模型》论文，因为他以某种我更容易理解的语言来描述它。但他提出的模拟器当然对我的语言模型概念化产生了巨大的影响，这也是我为什么认为它们可能在模拟人类意图以及它们所学习的文本代理的意图的原因……

学习，而将它们视为许多不同代理的某种叠加，这是一个如此丰富的概念化，它真正解释了许多事情，包括它们的成功和失败，我认为这就是它的酷之处。

这篇文章中一个有趣的事情是连贯性的概念。所以当一个代理，你知道，像一个角色扮演者被选中时，那么这个角色扮演者会停留一段时间。当然，我们对现实世界中代理的直觉概念是，我们维持自己，并且我们也随着时间的推移保持某种连贯性。是的，有点，也许。是的，一点。我的观点确实会随着时间的推移而改变。我认为这也是连贯性的标志。

是的，这很重要。但是，不，你是对的。我想这里也有一篇论文表明，或者在NeurIPS上，表明语言模型不会像实际代理或人类那样长时间保持角色。告诉我更多。说实话，我没有读过，但我认为我应该研究一下。但我的意思是，它们肯定不如人类那样连贯，而且它们不像人类那样清晰地坚持自己的角色。那是……

可能是作为一种近似的代理或代理的叠加的性质，你不能真正将一个代理与其他代理区分开来。你对非物理代理怎么看？我将举一个例子。

我们作为一个集体形成了一种代理，你知道，就像一个模因可能是一种代理。我知道达加德不同意我的观点。甚至新冠病毒，我听说英国的流感发病率急剧上升，流感和新冠之间存在一种奇怪的共生关系。所以当流感上升时，新冠下降。这几乎就像它们是这些虚拟代理，通过宿主相互作用。是的。

不，我认为这完全说得通。我认为可能很难说一群代理不是一个代理，而是一个代理本身。我认为这可以成为一种有用的表示方式。例如，一家公司可以被视为一群代理，对吧？以及它的行为方式。但与此同时，在公司层面，有一些东西似乎……

某种你无法从各个部分准确解释的东西，这可能是某种涌现，我不知道，某种涌现，是的，这很难描述，但当然很多人都在思考这个问题。但我认为，一群代理在某种意义上也可以被视为和抽象为一个代理是有道理的，但可能也有一些东西是一个理解的单一代理，你知道，

你指导的行动，而在代理集合中，这可能变得不同或更困难等等。当我们看到一个超级代理，比如一家公司、一个国家或一种宗教等等时，你认为目标是自下而上还是自上而下？哦，让我们看看，两者都有？

我认为两者都有。是的，我认为公司的目标可能绝对是员工的某种组合，然后公司作为一个整体可能形成一些价值观等等，然后这些价值观也会影响个体代理等等。是的。关于我与Benjo讨论的人工智能安全问题。你担心吗？是的。告诉我更多。

是的，我认为如果你思考，如果你从哲学上思考一个智能系统，它可能很危险。所以作为一个社会，我们甚至不知道如何控制人类，但我们已经建立了一个相当不错的系统来做到这一点，它在不同的层面上都会失败，对吧？在个人层面，在国家之间层面，在各种层面，它有时都会失败。

这很可怕，也很危险。我认为智能并不是那么特殊，以至于我们永远无法创造它。因此，这可能是危险的，对吧？但我一直在努力谈论我的时间表，就像这什么时候会发生？我不知道。

我认为这在未来三年内不会发生。我觉得很多事情都需要改变。我认为社会发展也很缓慢。我认为在采用方面存在巨大问题，例如这些系统不可靠。所以我认为，从哲学上来说，一个智能代理是危险的，而我发现人工智能安全更令人信服的另一件事……

那就是如果我们慢慢地将控制权交给愚蠢的代理或愚蠢的人工智能，这在像我们这样的社会中也可能是危险的。这也是我担心的事情。所以我认为了解一切是如何运作的以及系统是如何运作的是很重要的。因为我也认为它可以……我不是纯粹的悲观主义者。我认为它可以带来很多……

美好的事物给世界。有很多事情可能应该自动化，或者至少如果我们能为某些职业提供一些帮助那就太好了，因为，你知道，我们都在变老，很多人都在从事护理工作。如果我们不做些什么，我并不是说人工智能会帮助那里，但如果人工智能能够减轻未来会变得更困难的一些事情，那就太好了。

例如，如果它们能让医生更高效地工作，医疗保健方面。但我认为思考它如何产生积极影响确实并非易事。我很高兴很多人都在思考这个问题。我喜欢将代理作为一种思考这个问题的心智模型，因为如果它是控制未来的能力，那么对我来说，它类似于权力。当然，谈论权力动态是……

谈论我们应该如何治理这个问题的语言，我可以看到很多论点，我可以看到这种技术实际上是如何夺走我们的代理权的，它也可以极大地赋予我们代理权，因为突然之间人们可以制造化学武器和炸弹之类的东西，是的，嗯，但另一个担忧当然是它本身会，你知道，采用某种代理形式，并且……

通过工具性目标或其他什么。是的。那么在这三点上，你认为风险最大的地方在哪里？我认为所有这些都是有风险的。我认为我最担心的是获取的不平衡。所以如果人工智能变得非常有用并使我们更有生产力，如果我们能够以一种帮助人们的方式在社会中分配它，那就太好了，比如……

我认为技术进步可能没有，没有像合适的比例那样帮助合适的人。这是，你知道，我们所生活系统的结果，以及我们政治的结果。所以我认为未来更重要的是考虑这个问题，并更多地考虑我们如何才能让合适的人获得访问权限。我认为……

解决这个问题的方法是政策，并思考我们的系统是如何运作的，我们的经济是如何运作的，并为人工智能能力的巨大进步做好准备。如果这开始变坏，你认为会怎样？因为显然应该有一些预兆。对你来说，早期预警信号是什么？对不起，预兆是什么？就像预兆是某种坏事即将发生的一个信号。好的。是的。

是的，我认为那可能不会发生。我认为我们将慢慢地构建一些东西，然后在某个时刻我们会说，哦，等等，还记得那时有选举，Facebook显然可能影响了它们，我们构建了这个工具，我们没有意识到它会如何影响我们。我认为这可能也会像这样与人工智能一起工作。我们不明白什么是智能，如果我们看到它，我们可能也不会立即认出来。

这很有趣。是的，我喜欢这种削弱我们弱点的感觉。所以它实际上是一种非常外星的弥漫性事物，我们甚至可能没有完全意识到它正在发生。是的，没错。是的，我认为这比我们突然会说，哦，等等，这很危险更有可能发生。虽然，我的意思是，也有这样的例子发生，对吧？像Chachi Piti。

在NeurIPS 2020、2021、2019、2022、2022年。再过几年。是的，所以我记得ChatGPT发布，那是我第一次意识到，哦，我的上帝，语言模型太疯狂了。但ChatGPT是一个非常……

所以OpenAI就像他们做的不仅仅是渐进式过程，但那天发布的ChatGPT本身可能只是某种程度上渐进式的，因为它只是一个对已经非常强大的模型的可用的接口。它帮助我们理解GPT-3实际上非常强大，上面有一些指令微调，实际上是一个聊天界面。所以这就像一个缓慢的过程……

事情的变化立即让人们意识到，哇，这太疯狂了。所以可能会有类似的事情，人工智能做了一些我们都没想到它会做的事情。这让我们集体思考，我们现在必须注意，你知道，改变事情。但是……是的。是的。

我认为人工智能的中心也是我们正在暗示的东西，因为Meta的任何人都没有打算让这些社交媒体问题发生。他们构建了这些算法。他们只是继续前进一步，你知道，让我们构建一个广告系统。让我们做协同过滤。所有这些东西都只是我并不认为的外部因素，你知道，所以这就像这种无意的代理。

但代理是什么？所以就像整个系统，包括我们，我们是代理。这与人工智能是一样的，我们在某种程度上正在寻找大型语言模型内部的代理。但就像我们作为一个系统，我们实际上是一种奇怪的新集体智能，没有人真正理解。这很可怕，不是吗？就像，是的，它是……

是的，如果Facebook本身可以被视为一个代理，我们已经围绕着谁应该为哪些事情负责建立了法律结构，对吧？但这并不意味着我们责备的这些人打算这样做。这很可怕。当你构建一堆你无法像我们自己那样受到相同社会控制的智能人工智能代理时，这可能会变得更可怕。是的。

所以我们上次在NeurIPS 2020、2022年交谈。我觉得你从那时起改变了一点立场。你能跟我说说吗？-是的。当时，我花了一段时间才接受教会LGBT学校。

像许多其他人一样，我一开始也很怀疑，尤其是所展示的数据量。这也是……我最近的论文再次改变了我的观点。有一段时间，我也认为它们做的有点……比它们现在所做的这种近似泛化更少的一般化检索。随着时间的推移，我只是改变了我对……

这种方法的希望程度。我也可以把它归因于一件具体的事情，那就是我发表了关于大型语言模型不是零样本沟通者的论文。当时，我认为零样本沟通非常重要，对吧？我们所有人都会这样做。我们不需要五个例子。所以我认为，好吧，我们需要确保这些模型能够对这些问题进行零样本响应。但后来我发展了这种观点……

它们是多任务学习者和一般学习者，你需要找到与它们交互的正确方式，对吧？对我来说，一个非常突出的记忆是安德鲁·兰皮宁这样描述的，我认为甚至在这个节目中，他说，零样本提示语言模型就像走在街上对着某人喊，15乘以32是多少？他们会说，你知道，

你是谁？太远了。那是他对零样本推理的类比，这对我来说完全说得通。仅仅因为他们不能用你特定的零样本提示来做某事，并不意味着他们根本不能做。让他们进行零样本测试绝对很重要。这是一个限制。但如果他们做不到，你需要尝试几次，你需要找到正确的提示。你也不需要做得过火。你不想在测试集上进行……

提示工程，本质上。但中间地带是存在的。劳拉，非常感谢你今天加入我们。太棒了。谢谢。

How Do AI Models Actually Think? - Laura Ruis 01:18:01 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

How Do AI Models Actually Think? - Laura Ruis