We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

GSMSymbolic paper - Iman Mirzadeh (Apple)

2025/3/19

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Iman Mirzadeh

主

主持人

专注于电动车和能源领域的播客主持人和内容创作者。

Topics

Iman Mirzadeh: 我认为，如果要从本次演讲中汲取一条重要的信息，那就是要理解智力与成就之间的区别。当前领域非常关注成就、数字和准确性，却忽略了对智能系统的理解。这意味着要理解一个系统如何理解、如何推理，而不是将其与某个基准测试的特定数字联系起来。我们需要构建更好的抽象世界模型和知识表示。这并非易事，因为我们甚至对一些基本问题都缺乏答案。例如，AlphaZero的出现提升了国际象棋水平，并非因为人们单纯记忆招式，而是因为他们试图理解AlphaZero的工作原理。国际象棋大师们利用AI工具来发展理论、创造新的策略，而非单纯记忆招式。ImageNet等基准测试的饱和表明，仅仅达到高精度并不意味着问题解决，现实世界并非静态的。构建智能系统应该关注理解和推理，而非仅仅追求精确的数字结果。人们常认为LLM的推理能力不足是因为缺少某些功能或调整，或者仅仅需要访问工具，但这忽略了理解和创造新知识的重要性。人类也使用工具，但重要的是理解和创造新知识，而非仅仅完成任务或达到特定精度。解决复杂问题需要多种工具，这最终会归结为相同的问题：如何理解和推理。使用工具可以解决问题，但不一定能理解解决问题的过程。使用外部工具可以赢得比赛，但不一定能理解其中的原因和策略。AlphaZero的一些策略以前从未见过，人们需要理解这些策略背后的原因，而非仅仅关注其带来的优势。理解AlphaZero的策略能够改进国际象棋，这比单纯记忆招式更有意义。利用AI工具改进国际象棋，关键在于理解策略背后的原因，而非单纯追求高分。LLM的推理能力存在局限性，其脆弱性表明其并非真正的推理。将LLM看作是掌握大量分布的系统，提示只是调整这些分布，而非真正的理解。提示可以引导模型，但这并不意味着模型理解其背后的知识。目前的训练方法将所有内容视为分布，模型的目标是学习并最小化与数据分布的距离，这限制了模型的理解能力。目前的训练方法限制了模型对分布之外内容的理解能力。目前的训练方法导致模型容易出错，难以处理不同分布的数据。交叉熵损失函数只关注模型输出结果的正确性，而忽略了模型对底层概念的理解。交叉熵损失函数只关注模型输出结果的正确性，而忽略了模型对底层概念的理解。交叉熵损失函数无法保证模型理解数字和加法的概念。交叉熵损失函数只关注模型输出结果的正确性，而忽略了模型对底层概念的理解。目前的训练方法无法保证模型能够构建世界模型和概念。人工智能领域取得了很大进展，但研究方法和指标设计方面仍有改进空间。目前人工智能研究方法并非最佳，我们缺乏对系统工作原理的深入理解。人工智能研究应在理解问题基础上寻找解决方案，而非反之。阅读大量论文后，我们对人工智能系统的理解并没有显著提高。目前人工智能研究缺乏一个统一的理论框架来解释系统的工作原理。目前人工智能研究缺乏一个统一的理论框架来解释系统的工作原理。其他领域，例如物理学，拥有更完善的理论框架来指导研究。目前人工智能研究更关注解决方案，而忽略了对问题的理解。在寻找解决方案之前，应该先理解问题。目前对提示机制的研究缺乏统一的理论框架。目前对模型的研究缺乏统一的理论框架，这阻碍了模型的改进。目前的理论研究过于严格，与实践脱节，这阻碍了理论的快速发展。目前的理论研究过于严格，与实践脱节，这阻碍了理论的快速发展。人工智能领域面临的挑战包括同行评审过程的不足。人工智能领域面临的挑战包括同行评审过程的不足。如何桥接符号人工智能和连接主义是一个重要问题。可以考虑将符号模型和非符号模型结合起来，但不能将它们视为完全独立的系统。可以考虑将符号模型和非符号模型结合起来，但不能将它们视为完全独立的系统。将符号人工智能和连接主义结合起来，需要模型能够构建世界模型并更新自身的信念系统。模型需要具备判断信息正确性的能力。模型需要具备判断信息正确性的能力。模型需要具备自身的信念系统和知识表示，并能够根据新的信息更新自身。模型需要具备自身的信念系统和知识表示，并能够根据新的信息更新自身。模型的信念系统不应是孤立的，而应该是一个集成循环。人类并非总是进行推理，LLM也存在多种模式，有时进行表面统计，有时进行近似推理。LLM擅长插值，这给人造成其具有推理能力的错觉。LLM擅长插值，这给人造成其具有推理能力的错觉。LLM的插值能力在封闭领域表现良好，但在开放领域则存在局限性。LLM的成就和能力与智力是不同的概念，目前我们常常混淆两者。目前我们常常混淆人工智能系统的成就和智力。目前我们常常混淆人工智能系统的成就和智力。智力指的是系统的潜在能力和发展潜力，而非当前的成就。智力指的是系统的潜在能力和发展潜力，成就指的是系统在特定任务上的表现。系统在基准测试上的良好表现并不一定意味着其具有智力。智力指的是系统长期发展的能力。智力指的是系统长期发展的能力，而非当前的成就。智力可以用大脑质量与体重质量之间的关系来衡量，关键在于增长速度而非当前水平。智力指的是增长速度，而非当前水平。“伊曼登月测试”用来衡量智力，即从原始人到登月所需时间。当前的LLM在基准测试上的高分并不意味着其比原始人更聪明。智力指的是学习和成长的能力，而非在特定任务上的表现。智力指的是学习和成长的能力，而非在特定任务上的表现。衡量智力是一个难题，目前的基准测试容易饱和。衡量智力需要从定义智力的特性出发，这可能需要一个非客观的方法。衡量智力需要从定义智力的特性出发，这可能需要一个非客观的方法。衡量智力可以从系统在全新任务上的表现出发。衡量智力可以从系统在全新任务上的表现出发，例如学习新编程语言的速度。Gilles Gignac等人的论文对智力的定义进行了形式化的探讨，值得参考。主持人: 我们需要构建更好的抽象世界模型和知识表示。人类并非总是进行推理，LLM也存在多种模式，有时进行表面统计，有时进行近似推理。智力并非技能，而是适应新事物的能力。 supporting_evidences Iman Mirzadeh: 'To me it looks nearly impossible to build an intelligent system that operates without an abstract model of the environment and the world and knowledge.' Iman Mirzadeh: 'In image and computer vision, we had these benchmarks like ImageNet and all those benchmarks and we saturated them and we thought, okay, the vision is solved.' Iman Mirzadeh: 'number of examples. You have to build an agent that understands and reasons.' Iman Mirzadeh: 'So intelligence, by default, it means, like, by definition, it means about the capability of system and how it can grow and at some point eventually becomes capable.' Iman Mirzadeh: 'So how could we measure this? Because, you know, like Jolet had this formalism for measuring intelligence, but it wasn't computable.' Iman Mirzadeh: 'If you look back, obviously we can admit that kind of what these systems today are capable of kind of surprised the field and everyone, I think.' Iman Mirzadeh: 'So, yeah, I mean, about sampling, there are a couple of things. Like, sometimes sampling in general doesn't make sense.'

Deep Dive

Chapters

This chapter discusses the crucial distinction between intelligence and achievement in AI systems. Current AI research heavily emphasizes achievement metrics like accuracy, neglecting the fundamental understanding of intelligence, reasoning, and knowledge representation.

Overemphasis on achievement metrics in AI research.
Need for better abstract world models in AI systems.
Lack of basic answers to fundamental questions about intelligent systems.

Shownotes Transcript

我认为，如果有人想从这次演讲中汲取一条重要的信息，那就是理解智力和成就之间的区别。

该领域目前非常关注成就、数字和准确性，而不是试图理解什么是智能系统？系统理解和推理意味着什么，而不是将其与某个基准的某个数字联系起来？伊曼，我认为你会同意我们需要更好的抽象世界模型，对吧？我们需要更好的表示方法

那将如何运作？在我看来，构建一个没有环境和世界以及知识的抽象模型而运作的智能系统几乎是不可能的。但现在还有许多问题需要解答。我现在对文献的一个问题，包括我自己，是我们甚至没有对这些问题的基本答案。

AlphaZero出现后发生了什么。发生的事情是，国际象棋比赛变得更受欢迎，国际象棋的水平也提高了。不是因为人们使用了国际象棋引擎并仅仅记住了招数，而是因为他们试图理解AlphaZero在做什么，其他国际象棋引擎在做什么。

因此，特级大师实际上经常使用这些工具，但他们不会去死记硬背国际象棋引擎的招数。他们所做的是发展理论。因此，他们研究新的开局，研究某些位置的新招数，新的策略。他们从这些工具中学习，而不是仅仅死记硬背。他们理解，他们创造知识，新的知识，新的理论。

在图像和计算机视觉领域，我们有ImageNet这样的基准测试，以及所有这些基准测试，我们已经饱和了，我们认为，好吧，视觉问题解决了。但现在我们看到自动驾驶汽车现在并没有成为现实，因为它非常困难。就像在现实世界中，并没有一个我们已经固定的现实的特定冻结片段。

示例的数量。你必须构建一个能够理解和推理的代理。这就是为什么我认为关注精确的数字并不重要。

MLST由Tufa AI Labs赞助。现在他们是位于瑞士的深度搜索公司。他们有一个令人惊叹的团队。你已经见过团队中的许多人。他们收购了Minds AI，当然。他们在Arc上做了很多伟大的工作。他们现在正在研究O1风格的模型以及推理和思考以及测试时间计算。你想要为他们工作的原因是你可以获得大量的自主权，你可以获得可见性，你可以发表你的研究成果。而且他们也在招聘，以及机器学习工程师，他们正在招聘首席科学家。

他们真的、真的想要为这个职位找到最好的人选，他们准备支付高额的签约奖金。因此，如果你有兴趣作为一名MO工程师或他们的首席科学家为他们工作，请联系Benjamin Cruzier，访问twoforlabs.ai，看看会发生什么。

你知道我们都承认LLM系统在推理方面存在局限性，有些人说，这仅仅是因为缺少一个特性，一个缺少的调整，我们只需要调整transformer架构，然后它们就可以进行复制、计数和推理所有这些东西，其他人说，我们只需要让他们访问工具就可以了，例如，我想拥有一个下国际象棋的系统，它可以使用国际象棋电脑，那可能会出现什么问题呢

所以，是的，这是我听到的最常见的论点之一，我与许多朋友、同事，甚至NeurIPS的人们都进行了辩论。我个人对使用工具没有任何问题。人类也使用工具。每个人都使用工具。但是回到我们之前的讨论，

讨论的一部分。这不仅仅是解决一项任务。这不仅仅是在一项任务上达到一定的准确性。这是关于理解。这是关于创造新的知识，创造新的目标，实现这些目标。所以我对工具使用的反对有两个论点。一个是

首先，这不仅仅是一个工具，对吧？例如国际象棋。是的。如果你在世界上唯一的目标是在国际象棋方面表现出色并击败一些人类。是的，你可以查看，我不知道，一个国际象棋引擎作为一个工具，并向它提供招数，获得招数，下国际象棋并获胜。

所以它不会是你一生中唯一的工具。会有很多工具，对吧？如果你看看一些推理任务，比如解决数学、逻辑问题、规划，它涉及许多步骤，许多步骤。

你需要导航和学习的许多状态。即使使用工具，你也无法使用，你也不一定会只使用一个工具。你需要很多工具。这将类似于，我不知道，在某些时候你需要使用五个工具，十个工具。然后工具可能会变得复杂。它们可能不一定是这样的，

你提供输入，你得到输出。它将是复杂的。从本质上讲，它将简化为相同的问题，对吧？如果我需要规划十个不同的动作怎么办？如果你看，所以在这一点上，你仍然面临同样的问题，对吧？所以这就是

一个论点，对于国际象棋来说，还有一个论点是，如果你使用工具，使用工具当然是可以的，但你并不一定能够知道

使用外部工具来理解该任务的系统。看看国际象棋引擎，你可以玩，你可以使用国际象棋引擎并获胜，但你并不一定理解你为什么做出这些举动？为什么在这个位置有这个举动？什么构成了一个好的位置，坏的位置规划？所以

实际上是因为我非常喜欢国际象棋，我看国际象棋比赛，所以我关注国际象棋世界正在发生的事情，发生的事情是，在

AlphaZero出现后。所以人类，而不是像，每个人都认为像国际象棋这样的运动和比赛将会失去它的重要性，因为有一个系统可以击败世界上任何一位特级大师。但发生的事情是，国际象棋比赛变得更受欢迎，国际象棋的水平也提高了。不是因为人们使用了国际象棋引擎并仅仅

呃，记住了招数，而是因为他们试图理解呃，阿尔法阿尔法零在做什么，其他国际象棋引擎在做什么，呃，他们实际上写了一本书来理解阿尔法零的招数，对吧，所以著名的阿尔法零有这个举动，呃，有时它试图呃，

从左上角或右上角，这些举动以前从未见过，对吧，但你可以说我不在乎这是一个让我获得优势并获胜的举动，或者你可以理解为什么这个举动呃，

这种举动提高了国际象棋的水平，对吧？所以，特级大师实际上经常使用这些工具，对吧？但他们不会去死记硬背国际象棋引擎的招数。他们所做的是发展理论。因此，他们研究新的开局。他们研究……

某些位置的新招数，新的策略。他们从这些工具中学习，而不是仅仅死记硬背。他们理解，他们创造知识，新的知识，新的理论。我认为人类如何使用国际象棋引擎与人们认为我们应该如何使用国际象棋引擎之间的这种区别非常重要。所以如果有人声称国际象棋

国际象棋引擎，就像你一样，你可以将国际象棋引擎用作你的LLM的外部工具，如果要开发该系统，我对此没有意见，但我衡量该系统好坏的标准是，如果你开始，如果你让该系统或LLM或任何系统使用该国际象棋引擎，一段时间后它会提出一个理论，所以一个

例子是，人类在国际象棋中有一个原则，即在开局阶段，你应该控制中心，因为你控制着更多的方格，它允许你在接下来的几步中拥有更多的方格，并且它可以阻止你的对手发展它的棋子，对吧，棋子的发展，控制中心是原则

国际象棋的。所以如果你从任何系统和一个国际象棋引擎开始，一段时间后，它会想出为什么控制中心很重要。因为开局，就像你可以训练一个模型来进行所有比赛，它将学习作为一种分布和统计数据，白棋的第一步是e4、d4或c4，对吧？就像第一个，中心的兵。所以

其背后的原因是他们想要控制中心，对吧？如果它能提出这种新的知识，理解为什么它很重要，使用工具是可以的。但如果它只是，你知道，使用国际象棋引擎并给出招数和反馈，而对正在发生的事情没有任何理解，那么你所做的就是获得了国际象棋的高等级，而实际上并不了解发生了什么。

我们应该在这里多么清教徒？所以，你知道，LLMs，它们的行为就好像它们在很多、很多情况下都在进行推理，但它们依赖于提示。你给他们错误的提示，你在那里加入干扰因素，它会变得脆弱，它不起作用。那么我们该如何解释呢？因为这种脆弱性，我们是否说它不是推理？简短的答案是肯定的。所以我看待提示的方式，以及我为什么也不一定……

认为探索不同的提示有助于真正理解，比如改进系统，是因为我认为提示，我认为LLMs是一个知道很多、很多、很多分布的系统，对吧？然后提示对我来说就像调节这些分布，轻推这些分布，也许专门引导模型朝某个方向发展。

因此，你可以使用提示来做任何你想做的事情，几乎可以做任何事情，但这并不意味着系统理解知识背后的情况。所以我对提示的问题

我们训练系统的方式是，我们将所有内容都视为一种分布，当你学习一种分布时，我们的损失函数是，你学习一种分布，最小化你的分布与你从数据中推断出的总分布之间的距离，对吧，一旦你学习了这个星期，这就是模型所关心的全部

所以，一旦你学习了这种分布，你就停留在这种分布中。这有很多问题。第一个问题是，根据定义，根据构造，这些系统将无法理解这种分布之外的东西。根据构造，我们训练模型以最小化损失并停留在分布的边界内。

这就是导致所有问题的原因，对吧？你改变了一些东西，系统崩溃了。你想衡量模型在不同分布上的表现，它们做不到。所有这些问题，因为这就是我们训练模型的方式。你怎么期望模型停在一个盒子里？然后你问它，盒子外面会发生什么？你就是这样构建这个系统的。所以，

我认为这是一个问题。另一个关于我们训练方式的问题，我认为，我们的模型，顺便说一句，我现在还没有如何解决这个问题的答案。但另一个问题是，当我们使用例如交叉熵损失进行训练时，对吧？比如说，你像，

你正在教模型进行算术运算，对吧？我们所做的是像2加2等于，假设2是一个标记，加是一个标记。所以这些是标记。然后在文本中，有4，对吧？所以模型所要做的就是在2加2等于之后学习，它应该输出4。以及一些上下文，也许。所以没关系。

对于这个系统来说，这个4是来自对整个自然数、数轴、加法等的理解，我们可以这样做还是不能这样做？或者它只是记忆，或者可能是其他什么东西，对吧？所以在我们的损失函数中没有任何东西说，

重要的是你理解数字和自然数作为一个概念，稍后将发展到，我不知道，有理数或实数以及所有这些概念。你所要做的，我所关心的是，在2加2之后，你应该给我4。

正因为如此，我们不知道模型是否能够提出这种理解并构建一个世界模型或某种正在发生的事情的概念。但是是的，我认为这些是所有这些的主要问题。这些是我认为我们正在做的一切来训练系统的结果。

你对目前人工智能研究中智力领域缺乏进展感到不知所措，告诉我更多信息。

哦，好吧。是的，我的意思是，这个故事有两面性。一方面，显然，我认为我们生活在一个非常重要的时期，一个非常令人兴奋的时刻。并且正在取得许多进展。现在很多人都在投资人工智能。正在进行大量的研究。所以从这方面来说，这是非常令人兴奋的。另一方面，我认为，

在我看来，我们在这个领域进行研究的方式并不一定是最优的。我们设计指标的方式以及系统总体的工作方式并不一定是最优的。例如，现在，当前的研究方式，大部分研究，

研究是人们相信研究总是一个渐进的过程，我并不反对这一点。你总是会建立在其他人工作的基础之上。

但我对目前研究的进行方式的问题是，通过阅读新论文和学习所有新论文，与，我不知道，两年前、三年前、四年前相比，我们仍然对科学没有更好的理解。

这些系统是如何工作的，对吧？我们不知道我们是否朝着正确的方向前进。例如，现在的大多数论文都假设，如果你这样做，

那么就会发生这种情况。然后伊朗的实验表明，是的，如果你这样做，那么就会发生这种情况。然后会有另一篇论文说，如果你这样做，那么就会发生这种情况。然后会有其他论文说，所有这些论文都有这个假设，然后如果你有一个不同的假设，那么就会发生这种情况。然后仍然，在阅读了，我不知道，10篇、20篇论文之后，你仍然没有对这些系统如何工作有一个连贯的图景。一般的假设是什么？

所以我认为，许多其他领域，如物理学，好的地方在于你有一个假设，说，这是我的模型，我不知道，一个transformer，对吧？这就是我认为transformer的工作方式。然后在那之后，你说，好吧，如果我的假设是正确的，那么就会有这些结果，对吧？然后我将进行设计和实验并进行测量。

但事情并非如此。人们解决这个问题的方式是在理解问题之前寻找解决方案。我认为这是我希望至少人们花更多时间去理解事物而不是专注于解决方案和我们可以做什么的问题之一。我一直都……

我认为更重要的是要理解现在正在发生的事情。问题是什么？这些系统的优缺点是什么？这些系统是如何工作的？然后，一旦你至少有一个假设或心理模型，比如这些系统是如何工作的，那么你就可以在此基础上进行构建。但是

否则你可能会遇到像论文或研究这样的情况，他们认为，与其试图理解提示是如何工作的，你可以说我对提示的模型是它会轻推分布，它会预先设定模型，然后如果有一些分布和一个模型正在对它进行插值，那么就会发生这种情况，对吧，然后你可以运行一些好的

像测试这个假设一样，但发生的事情是，有人探索了如果你保留一个语言模型，即使它像提高你的准确率5%，你仍然不知道发生了什么，对吧，就像在你阅读了提高模型性能的那些工作之后，像所有那些工作一样，你仍然没有对

模型有更好的理解，然后这将使改进这些系统变得非常困难，对吧，然后还有其他我认为的方面，我认为从理论的角度来看，我根本不是理论专家，但我认为也许我们的理论也过于严格了，我认为目前是这样，因为问题太难了，而目前的理论落后于

实践者的状态。然后他们想保持严谨，非常严谨，并进行发展。但如果理论不变得更宽松，那就非常困难了。所以它至少可以像取得更快的进展一样。

所以我认为这些是主要问题。然后从其他方面来看，我认为，鉴于人工智能文献中人们的兴趣和投资，有很多人在从事这个领域的工作，这真的、真的很好。

但还会有其他挑战，比如审查过程，同行评审过程非常困难和嘈杂。我没有机会在这里提出解决方案，但我认为我们至少可以

考虑这些问题。我们如何改进这些流程？是的，我认为这些是目前AR文献和AR研究界在研究和研究的进行方式方面的主要挑战。我们如何弥合符号人工智能和连接主义之间的差距？是的，那是……我认为，我的意思是，我们……

有几种方法可以考虑这个问题。比如，我认为你可以有一个符号模型。我不是……现在，我并不是说，像，这个模型，像，符号模型与非符号模型或深度学习是好是坏，或者，像，工作。我考虑的是更多，像……

基本的方法，比如给定任何系统，是否有办法理解这个系统是否理解一个概念，是否能够推理，但总的来说，我认为开始并像整合这两个方面一样是可以的，也许我们从一个单独的模块开始，然后

然后也许最终，通过结合这两个领域，它会随着时间的推移而变得更加集成和改进。但重要的是不要将这些东西视为两个独立的系统。否则，它会导致使用外部工具等问题。所以应该有一些理解的概念，并且像，

模型本身应该能够拥有一个世界模型，应该能够理解我是否需要更新它。我还有另一个思想实验，那就是，想象一下，现在我们正在谈话，我告诉你一个正方形的面积是PR的二分之一次方，我不知道，类似的东西。

p乘以π乘以2r，对吧？所以你不会接受我的论点，对吧？就像你可以用数学方法证明这是不正确的。但如果我告诉LLM一个正方形的面积是πr的三次方，因为模型系统中没有模块说，这有意义吗？我对这个圆的面积有什么看法？

它理想情况下不应该，它不应该接受它。但我们没有这样的系统。所以我认为这是我认为的一件事，为什么我们需要另一个组件的例子之一，为什么我们至少缺少一个组件，一段时间后它会学习，

呃，提出它自己的信念系统和知识表示，如果当某些事情发生时，它可能会更新它的信念系统或可能不同意，我不会同意我不知道圆的面积是其他东西，因为我现在无法向你证明就是这样，如果你有另一个证明，我会阅读它，但我会怀疑那个证明是正确的，对吧，所以

这非常重要。但我对其他信念系统持开放态度。例如，温哥华最好的就餐场所，我愿意改变并尝试你的建议。所以我认为重要的是，系统不应该被分开，而应该被视为两个独立的组件。它应该是一个集成的循环。

是的，我认为你说的很有趣，人类并不总是推理，但我们能够进行某种特权形式的认知，我们可能称之为推理。你也可以认为LLMs具有一系列模式。所以有时它们正在进行表面统计，也许在某些情况下，它们至少正在进行某种近似的推理版本。所以似乎存在一个频谱。告诉我更多关于这方面的信息。是的，我认为……

如果你回顾过去，显然我们可以承认，今天这些系统能够做到的事情让这个领域和每个人都感到惊讶，我认为。但我认为我们有时会混淆

对它解读太多，以及这些系统能够做什么，以及一些说法说模型可以推理，并且存在一个频谱，我不确定这实际上是这些模型系统能够做什么，我认为它们擅长的是某种插值

所以它们并不是仅仅记住事情，它们无法做超出训练数据的事情。他们从不同的地方学习很多东西，他们学习不同的分布，他们在这他们已经学习的东西之间进行插值。所以我认为这就是，我认为，这些系统能够进行推理的错觉的原因。如果领域非常有限，

并且封闭，例如，一个整体空间封闭的特定领域，模型的插值似乎足以假设这些模型能够在该领域中执行。但我认为总的来说，系统能够实现的目标和能力与智力以及其他能力之间存在着巨大的区别，

系统的内在能力。所以这两者是不同的。但我们目前所做的是将这两者混合在一起。所以对我们来说，现在就像如果一个模型在编码基准测试中表现良好，这意味着它具有推理能力。如果它在

数学基准测试中表现良好，这意味着它正在进行某种推理。当我们将这些混合在一起时，它会使论证和理解这些系统变得非常困难。所以我认为重要的是讨论智力和成就之间的区别。

所以智力，默认情况下，这意味着，根据定义，这意味着系统的能力以及它如何发展，并在某些时候最终变得有能力。不一定是什么……

它现在有多么强大。所以成就就是衡量系统在一个特定领域、任务或基准测试中的表现。所以这两者是不同的。所以如果一个系统是智能的，最终它将能够在一个基准测试中表现良好。并且

但反过来不一定正确。所以如果模型在一个基准测试中表现良好，并不一定意味着它是智能的。但由于很难衡量一般的智力，这是一个悬而未决的问题，我们设定了一个基准，并说一个智能系统应该在这个基准测试中表现良好。

然后当一个模型或系统变得优秀时，我们说这是在进行推理。所以这些是不同的。我认为智力是关于……

是关于一个系统从长远来看如何能够表现良好。今年NeurIPS上Ilya的演讲中有一张非常有趣的图片，这张图显示了

在体重和脑重之间有一条回归线，这张图显示了不同物种在这种意义上的比例。我从这张图片中得到的结论是，智力不是你现在在这个尺度上的位置，而是关于……

那张图的斜率，所以如果你在考虑规模法则，智力就是规模的斜率，而不是你所处的位置，是的，我喜欢这一切，我的意思是……

你可能知道我是Francois Chollet的忠实粉丝，他总是费尽心思地说智力不是技能。它是对新事物的适应。它是技能习得效率。所以宏观适应性方面有一些重要的事情。事实上，当我们之前讨论这个问题时，你想出了你自己的智力测试，我称之为伊曼月球测试。

也就是说，你知道，基本上，想象一下我们从穴居人开始，然后登上月球，以及我们能多快做到这一点？是的。所以，是的，这是来自一个思想假设，对吧？所以再次重申智力和成就之间的区别，对吧？所以想象一下穴居人。

所以如果你回到过去，给穴居人MMLU或GSMHK，我认为性能将接近于零。而目前的模型在这些基准测试上的准确率接近80%、90%，对吧？我们真的相信吗

我们拥有的当前系统比穴居人更聪明。所以智力是关于人类拥有的系统，而不是它在一个基准测试上的表现如何，对吧？即使你更进一步，像历史上和科学界的一些伟大人物，比如亚里士多德，对吧？如果你给亚里士多德MMLU，我认为它的表现不会像目前的LLMs那样好。

但我们真的相信我们拥有的那些LLMs更聪明吗？因为智力不是关于你在特定任务上取得了多少成就。而是关于那个系统，那个人，如果它花费时间，学习一些东西并成长。

那么我们该如何衡量呢？因为，你知道，像Jolet那样有一个衡量智力的形式化方法，但它不是可计算的。基准测试，它们只是饱和了，你知道，它们变得很好心。我们如何构建一套新的基准测试？是的，那是……我认为我没有……

具体的答案，我一直在思考这个问题，但我认为我现在还没有答案，但我们也许不能，我们可以首先从一些不一定客观的东西开始，但也许我们可以从询问我们想要什么样的系统开始，智力对我们意味着什么，呃，

成就对我们意味着什么，然后呃，如果我们也许从一种公理化的定义和特征开始，那么我们首先它不会是客观的，我知道它不会是具体的和开放式的，但如果你开始思考这些重要的问题，我们可能会想出一些呃呃，衡量它的方法呃，所以它是呃，

总的来说，衡量智力非常困难。即使对于人类来说，衡量人类的智力也不是一件容易的事。但我认为我们可以定义一些我们想要从系统中获得的理想特性。这些理想特性可能意味着一些事情，比如系统能够在新的任务上表现良好。

然后新颖性的定义本身并不容易。但我认为我们可以从这里开始，然后在此基础上进行构建，并对此进行更多思考。因为Gilles Gignac等人有一篇很好的论文。它被称为……

关于智力的定义，我认为那是一篇非常好的论文。它在机器学习社区中传播得不太好，因为他们有心理学和认知科学的背景，但这确实是一篇非常好的论文。它定义了……

非常正式地定义了什么是智力，什么是人工智能，我们正在寻找什么样的智力形式，我们可以从那里开始，更多地思考这些问题，也许我们会想出更好的东西。

是的，这就是我对这些方法的思考。但总的来说，我认为方向应该转向衡量新颖的任务。例如，如果您正在训练一个模型来进行编码，至少您可以这样做……

对我来说，更好的衡量标准是系统学习新编程语言的速度。像LLM这样的系统在Python或所有它接受过训练的语言上都能做得很好。如果我创建一种新的编程语言并要求它用这种语言编写一个新程序，它学习这种语言的速度以及它能……

与从未见过这种语言的人相比，用这种语言编写程序的能力如何。因为我认为我们可以做的另一件事是比较人类如何学习和推理，并将其与这些机器的学习和推理方式进行比较和对比。

所以，是的，我认为我们可以朝这个方向思考，但我没有具体的……是的，这非常棘手。Pei Wang有一篇关于定义智力的优秀论文，他说这非常以人为本……

你知道，在不同的领域，人们使用不同的技术。所以，你知道，我们可以基本上复制一个人脑。这是最以人为本的。这没什么用，对吧？或者我们可以有行为的概念，或者能够编写Python程序的更抽象的能力。

或函数，因此拥有能够进行规划和推理以及所有这些抽象认知功能的东西，或者甚至拥有某些原则的东西，例如你知道涌现或某些特征或类似的东西，非常非常棘手，但在我们离开之前，你引用了这篇来自心理学论文，我非常想知道

他们的定义是什么。对于Pei来说，他的定义与适应性密切相关。这似乎是他核心内容之一。所以，是的，这篇论文实际上讨论了关于研究、理解和定义智力的许多其他著作。我强烈推荐这篇论文。所以，是的，这篇论文的重点，主要的重点是新颖性。所以，

这篇论文中智力的定义是系统在给定时间内实现新目标的最大能力和容量。显然，您可以定义许多不同的程序和系统……

在无限的时间内最终可以达到目标，但时间也很重要，这就是为什么我还提到了缩放的斜率以及它为什么重要的原因。你认为能动性和自主性会进入智力吗？你知道，基本上是设定自己目标的能力，还是你认为我们应该纯粹地从这个框架中思考智力，它有一个目标，它能实现它吗？

不，我认为实际上能动性和系统对它想要什么的某种概念非常重要。我最近读了一本书。它叫做《我们如何学习》。

为什么人类现在比任何机器学得更好，作者是斯坦利的杜安，在这本书中，他讨论了许多伟大的主题，以及人类如何学习，机器如何学习，它来自神经科学背景，所以至少对我来说有很多新的见解，其中一件……

对我来说似乎非常有趣的是，人类学习的支柱之一是积极参与，从本质上讲，一些人类喜欢……

对于人类来说，仅仅观察而不参与，只是观看某些东西来学习是非常困难的，这与让他们设定自己的目标、能够积极参与环境、探索、也许稍后利用所有这些东西相比。所以没有这个，那就是，

根据那本书，这实际上是必要条件之一。这不是一件好事。这是你必须拥有的东西。所以我认为这是重要的主题之一。我认为对我来说，这意味着如果你想构建一个真正智能的系统，监督学习是不够的。

所以你需要一个代理来询问我接下来应该做什么，并能够提出问题。这不像你只是观察并说，好吧，我学到了这个，我学到了那个。它应该是这样的，现在我学到了这个，我想学什么？也许我还没有充分理解这一点。我需要更多地探索。让我们探索一下。这太迷人了。所以……

控制中心是一个抽象的类别，对吧？这是一个比喻。道格拉斯·霍夫施塔特说，你知道，一个概念就是一个比喻的集合，从本质上讲。所以有

移到中心是我们都在抽象层面理解的东西，但这到底是什么意思？我认为国际象棋中的许多概念都相当模糊，对吧？所以在许多不同的情况下，这实际上意味着略有不同。所以问题是，AlphaZero发现了这个第37步，如果你玩数百万次，这个第37步在其行为空间中作为一种模式出现，有什么区别？

所以你可以争辩说它正在进行推理，但它正在进行一种涌现形式的推理，而不是对中心有一些概念，它的行为特征表现得好像它对中心有概念，这与我们大脑的工作方式有什么不同？是的，我认为……所以再次像……如果

所以有这样一件事情，像AlphaZero、AlphaGo和所有这些系统能够理解它们所处的环境，对吧？所以它们探索环境，它们玩很多，并且最终能够探索围棋或国际象棋中的大多数位置，或者其中的许多位置。

最终它们将能够做出理性的决定，因为它们理解每个状态的价值并做到这一点，但这并不意味着它们会提出这个概念，所以对于

对于国际象棋引擎来说，就是这一步提高了这个位置的价值，对吧？但这并不一定适用于生活的其他方面，对吧？例如，在国际象棋中，你可以争辩说控制中心意味着控制重要或战略位置，对吧？你可以……

一旦你学会了这一点，你也可以将其应用于其他方面，对吧？这不仅仅是关于国际象棋棋盘中心四个或五个方格。这是关于不同部分中特定位置的重要性。它可能是关于控制一个重要位置。

一个国家的道路，控制一条重要的通道。我认为这种抽象形式以及我们存储知识和学习的方式使我们能够快速扩展。一旦我们在国际象棋中学到了这一点，我们就能扩展它，例如在其他领域使用它。

但是像AlphaGo或AlphaZero这样的系统无法做到这一点，因为对它们来说，世界就是这样，它们没有这种抽象的表示和知识。所以我认为我并不是说学习抽象是构建智能系统的唯一方法，但它肯定有助于人类更快地扩展和改进，比机器快得多。

关于泛化分布外的问题，我们开始看到的是，我的意思是，显然链式思维被广泛使用，这意味着你可以采用在分布上训练的东西，你可以进行某种操作，我想你正在进行某种定向检索以某种固定方式创建组合。所以有链式思维提示。有些人正在进行程序归纳。

而且情况似乎确实如此，通过几个例子，也许通过链式思维，你可以让语言模型归纳出一套非常丰富多样的程序。许多这些程序似乎具有一定的抽象性。我们看到的另一件事是转导。

你进行某种主动微调的地方。因此，你获取测试实例，然后你稍微修改现有的模型，以便在这个领域获得泛化。所以有很多方法似乎在使这些东西在OOD方面做得更好。你怎么看待这个问题？是的，好的。所以是的，所以你可以做类似……

有很多方法可以探索这一点，对吧？例如链式思维、程序合成，所有这些主题。所以我的问题，我这些天一直在思考很多的问题是，

所有这些系统、所有这些方法、所有这些方向都是基于一些假设建立的。假设是在模型中发生了一些事情，某种我们需要改进的理解，对吧？

我现在不太确定，如果这个假设是正确的。对。所以我并不是说它是正确的或不正确的。我不确定。所以如果这个假设不正确，那么你所做的一切，链式思维，所有其他事情。

改进这种推理的方法可能没有帮助，对吧？所以我想，我正在思考的是，就像退一步，真正提出这个问题，就像，那里有什么东西，超越了

分布之间的一些插值，对吧？如果有的话，当然我们可以继续在其基础上构建，如果没有的话，我们在做什么？我们为什么要尝试……做所有这些概念方法，顺便说一句，这非常困难，因为我们也在以一种临时的方式进行，没有

关于转换器模型在规模上正在做什么的连贯模型。所以它非常……

非常棘手，我认为。所以现在我倾向于认为模型没有正确的表示，我们构建这些模型的方式在结构上是有限制的。所以我真的不认为其他方法，比如扩展这个会有帮助。就像以前有一个例子，比如，

如果你想登上月球，你可以用飞机来做，对吧？所以有两个问题。如果你有一架飞机，你想登上月球，那么你可以改进飞机的速度。你可以让它更轻。你可以让它更快。

更快或所有这些事情……但这并不一定能帮助你登上月球，你也可以研究一下……机翼应该是什么样子，应该使用什么样的……

跑道应该使用什么来实现更快的起飞，所有这些事情，但这并不一定能帮助你实现你的目标，对吧？所以我的意思是，我并不是说这是不可能的，我现在说的是，我们应该问一个问题，这是正确的工具吗？它像……是否有意义？所以总的来说，我认为我们应该退一步，更深入地思考这个问题

关于缩放定律。所以，你知道，Noam Brown正在谈论这个新的测试时间缩放定律。你已经说过，让人们相信缩放定律不起作用是非常非常困难的，因为你总会有这样一群人说，哦，你知道，就在下一座山丘上，只要，你知道，如果我们将参数增加10倍，计算增加10倍，那么我们最终会到达那里。你如何让人们相信他们是错的？

是的，我的意思是，我无法真正说服，因为缩放定律的问题是，如果我花费数百万或数十亿美元来训练一个模型，比如，我不知道，在缩放上训练10万亿个参数，

100万亿个标记，然后向你展示，嘿，这是模型，它可以做超出其训练范围的简单数学运算。它可以创造新的知识。然后有人可以声称，嘿，这不是正确的规模。如果你将其扩展到50万亿个参数，就会出现一些东西。然后因为我的论点不是理论上的，我不能说，不，你错了。

因为我无法训练530亿个参数的模型并花费数十亿美元，所以我不能说你错了。所以总会有这种争论，即会出现一些东西。顺便说一句，我对缩放没有问题，对吧？就像在某种意义上的缩放一样，我并不是说它会造成伤害或根本没有帮助。我的意思是，如果你正在考虑缩放，

你应该关注缩放的斜率。你不应该关心你现在在哪里，对吧？所以如果你想比较两个不同的系统或一个架构与另一个架构，你不应该关心……

在1万亿会发生什么？会出现什么？你应该说，看看这些模型学习和做新事物有多快。所以现在，我认为在这个意义上，我们拥有的所有架构和方法的斜率都接近于零，但我们可以关注斜率而不是点和端点。

那么关于斜率，人类缩放的斜率与LLM缩放的斜率相比如何？是的，这是有趣的事情之一。我们无法做到这一点，但这将很有趣……我认为有很多研究，我不是这个领域的专家，但有很多研究表明人类与模型如何对新环境做出反应，对吧？所以……

如果我们比较这些，我认为我没有任何数字，但我认为有很多研究表明人类可以适应新环境。他们可以很容易地学习新环境。至少比LLM容易得多。所以我认为人类的斜率更快，比LLM的斜率更好。但可能是会有一个更好的环境

具有更好缩放、更好斜率的物种。我期待着它。非常酷。所以，Iman，我认为你会同意我们需要有更好的抽象世界模型，对吧？我们需要有更好的表示。这将如何运作？所以我认为，是的，我的意思是，对我来说，构建一个没有环境和世界以及知识的抽象模型的智能系统似乎几乎是不可能的

但这之前需要回答许多问题。我们甚至没有……我现在对文献的一个问题，也包括我自己，是我们甚至没有基本的……

对这些问题的答案。假设你想学习一个函数，对吧？所以

表示该函数的一种方法是用表格表示。输入x和输出y。然后想象一下，表示该函数的另一种方法是将其表示为……这是一个多项式。像y等于x平方加上某个数字，诸如此类。而且

我们不知道，就像现在一样，没有客观的衡量标准，我们甚至没有答案，哪个更好，对吧？你可能会说第二个有形式，它是抽象的等等。这个更好。但我们不知道，为什么有人会声称这个比另一个更好，对吧？我也相信第二个更好，但是……

我们没有像我们无法量化这一点一样，第二个当然不像有人可以声称第二个是压缩形式，你不需要表格，你只需要一个多项式，但我认为这不是正确的，这并不一定正确，因为

为了用多项式表示某些东西，它不是关于字符串中字符的数量。这是关于概念的，对吧？为了定义一个多项式，你需要

理解函数是什么意思，函数x平方是什么意思，x的n次方是什么意思，然后这需要理解连续性是什么意思，实数是什么意思，所有这些概念，所以如果你想编码达到y等于x平方加某个数字所需的一切，那么即使比

表格大，对吧？然后，如果你的唯一目标再次是实现某些东西，参考我们之前的讨论，那么这两个是相等的，对吧？你给出输入，两者都会给你输出，而一个甚至更快。你只需要查找。

所以我们没有比较两种表示的方法。所以如果我想总结一下，那就是为了回答你提出的所有问题，我们需要从理解开始

什么，比如如何比较两种表示，一旦我们有了，如果你有一个很好的比较两种表示的度量，那么我们就可以在其基础上构建，但我们目前实际上没有。我曾经……和一个朋友谈论过我们如何比较这两种表示，我说我没有度量，但类似于在某个时间点有人……

有人提出了形式化泛化概念的想法。200年前，泛化不是一个概念。它是一个词，但是……所以它说一种表示可能比另一种更漂亮。像一个

多项式比表格更漂亮，但我们没有任何正式的方法来定义什么构成某些东西更漂亮。但我们一直在思考这些问题。

我想这里的核心是你内心深处是否是一个联结主义者，并且你相信原则上这种事情是可能发生的。因为显然，当我们过一会儿谈论你的论文时，你设计了一个符号测试来证明某些类型的推理在LLM中不可能发生或没有发生。

1988年，Fodor和Polishin对联结主义进行了著名的批判，他们认为这些系统没有系统性。他们没有组合泛化。他们没有可逆性。他们无法解释他们为什么这样做。他们无法像你说的那样引导他们的知识。但其他人，如Smilov，

Smolenski，说对他的名字，在1990年，当然像Benjo这样的人，他们认为，是的，这不是问题。你知道，所有这些符号的使用都可能在某种复杂性水平上出现。所以你认为将来我们可以让LLM进行这种符号推理吗？哦，是的。

我认为当我们谈论符号时，符号的概念不是，就像我们必须定义符号的概念一样。符号是具体且预定义的东西，还是某种东西，你同意也许你接受模型的中间激活，一个深度学习模型可以表示一个符号还是不能？如果你同意这一点，那可以，

被视为一个正式的符号……然后……我认为是的，模型将能够做到这一点，否则如果你认为符号就像……一种独立的外部系统，那么不，我认为我更倾向于……符号作为……的一部分出现……

内部计算。哦，这很有趣。是的，因为我认为观点存在一个范围。我的意思是，有些人认为纯粹的联结主义，符号的使用可以出现。有些人相当……处于中间状态。我认为我属于那个阵营，那就是我们可以构建LLM系统。所以也许……

某种代理LLM相互交谈，或者可能是神经符号架构，其中LLM可以使用工具或上述组合。但你属于我们可以原则上只拥有一个纯粹的播放神经网络，并且它可以进行符号使用的阵营。是的，我的意思是，是的，我现在没有任何……

我不认为它像至少在理论上一样，对吧？就像我不在理论上看到为什么这样的系统不能

在理论上创造那种符号，但在某个时刻，它可能会创造符号并在这些符号上进行计算，我并不是说这是唯一的方法，我们不应该有任何东西，在这方面没有太多经验……但我没有……同样的事情也适用于其他事情，比如当我讨论架构时，所以我

我不知道是否像变压器是正确的架构还是不是。但现在至少在理论上，鉴于上下文并假设模型正在生成标记，因为它变得真实而完整，我没有理论上的理由相信这是目前的限制。可能是其他架构更好，我们可以开发更好的架构。只是现在。我不认为这是一个限制

好的，但你认为我们需要图灵完备性才能使用符号，所以我们可以想出某种图灵完备的神经网络？是的。好的。

我们还没有达到，但也许吧。我认为当我们定义智力时，在某个时刻，能够进行图灵复杂的运算是一个必要条件。是的，我完全同意这一点。我们应该谈谈你的GSM符号论文。这是一篇具有里程碑意义的论文。它在社交媒体上广为流传。我社区中数百万人说我必须采访你，因为它太棒了。为我概述一下。

哦，好的。所以一些背景。我们正在研究理解推理，我们正在探索一些关于改进模型推理的想法，方法是增加模型每个输出标记执行的计算量。为此，我们需要评估模型，并且……

能够进行稳健的评估，然后最终可能会有更好的训练数据。所以我们从评估开始，比如从GSM符号中创建一个小样本，只是模板，然后

只是为了进行健全性检查，我们运行了实验，看看这些数字与GSM8K有多接近。我们观察到，对于某些模型来说，存在巨大的差距。例如，Phi2有20%的差距，14%的差距，诸如此类。然后也有巨大的差异，对吧？

所以，是的，我们有点偏离了主题，并立即探索了这一点，以了解发生了什么，对吧？而且……

第二个，在我们有了最初的GSM符号之后，我正在研究的是GSM无操作版本，你基本上试图欺骗模型，你添加一个子句

到问题中，该子句不包含逻辑或算术运算。就像如果你完全忽略该子句，你就会没事，对吧？这就是为什么它被称为GSM无操作的原因。然后是第二个。在论文中，我们有不同的表达方式，但我们探索了第二个，然后我们观察到一个非常大的问题

性能下降。然后我们回来尝试理解介于两者之间的东西，我们尝试更像尝试创建比GSM-no-op更容易的基准，只需添加一个包含运算的子句，然后添加两个包含运算的子句，这样你就无法忽略它，并查看模型在其中的表现，以及……

在我们设计的所有这些基准和实验中，至少对我来说最令人惊讶的是，它们对我们在模型中观察到的性能差异进行了分析。我希望我们至少可以对学生进行某种交叉评估，看看如果更改模型中的单词，学生会如何表现。

问题而不改变数字，对吧？如果你不说艾米有三个苹果，你可以说约翰有三个香蕉，对吧？就逻辑推理而言，它们是一样的，我们希望我们可以做到这一点……我希望其他人探索这些事情，比如如果只是将橙子改为香蕉，人类学生会如何表现，是的，与LLM相比，而且

所以对我来说，最引人入胜的部分是差异，即为什么存在这种差距，即使你只改变了数字。我们有一个名为GSM名称的基准，我们只更改问题的专有名词。我们不更改数字或向问题中添加任何内容。所以，是的。前沿模型，我的意思是，说实话，他们仍然……

做得很好。我的意思是，我希望他们只是……放弃了。你知道Sabaro Kamahati做过一些关于规划的实验，他做了这个神秘的积木世界，他只是将符号的名称更改为随机的东西，它就从悬崖上掉了下来，而O1模型则……你知道，再次达到了非平凡的性能，但下降幅度很大。我想阅读你的论文后，我仍然有点惊讶

有趣的是，前沿模型显然做得更差，但它仍然相当非平凡的性能，有两件事，就我个人而言，我不知道……我认为……总的来说，GeoSemite K应该是一个非常简单的基准，鉴于

还有一个因素是我们不完全知道这些模型接受过何种数据的训练。可能是，我并不是说它就是，但可能是这种情况，这些模型也正在接受某种从数据生成的合成数据的训练。

类似于数学4个问题，如GSMHK，我们也知道所有试图构建LLM的公司也正在获得大量人类创建的数学和其他领域的问答，对吧？所以

我们不完全知道，这是关于不透明地说明模型至少接受过何种数据训练的问题之一。但可能是这种情况，前沿模型可以访问更好的数据质量和类似于GSM 8K的数据格式。而且

可能是他们解锁了某种涌现能力。但如果那是真的，那么至少……我不相信基准，但再次，还有其他类似于GSMHK的基准，稍微更难一些。在这些基准中，我认为有人尝试了一个类似的想法……

我们在GeoSense Symbolic上对Math数据集Hendrix Math所做的工作，然后他们也观察到前沿模型的性能下降更大。但总的来说，再次，对我来说，这与性能无关。这与……无关，我更喜欢一个模型，

如果你使问题变得困难，性能下降10%，但没有变化，因为如果它理解问题，它就理解问题，而一个模型下降1%，但变化很大。所以对我来说，这与准确性数字无关。这是关于为什么一个理解的系统能够执行一组逻辑步骤

如果你在问题中将橙子改为香蕉，它会尝试执行不同的逻辑步骤并出错，对吧？这可能是因为我们训练这个系统来学习分布，在这个问题中，对象是什么并不重要，它是

这是关于物体的数量，对吧？对我们来说，这两个似乎微不足道，但对于一个在训练过程中被训练来预测问题中确切物体的系统来说，这并非微不足道。所以，是的，我认为总的来说，在所有这些系统中，我认为它们并不真正理解这个概念。

你可以改变任何，比如，我没有对那种事情进行搜索。但是你可以，比如，如果你花足够的时间，任何他们答错的问题，我确实相信，如果你花足够的时间，你可以把这个问题改成模型（包括前沿模型）都会答错的形式。但不幸的是，该领域将这些视为准确性数字。

不一定是指数字下降的含义，也不一定是指变化增加的含义。我认为该领域现在正试图从GSMHK转向，因为性能已达到95%左右，接近90%。

100%，现在我认为就像昨天的研讨会上有人说，哦，我们有一个新的困难基准，叫做前沿数学，这是专门设计的，所以现在前沿模型只能得到10%，现在让我们把这个10提高到90，我会……我对基准测试的问题是，它们总是……它们就像现实的截断，一旦你冻结了它，你就可以改变系统，从而……

间接地改变系统，但这会影响性能。因此，最终该基准将始终饱和，但这对我来说至少没有意义。除非我们改变一些根本的东西，否则该系统可能会在这个基准上获得99%的分数，但它将无法创造新的知识，也无法理解正在发生的事情。对我来说，这才是重要的。

所以在图像和计算机视觉中，我们有ImageNet这样的基准测试以及所有这些基准测试，我们使它们饱和，我们认为，好吧，视觉问题解决了。但现在我们看到自动驾驶汽车现在并没有成为现实，因为它非常困难。就像在现实世界中，我们没有为自己设定一个特定的、固定的现实截断。

示例数量，现实会发生变化。你必须构建一个能够理解和推理的代理。这就是为什么我认为关注精确数字并不重要。是的，而且……

基准测试是一个大问题，正如你所说，我相信许多前沿模型基本上已经记住了GSM 8k，当然我们应该转向更具生成性的基准测试类型，在那里你知道当然它不是确定性的，但我们有一些生成系统，我们从中进行足够的采样，并报告某种平均值或类似的东西，但你确实展示了一些非常有趣的东西，首先我认为在no op数据集上有一个变化，你实际上对其进行了八次射击，这……

这意味着模型应该能够过滤掉干扰项，但它没有，这非常非常奇怪。但更广泛地说，你从这些模型中采样很多次，然后看到这种巨大的变化，这难道不有趣吗？这意味着什么？这意味着当我们使用语言模型进行推理时，我们实际上应该像采样100次并取平均结果一样吗？我的意思是，

因为我们许多人使用语言模型，我们只采样一次。我们只是假设，哦，它正在进行推理。这是正确的答案。我们并没有真正考虑，如果我再问它一百次，它会给我一堆不同的答案。

是的，我的意思是，是的，我的意思是，关于采样，有几件事。例如，有时采样通常没有意义。所以，再次回到我们的例子，2加2等于，没有采样。它应该是4，对吧？比如，如果你提高温度，它可能会变成5。但你为什么要这样做呢？在这种意义上，随机选择一个数字根本没有意义。这就是为什么，对于我们的研究，我们总是……

贪婪解码没有采样，因为如果你正在进行算术运算或推理，它必须是……

但总的来说，反对采样和多数投票以及所有这些事情的另一个论点是我记得你有一集节目中有一个例子，比如如果你让一万个醉酒的人去……

酒吧后回家，最终他们中的一些人可能会到家，但这并不意味着他们能够理解正在发生的事情，比如给定足够的样本，你最终会……

可能到达目的地，但这并不意味着这就是问题所在，实际上有一项工作论证了完全相同的事情，比如他们说，如果你测量GSM 8k和数学精度，并且对模型进行100次采样，它会好20%，但出于同样的理由，我认为这不是我们应该研究的东西，对吧

酷。好吧，Iman，能邀请你来到MLST真是荣幸之至。非常感谢你加入我们。谢谢。很高兴和你交谈。

GSMSymbolic paper - Iman Mirzadeh (Apple) 01:11:23 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

GSMSymbolic paper - Iman Mirzadeh (Apple)