We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Subbarao Kambhampati - Do o1 models search?

2025/1/23

Machine Learning Street Talk (MLST)

AI Deep Dive AI Chapters Transcript

People

Subbarao Kambhampati

Tim Scarfe

Topics

Subbarao Kambhampati: 我认为O1模型可能使用了类似AlphaGo的强化学习方法，它包含一个大型LLM和一个小型LLM。小型LLM负责生成提示增强，大型LLM则根据这些增强提示生成答案。这个过程类似于AlphaGo的蒙特卡洛树搜索，通过学习伪动作的Q值来提高推理能力。O1模型的训练过程包括LLM训练和一个非常昂贵的训练后阶段，在这个阶段，模型学习如何生成最佳的提示增强。在推理过程中，O1模型会生成大量的推理标记，用户需要为这些标记付费，这导致了高昂的成本。尽管O1模型在规划基准测试中表现优异，但它仍然存在局限性，例如无法解决大型问题，并且可能出错。总的来说，O1模型是一个基于LLM的近似推理器，它结合了强化学习和蒙特卡洛树搜索方法，在一定程度上提高了LLM的推理能力，但其高昂的成本和潜在的错误仍然是需要关注的问题。 Tim Scarfe: 我对O1模型的推理机制以及它与传统LLM的区别很感兴趣。特别是关于O1模型是否真正进行推理，还是仅仅进行检索的问题。此外，我也关注O1模型的成本效益，以及它在实际应用中的局限性。

Deep Dive

Chapters

This chapter explores the concept of "fractal intelligence" in LLMs, where their performance is unpredictable. It discusses the limitations of current reasoning models and explores different approaches to enhance their reasoning capabilities, including inference time scaling and prompt augmentation techniques like chain of thought.

LLMs exhibit "fractal intelligence," meaning their performance is unpredictable.
Inference time scaling and prompt augmentation are explored as methods to improve reasoning.
Chain of thought prompting, with its variations, shows promise but faces limitations.

Shownotes Transcript

以至于我们现在有了“分形智能”这样的说法。事实上，我认为安德拉·卡尔帕蒂基本上是在说大型语言模型具有分形智能。分形智能基本上就是，我们不知道它们什么时候有效，有效的时候就有效，无效的时候就无效。这就是分形智能。这很好地说明了这一点，我们以前从未有过这样的东西。但大型语言模型科学的一部分必须是

说出比分形智能更多的东西，说明你可以依赖其结果的程度。所以，在推理、逻辑中，有一些方法可以正式地描述推理的局限性，例如有限深度、有限前瞻性推理等等。这些方法似乎都不适用于大型语言模型。

那么问题来了，什么方法有效？我们必须弄清楚这一点。残酷的教训是，效率将至关重要。我完全同意这一点。我也很久以前就一直在争论这一点，想想以下情况。我们第一次将人类送上月球时，成本并不是考虑因素。我们想证明我们能做到。NASA是唯一一个这样做的机构。

第二次和第三次，以及太空和月球。第二次和第三次等等，也许还可以。但现在，是埃隆·马斯克将人们送入太空，可能也送往火星，因为成本很重要。

对，基本上，一旦完成，你就会开始关心你所支付的成本，而计算机科学实际上相当一部分是关于成本的乏味部分，就像它也是关于做以前从未做过的事情一样，有些人会说，如果不是检索，那就是推理，那么你说呢？

让我想起了这个古老的蒙提·派森片段，其中一个人，我认为是《布莱恩的一生》中的人物，做了一些看起来像……如果这是为了证明某个女人是女巫，对吧？你知道，如果她是由木头做的，而且漂浮在水上，那么……你怎么知道她是女巫？她看起来像个女巫！把她带过来。

你知道，随机的联系，然后说她是个女巫，你说QAD，这看起来像推理，因为它不仅仅是从……她是个女巫中检索出来的。但我们知道这不是合理的推理。因此，Tufalabs是我正在苏黎世学习的一个新的AI研究实验室。

在某种程度上，它是DeepSeq的瑞士版本，首先我们想研究大型语言模型系统和应用于它们的搜索方法，类似于O1。因此，我们想反向工程并自己探索这些技术。MLST由SenseML赞助，SenseML是一个专门针对AI工作负载优化的计算平台。

它们开箱即用地支持所有最新的开源语言模型，例如Llama。你可以选择价格点，选择你想要的模型。它会启动，它是弹性自动缩放的。你可以按需付费，或者你可以拥有一个始终运行的模型，或者在你不用的时候可以冷冻它。所以，你在等什么？现在就访问sentml.ai注册吧。微软基本上

如果事实上已经实现了AGI，那么就不能再控制OpenAI了，这是他们可以避免受制于微软的一种方式，但现在他们试图说我们将删除它，这样我们就可以从微软获得更多资金，我不知道这说明了什么，他们是在寻找资金，还是意识到AGI实际上不会到来，所以为什么要费心处理那个条款？自从我们在ICML上次交谈以来，发生了很多变化

你能给我们简要介绍一下发生了什么吗？当我们在维也纳交谈时，我认为我们正在讨论大型语言模型的推理能力。特别是，我认为大型语言模型是自回归逐个标记预测模型，它们为此进行了预训练，并且在推理时也这样做。

我认为，正如我们当时谈论的那样，从我的角度来看，这些模型不具备推理能力。它们在支持创造性工作方面令人惊叹，它们可以给你提供想法，你可以继续使用它们，一旦你按下回车键，它们就会给你答案，但不能保证是正确的。当然，一个有趣的问题是，推理在所需时间和时间方面往往具有更高的复杂性

有没有办法实际改变大型语言模型的基底来做到这一点？发生了几件事。我会认为，我的意思是，显然我们很快就会谈到O1，因为这是发生的事情，发生的大事。但看待整个方向的一种有趣方式是，它有两个部分，推理时间缩放和

训练后。首先尝试的想法——事实上，当我谈到LLM Modulo时，我们谈到了这一点——是，如果大型语言模型本质上是快速生成候选者但没有保证，

也许你可以让它们生成大量的候选者，然后进行多数投票或自一致性或类似的方法来查看你是否有更好的答案。你如何检查更好的答案？有一系列这样的方法。可能存在外部验证器。

可能存在大型语言模型本身试图部分验证，我们讨论过这方面的问题，但他们也尝试过。这是一种推理时间缩放。一个相关的想法，一个非常有趣的想法是，从第一天起就知道，如果你试图将推理任务作为提示提供给大型语言模型，

然后它给出一个完成结果，你检查它的完成结果是否包含解决方案。如果能够找到合适的提示增强，那么这种情况发生的概率通常可以提高。因此，除了你的推理内容之外，还会添加一些神奇的标记，这似乎会增加概率。这在多种场景中都已观察到。

最初，这个想法被称为思维链。最先的版本本质上是零阶思维链，其中神奇的标记将始终是相同的，与任务和大型语言模型无关，例如“让我们一步一步地思考”。这在一定程度上有效，因为，你知道，人类数据包含这些特定的标记。因此，大型语言模型喜欢输出这些标记，然后这会促使它的路径

模式匹配事物实际上会与其他解决方案一起出现等等，这将是关键。然后出现了特定于任务的思维链，Jason V及其同事所做的。他们的人类会提供关于如何解决问题的特定于任务的建议，然后希望大型语言模型能够实际解决它。

这可以与推理时间缩放联系起来，因为你正在添加思维链，并且本质上是让它生成多个候选者，然后从中进行选择。

思维链本身也存在问题，就像大型语言模型验证存在问题一样，思维链也存在问题。事实上，在NeurIPS上，我们有一篇名为“思维链的轻率”的论文，我们稍后会讨论。但基本上，它本身就存在问题。但作为在你说出一个答案之前增加推理时间的工具箱的一部分，

思维链与从多个样本中进行选择相结合，显示出一些前景。一个变体，事实上，这是我最近一直在推动的东西是

最初，思维链有点让人困惑，它可能是拟人化的。事实上，我们倾向于告诉自己，好吧，让我这样做等等。人们希望大型语言模型也在做同样的事情。大多数情况下，它们只是模仿它们在训练数据中找到的任何内容，例如“让我们一步一步地思考”的数据。但不知何故，人们认为，如果你让它们思考

模仿人类的思维，那么它们可能会做得更好。这是前两个想法，它们都没有走得太远。另一个想法本质上是，你意识到这只是你试图添加的神奇标记，你只需要弄清楚什么是正确的魔法标记。这是一种类似于求解函数的问题。你试图找到一个特定于任务、特定于大型语言模型的神奇标记，以增加概率。这是一个学习问题。这是一个额外的学习问题。

已经尝试了两种通用的方法。第一种方法本质上是说，因此，大型语言模型在给出答案之前，必须告诉自己一些事情。一些，你知道，像“一步一步”对我们来说是有意义的，但它实际上可以给自己一个胡言乱语的字符串，另一个胡言乱语的字符串，然后这会探测其完成的条件概率，以至于它实际上可能会想出正确的解决方案。

那么问题是这些标记从哪里来呢？

人们曾经有过的想法，早期的想法是人类将通过思维链建议提供这些标记。这没有进展。他们还有另一个想法，本质上是，例如，如果你有一类问题，对于这些问题存在一个实际的系统，不，实际上在讨论之前，OpenAI做了以下事情，也许我们会要求人类在思考的同时解决特定问题。

所以实际上有一篇关于一年半前的论文说“让我们一步一步地思考”。然后，这基本上落入了整个过程监督的问题，人们实际上被要求记录他们告诉自己的内容等等。不幸的是，这就像心理学中最糟糕的形式，因为我们实际上不知道我们是如何思考的。但他们尝试了这个，其中一件事情是它非常昂贵。他们最终，你知道，我的笑话是，

他们提高了尼日利亚的国民生产总值，因为尼日利亚的，你知道，土耳其人被要求解决成千上万的这些问题，然后大声思考。这非常昂贵。

然后，一个类似的想法是，存在大量问题，对于这些问题存在系统求解器。例如，对于算术，存在算术求解器。对于搜索问题，存在A星搜索之类的东西。对于规划，你拥有规划器。一般来说，任何系统求解器都会操作某些数据结构，直到达到某个终止条件，然后它输出解决方案。想象一下，你让它

输出数据结构操作的轨迹。你希望的只是在解决方案之前出现的一些额外的标记。因此，这些东西可以被认为是推导。人们的想法是，让我们用大量的这些合成的推导轨迹和解决方案来训练大型语言模型。

现在记住，这仅适用于实际上存在合成求解器和系统求解器的问题。你只是试图让它在一般意义上变得可解，而不必调用这些求解器。这就是想法。并且有一些

三到四个努力已经进行了，Facebook、Meta有一个搜索形式，还有一个流搜索，就在上周，谷歌发表了一篇论文，也讨论了内部与外部规划来解决多棋盘游戏。所有这些本质上都使用了这个想法的变体。

所以你必须意识到，他们现在所做的只是大型语言模型必须在输出解决方案之前输出一些额外的标记，这些标记将唤醒它的记忆，以期输出更好的解决方案。这是希望。因此，基本上，人们，这是他们的想法。他们尝试了，有时它确实有效。它提高了性能。没有充分的理由系统地说这会有意义，因为它几乎就像如果你

你试图教你的孩子如何推理，而他们还是小孩子，然后你做一些手势，然后这样想，然后给出答案，你会看到孩子也会做这些手势，这样想，然后给出错误的答案

大型语言模型可以做到这一点，它们本质上是在模仿你的任何推导片段，这些片段甚至可能没有实际意义，但有时它们显示出一些前景，这基本上已经成为一种，你知道，一种运动，最近的想法称为推理时间缩放，其中本质上你这样做，你也这样做多个建议，然后从中选择等等

这非常接近我认为O1正在做的事情，但与这里有一个很大的区别。再次，如你所知，O1，没有人知道，它已经成为，你知道，我们都围坐在圆圈里猜测，我喜欢说，不，布朗坐在中间，他知道。但基本上，他们不想透露他们在做什么。但我猜，我的意思是，每个人都有自己的猜测，我对O1可能正在做的事情的最佳猜测是O2。

再次使用这个提示增强想法，但问题当然是这些提示增强从哪里来？我们谈到了第一个提示增强适用于所有内容。第二个是人类给出的提示增强，即思维链。第三个是合成的推导轨迹，它提供这些标记，也许你会尝试说回这些标记。

它们都没有太大的意义。一个更好的想法是，如果你说，我应该告诉自己什么才能改善我的结果？

这是一种强化学习问题。想象一下AlphaGo代理。它坐在那里思考，我应该一个接一个地采取什么行动才能提高我的获胜概率？因此，它会执行大量这些棋盘操作。然后，在某个时间点，它会收到一个信号，告诉你赢了游戏或输了游戏。然后你这样做无数次。然后你可以将这个

推理通过顺序决策带回，计算它们的Q值，例如在什么棋盘位置上什么动作值得做，你知道那是Q值，现在如果你采用AlphaGo的类比并将其应用于大型语言模型，大型语言模型的棋盘位置本质上是上下文窗口，以及你已经放置的所有其他内容

而动作是你正在生成的标记。为了简化起见，我想把它想象成一个大型语言模型。让我们考虑一下GPT-4。可能存在一个词汇量较小的较小型语言模型。它所做的只是提供提示，提供这些提示增强，

它尝试将其抛出，然后这将作为其上下文提供给另一个大型语言模型，它会给出扩展，然后它会再尝试一次，在某个时间点，它会检查解决方案是否正确，它如何获得解决方案，你可以拥有，你可以实际上预先生成大量合成示例

再次使用求解器，这几乎是众所周知的，OpenAI做到了这一点。不再是人类解决问题，因为这太昂贵了。这是系统求解器解决规划问题、约束满足问题和各种问题，并且它们具有问题和答案，以及

然后OpenAI的大型语言模型试图解决它。大型语言模型加上这个提示增强引擎正在试图解决它。然后，如果它碰巧找到了正确的解决方案，那么你就可以将它传播回去了。这是伪动作中的强化学习。动作不是，如果提示是关于围棋的，动作不是围棋动作。它们只是提示增强标记。

当然，一件好事是，除了学习Q值之外，你可以做的一件事是，你可以本质上学习……你可以以正确的方式改变较小型语言模型的权重，以便它在给定上下文窗口的情况下输出正确的标记。如果你这样做，你就会得到近似的Q值。然后这是……

预训练阶段。在预训练中，有大型语言模型训练，然后是这个极其昂贵的，你知道，他们没有告诉我们它有多昂贵，一个极其昂贵的后期训练阶段，他们花费了数十亿美元。在那时，你有了O1模型，它现在已经准备好进行推理时间了。

在推理时间，他们再次进行推理时间缩放，除了现在他们拥有Q值之外。你可以通过在线蒙特卡洛树搜索之类的途径来改进Q值，这与AlphaGo所做的事情类似。这就是我们实际上可以看到他们在做的事情，因为他们会向你收取这些推理标记的费用。如果你运行O1，

它基本上会获取提示，然后给出答案。在旧的GPT-4中，你必须支付给他们的金额与输入提示标记的数量加上输出提示标记数量的四倍成正比。在O1的情况下，它实际上会做所有这些事情，它在告诉自己。基本上，这是等效证明并告诉自己的伪动作。它永远不会向你展示这些。

但它们都被计算为输出标记。所以，你知道，你有，比如说，50个输入标记，100个输出标记，也许还有5000个推理标记。所以你突然开始支付更多费用。所以发生的一件有趣的事情是，当O1预览发布时，我们开始使用它，两天内我们花了8000美元。

然后，事实上，我不得不获得大学的特别许可，因为他们通常不会报销超过一定金额的东西，除非你有单独的许可等等。但这基本上是这种方法的工作方式之一。

当然，有趣的是，我们现在描述这种方式，它不是，它是基于大型语言模型的，但是已经做了大量的额外工作，对吧？本质上，你本质上是在做类似于AlphaGo风格的后期训练阶段，然后是AlphaGo风格的蒙特卡洛树搜索在线计算。在那时，

实际上，我认为这会有意义。毫不奇怪，事实上，在我们的结果中，我们发现对于正常的规划基准，它比最先进的大型语言模型（包括Claude等等）要好得多。

但当然，然后你可以进入下一层，它有它自己的问题，我们仍然可以谈论它不能扩展到更大的问题，它可能会犯错误，它在不可解性方面存在问题，没有关于解决方案的保证，但它现在对我更有意义了，再次，我不知道这是，我认为这是一个合理的方式，人们可以工作，如果它是工作的方式

我第一次能够理解推理是如何产生的，因为你至少拥有伪动作，你可以学习它们的Q值。没有人说过强化学习不能进行推理。强化学习可以进行推理。只是

现在你基本上，这就像一种有趣的事情，我一直使用石头汤的比喻。石头，如果你开始添加胡萝卜和西红柿等等，你可以用石头做汤。在那时，它仍然尝起来像汤。当然，问题是谁应该得到赞扬？你知道，这是一个我们应该思考的有趣问题。但这就像在我看来，过去十年发生的事情的漫长轨迹。

自从我们讨论以来只有四个月左右的时间，另一件有趣的事情是，大型语言模型的神秘之处在于，你会写下提示，按下回车键，你会得到答案，而且不会花费太多，这就是每个人都在使用O1的地方

基本上，当然，后期训练本身非常昂贵，但他们没有向我们收取这方面的费用。但他们会向我们收取推理标记的费用，你永远不会看到这些标记，但你必须为此付费。你只需要相信他们已经生成了大量的推理标记，他们会让你为此付费。据我所知，至少在学术界，很少有人做过实验来评估，因为它实际上成本很高。

本质上。因为，你知道，基本上人们仍然在使用

自回归大型语言模型，因为它们很便宜，你知道，有趣的事情之一是，你可以进行推理，但是我们在自回归大型语言模型时代礼貌地忘记的通常的计算复杂性问题会再次出现，你希望不知何故，你知道，复杂性会消失，会回来，因为如果你想提高准确性，你必须进行推理，在我看来，这是伪动作推理，但它仍然需要成本，

这成为一个有趣的问题，即何时使用通用系统更有用，而何时使用混合通用专用系统或高度专门的求解器更有用。我们以前没有讨论过的事情，但现在它会变得更昂贵。

至少对于行业来说，事实上，存在关于复合AI系统的整个运动，这基本上是人们在O1发布后不久就开始思考的事情，正如你刚才所说，你花了8000美元，你编写了一篇名为“草莓田中的规划：评估和改进LRM-O1的规划和调度能力”的论文，LRM

是的，你基本上说它们被定位为近似推理器，而不是仅仅是近似检索器。我们不知道他们正在做的事情的实际细节。所以有两部分。一个是客观可验证的，即我们在相同的规划基准问题上测试了O1。

并且它们在Blocksworld上做得相当好。我的意思是，我认为，通过Claude，已经有了66。这些东西大约是99或类似的数字。它们基本上饱和了。更令人印象深刻的是，它们在Mystery领域做得更好，然后更多，我们，鉴于我之前向你解释的关于它们可能是的可能性，

使用合成数据进行自我训练。也许他们无意中在Mystery领域进行了训练，而我们可以在外部获得Mystery领域。所以我们实际上生成了

真正新的随机Mystery领域。它的性能较低，但它仍然不像旧版本的0.5%。它上升到，我不记得确切的数字，在其中一些问题上上升到20%、23%，这显然是一个好兆头，表明它们实际上能够解决这个问题。关于为什么它们是近似推理器而不是检索器的另一部分是

它更多地基于我对他们可能正在做的事情的重建，那就是他们正在进行基于强化学习的后期训练以及在线Q值更新。

并使用伪动作蒙特卡洛树搜索，我称之为伪动作蒙特卡洛树搜索，因为你可以对普通的围棋或任何特定的棋盘游戏进行强化学习，而这个只是语言游戏，游戏基本上是存在语言上下文窗口，存在提示增强，存在x，你知道新的内容，新的完成，然后是另一个提示增强，这就是他们称之为的……

一系列思维链，但这基本上是添加大量的提示增强

然后看看最后会发生什么。然后，如果它最终是正确的，从某种意义上说，如果它最终包含训练数据的正确解决方案，那么这就像AlphaGo在一系列动作后获得胜利信号一样。然后它只需要对这些动作进行信用归责。而这正是强化学习擅长做的事情。如果你这样做，那就是……

这是推理，并且是近似推理，因为它实际上不是特定于问题的动作。它是独立于问题的，这些语言提示动作。

你对这方面有误的可能性有多大？我们给予它们太多赞扬的可能性有多大，而它们实际上所做的只是在单个前向传递中生成大量轨迹？所以也许他们会做一些像过程监督的事情。所以他们做了一些巧妙的强化学习预训练工作，但是……

所以显然，这再次是O1事情的悲哀之处。事实上，顺便说一句，我必须告诉你一件有趣的事情，我正在和某人交谈，他说他们正在与OpenAI的人进行一些对话，试图探听O1可能正在做什么。在某个时间点，其中一个人说，我认为你可能必须等到中国人复制我们所做的事情才能弄清楚我们做了什么。

这就是OpenAI科学所达到的水平。但是，重点是，唯一的原因是，我可能给予他们所使用的方法的复杂性更多赞扬的可能性是存在的。我仍然认为这很可能的原因是，正如我在前面关于事物如何从大型语言模型转变为推理时间缩放再到这种O1风格方法的描述中所说的那样，

一般的推理时间缩放方法是不可比拟的。仅仅是推理时间缩放并没有那么好。再次，你必须记住的另一件非常重要的事情是

虽然OpenAI花费更多时间，但它不会花费数小时，对吧？基本上，在线计算中的一秒钟在线计算时间从业务角度来看比在……

预训练阶段中的几天和几个月要昂贵得多。因此，一些推理时间缩放人员实际上花费的时间比O1多得多，而且据我所知，他们通常并没有达到那种准确性水平，这让我认为，除非你进行大量的后期训练来预先获得近似的Q值，否则你无法仅仅通过蒙特卡洛树搜索来改进。所以想想，再次，AlphaGo的类比。

如果你只做了蒙特卡洛树搜索，

在你能获得任何程度的准确性、任何程度的信心之前，它将花费更多的时间来进行每次移动。但AlphaGo做的一件事是，它进行了大量的预训练阶段，在这个阶段，它学习了一个近似的策略，然后它会不断改进它所拥有的Q值估计。所以这可能是我认为它有意义的原因。当然，我还认为

普通的推理时间缩放方法对我来说似乎没有太大的意义。我见过的最接近纯蒙特卡洛树搜索方法的是阿里巴巴发表的一篇名为Marco-O1的论文。他们有这个Marco Polo小组或类似的东西，他们称之为Marco-O1。Marco-O1实际上本质上是在思维链数据上进行自我训练，这基本上是推导数据。

然后，在其之上，它进行类似在线蒙特卡洛树搜索的计算以进一步改进Q值。它们要小得多，并且在性能提升方面不如O1令人印象深刻。因此，我认为完整图景需要训练后和推理时间这两个方面。你和我看到的只是推理时间。

但OpenAI可以花费巨资的地方在于训练后阶段，也就是在他们实际部署模型之前。我认为它获得这些近似Q值的地方就在这里。再说一次，参与其中是一件很奇怪的事情。我的意思是，我们应该寻找……

寻找自然的秘密，因为自然不会告诉我们，但我们现在正在寻找OpenAI的秘密，因为OpenAI不会告诉我们。希望已经有许多努力尝试复制这种事情，所以我们会了解更多。但就目前而言，就是这样。我无法确定他们到底在做什么。

他们公开声明的一切都与我关于O1的假设一致，这是我能说的唯一一点。没有任何东西与我的模型（我的关于O1在草莓论文中工作方式的推测）相矛盾。在附录中，我写下了这个推测，我们写下了这个。这仍然与他们所说的一切一致。

你知道，这是我能说的唯一一点，是的，我的意思是，我喜欢它的声音，我的意思是，它让我对使用它更兴奋，因为它让我觉得系统背后有更多复杂的东西，但这其中很多都归结于推理，我很想听听你对推理的定义，但也有人说，如果它不是检索，那就是推理，那么你说呢？让我们先看看第一部分和第二部分本身。

推理本身的定义是一个很好的起点。我认为我知道，整个AGI群体基本上试图说，如果某种AI要像人类一样。问题是我们对人类推理是什么没有一个好的定义。但自从古希腊以来，我们的文明向前发展，

不是通过说人类，我们如何定义人类的行为，而是通过定义什么是合理的推理模式。亚里士多德、三段论、逻辑、概率逻辑，你知道，整个计算机科学，整个文明都依赖于

拥有推理的形式概念，其中存在正确性，存在错误等等。我的意思是，你知道，它让我想起了这个老的蒙提·派森的东西，其中这个人有，我认为，《布莱恩的一生》。他做幻灯片

看起来像，为了证明某人是女巫，如果她是由木头做的，并且漂浮在水上，那么她一定像鸭子。随机连接，然后说她是个女巫，你说QED，这看起来像推理，因为它不仅仅是检索某些东西，她是个女巫。但我们知道这不是合理的推理。

因此，总的来说，我更喜欢从这个角度思考，因为最终这些系统将被部署，无论你是否喜欢。而文明并不依赖于

人们，易犯错误的人类是否会犯错，然后我们可以反过来看，我们实际上必须在某种程度上对推理的合理性和完整性有一些保证。所以我基本上回到了逻辑等等推理的定义。所以我相信推理。这就是为什么我们研究了规划问题，这些问题有正确的解决方案。约束满足问题是正确的解决方案。如果你能够做到，如果你说系统是一个可以部署的推理系统，它应该有

一些保证。现在你可以说人类会犯错，但我一直在说的一件事是，如果人类，如果你被付钱来做决定并犯错，那么你将受到惩罚。最终，你可以被关进监狱，直到我们弄清楚该把谁关进监狱以及如何在AI系统犯下没有任何实际保证的错误时将其关进监狱。我们最好从推理的形式定义出发思考，然后看看AI系统在多大程度上接近它。

无论如何，这与AI迄今为止的发展方式密切相关。现在，这场讨论也回到了检索与推理这个问题上。我认为你正在谈论几篇论文，

这些论文不断出现，基本上试图说，看，LLM并没有真正检索任何被说过的话。他们不仅仅是记忆和检索，所以他们一定在做其他事情。我会说，蒙提·派森的逻辑并没有真正检索任何东西。他把一堆东西放在一起，但这也不是推理。在我看来，检索和我认为的推理之间可能存在一个完整的宇宙，

这些东西仍然不被认为是推理，因为没有保证。因此，从一开始，我们就知道，如果你再次回到这些论文中，这些说法基本上可以追溯到自回归LLM，顺便说一句，研究人员仍然非常忙碌。我认为我们是关于O1的少数几篇论文之一。我们在本次NeurIPS研讨会上也展示了对O1的评估。

但大多数人仍在试图理解自回归LLM本身，因为正如我们上次谈到的那样，我认为它仍然是一个非常令人印象深刻的系统一。在人类文明中，我们从未有过系统一，试图理解他们在做什么是有用的。所以他们回到这一点，他们会说，看，他们实际上并没有进行精确的检索，他们正在做其他事情，我们将把这个其他事情称为推理。这不是一个……

首先，每个人都知道LLM不是数据库。所以他们基本上不检索。他们实际上很难记住和检索。当他们记住时，这不是通过深思熟虑。它不会故意发生。它偶然发生。有时他们最终记住长篇幅的内容令人惊讶，因为基本上每个人都同意它们是某种N-gram模型而不是数据库。

在他们的交易方式上，好吧，鉴于这一点，很清楚的是他们永远不会检索，并且他们没有检索的事实不应该被视为一个迹象，表明

它可以被视为他们没有检索的迹象，但我们已经知道了这一点。但人们似乎暗示的部分是，既然他们没有进行检索，也许他们在进行推理。不，这没有意义，因为，再次，你必须根据你认为的健全推理程序的评估来检验它。他们失败得和以前一样容易。所以如果你回到我提到的那篇链式思维论文，

我刚才在NeurIPS上展示的，对吧？

在JSON-V风格的链式思维论文中，链式思维的想法，你所做的是，假设你拿走一些东西，最后一个字母的连接，这是一个非常小的玩具问题。你给出像三个，像K个单词，N个单词，你，系统应该取每个单词的最后一个字母，将它们连接成一个字符串，对吧？所以，很大的行。所以E，

GE是你应该输出的。这基本上是最后一个字符串，对吧？他们所说的，他们说的是，如果你只是告诉LM，你知道，提示名称，你知道，你应该取最后一个字母并将它们连接起来并给出答案，然后他们测试它，它的性能并不理想。如果他们没有告诉它，这是如何，这里有一些三字母最后一个字母连接问题的例子。

然后是四字母最后一个字母连接问题，其中几个例子，然后问他们的问题，它提高了性能。这看起来像推理。不知何故，它能够遵循这个程序。我认为我们上次也谈到过这个问题，问题在于Ersag-Mansur。

实证科学，当你得到你希望的答案时，你不应该停下来。你应该看看如何打破你自己的假设。他们没有问的是，他们给出了三、四个单词的例子，然后他们在三、四个单词上进行了测试。

但是，如果你期望系统进行任何形式的推理，任何形式的程序遵循，一旦我告诉你最后一个字母连接是什么并给你一个例子，你将对20个、大约30个等等进行操作。它只是机械地取最后一个字母并连接起来。我们展示的是，如果你增加单词的数量，性能就会骤降到接近零。

这在规划问题中也毫不奇怪地发生了。它发生在最后一个字母连接中，它发生在规划问题中，这表明，是的，它正在做一些事情，这似乎提高了它的性能……

你为其提供了示例的问题大小，并且某种模式匹配正在帮助它，但这绝不是任何会根据长度进行概括的广义推理，例如，所以我想到了一个有趣的方法，它有点像眼镜

你知道，远非满杯对半杯，你知道，那是乐观主义对悲观主义。人们倾向于认为，因为它基本上至少以更高的精度解决了三四个块、三四个单词的问题，因为我给出了这个链式思维，这表明了推理能力，但问题是

我们对它实际正确运行的边界是什么没有很好的理解。

以至于我们现在有了像分形智能这样的短语。事实上，我认为Andhra Kalpati基本上说LLM具有分形智能。分形智能基本上是我们不知道它们何时工作，它们何时工作。这就是分形智能。这表明，这很好。尽管如此，我们以前从未有过这样的东西。但LLM科学的一部分必须是

说一些比分形智能更多的东西，说明你可以依赖其结果的程度。所以我不是，所以在推理、逻辑中，有一些方法可以限制，你知道，基本上正式地描述推理的限制，例如有限深度、有限前瞻推理等等。它们似乎都不适用于LLM。

那么问题是什么会起作用？我们必须弄清楚这一点。但除此之外，我们基本上，偶尔会有这些论文说，看，我们实际上探测了，例如使用机械可解释性技术，我们探测并发现LLM基本上不像它们在进行检索那样运作。但这在某种程度上已经被理解了，你知道，我认为它仍然是，机械可解释性方面的东西非常有趣。我认为它实际上可能是

成为弄清楚LLM在做什么的解决方案的一部分。但由于它不是检索，它一定类似于推理的论点对我来说仍然相当令人不满，因为我所说的推理不是推理，因为我的所有论文都说，在你进行机械可解释性研究之前，无论它们之前在做什么，它们在之前仍然在做，甚至在你进行那项研究之前。在你的研究之前和之后，它们仍然存在这些限制。

我们实际上不知道如何描述它们在做什么。这就是我们现在卡住的地方。

每个人都有可能正确吗？我的意思是，我本周早些时候与一些DeepMind的人交谈过。有一篇关于软最大需要眼镜的精彩论文。谈论，你知道，我们有时需要定向注意力来进行推理。有时我们不需要。我与那些家伙交谈过，还有一篇很棒的论文，谈论的是transformer在计数和复制方面的绝对局限性。

我和劳拉·鲁伊斯周日会谈，所以她发表了这篇论文，她在其中研究了推理痕迹。有时他们只是从文档中检索事实。有时他们正在进行某种程序性的信息生成，你可能会将其比作推理过程。有时

我想这有点像分形智能，这可能是这种情况，在某些情况下，这些模型正在做一些我们认为是推理的事情。有时他们在进行检索，有时他们在做其他事情。

是的，不，所以实际上我认为劳拉·鲁伊斯的论文是我之前在描述机械可解释性问题时想到的论文之一。我认为这是一篇很好的论文，因为他们开发了一套有趣的方法来实际观察LLM输出其标记的方式，但是

让我不满的是，是的，基本上有两件事。首先，每个人都知道LLM实际上不仅仅是在进行检索。这在很久以前就已经广为人知了，对吧？所以没有人相信LLM只是在进行检索。问题是，你知道，他们还在做什么？是否存在任何清晰的……

对他们正在做什么的任何清晰的描述。我没有看到。我确实看过那篇论文。我认为他们做得很好，但我还没有……我仍然希望会有一个有趣的描述。现在有很多很多团队试图寻找这种分形智能的描述。但我们还没有进一步。就……

每个人都可能是对的。我的意思是，某种程度上可能存在盲人摸象的现象。这部分是可能的，因为我们实际上正在尝试

拼凑这个谜题的许多部分，包括推理部分，包括他们甚至试图做什么，包括哪些技术似乎提高了它们的准确性等等。但我认为这是科学的一部分。基本上，我的感觉是永恒的不满是科学的一部分。我实际上更担心过于乐观地认为我们已经弄清楚了，而不是担心……

对我们还没有弄清楚这一点感到有些不满。所以我希望犯这种错误，不是因为我认为我们比GPT-3出现时知道的更多，而是另一方面，我认为我们俩，所有阵营都知道。我的意思是，那些认为GPT-3是AGI的人知道情况并非如此。而那些认为GPT-3只是随机鹦鹉的人必须知道它不仅仅是那样。好的。

好的，到目前为止。所以这是我们智力的集体提升，但仍然还有很多碎片。是的。我的意思是，关于劳拉的论文，她使用的是影响函数。我不确定这是否属于经典的可解释性或机械可解释性，但我认为机械可解释性很大程度上是关于在神经网络中寻找电路。即使这也很有趣。对我来说，这更像是一种……

弄清楚一种探测LLM内部运作方式的方法，我认为那是机械可解释性。我的意思是，有一些非常具体的技术显示出了巨大的前景，例如自动编码器之类的东西。但我认为所有这些，对我来说，基本上都在试图解释……

它们在电路层面上所做的事情，并试图理解它们对我的外部行为，所以它们就像理解你知道LLM在做什么的两种方式，一种只是外部评估，这已经发生了，我们知道它们没有进行任何可保证的推理，这基本上足以证明结果表明它们在某些情况下似乎做得很好，并且结果也表明这似乎非常脆弱，你稍微改变一下提示，稍微改变一下问题规范，它们就会再次崩溃，我们谈论的是自回归LLM，而不是O1之类的东西，这是我们还没有开始进行相同类型的分析的整个事情，但是你知道一旦你弄清楚了这些，我的感觉是试图实际获得一种感觉

只是从外部来看，也要尝试探测内部电路。如果你开始做内部电路，我认为在我看来，这通常是机械可解释性风格。好的。但有趣的是，她发现

基于代码和数学的程序性文档对于需要推理的任务来说显得不成比例地有影响力。更大的模型对用于推理的一般程序性数据的依赖性甚至更强。预训练混合中代码数据的存在似乎提供了模型可以从中概括的抽象推理模式。我的意思是，这些都是有趣的观察。实际上，再次，

我不想对某篇特定论文进行非常具体的批评，因为这对他们和我都不公平。但我确实想基本上说，事实任务和推理任务之间存在区别。

NLMs已被用于两者，我认为事实，它们在这两者中都有问题。对于事实性，我认为唯一能够改进它们的东西是像rag风格的技术，你只需提供事实数据并要求它进行总结。对于推理方面，

你基本上对于算术等等，在很大程度上，我期望这些是结果不存在的类型的事情，所以我也会同样

你知道，对这样一个事实感到困扰，即人们已经证明，如果你采用像LLM乘法这样的东西，这是在所有这些LARA的工作之前很久。你知道，对于流行的数字，它们在乘法运算中往往是正确的，而对于非流行的数字则不太正确。这是一种，你知道，令人震惊的是，有些数字是流行的，而有些数字则不是。但这是一种有趣的一点，表明

LLM最终的性能是它们接受过训练的数据和它们在顶部使用的某些附加模式匹配能力的复杂组合，但这并不是合理的推理，所以它基本上我们仍然不太知道它在哪里会崩溃，但是

它对于流行的数字是正确的，而对于其他一些数字则不是。这对我来说是一个特别有趣的事情，这表明。顺便说一句，当我们谈到这个话题时，一些工作表明，即使对于Owen，我们更多地从规划方面研究了Owen，但有些人，我认为Tom McCoy做了一些更多的工作，并尝试，基本上，这些是做了凯撒密码之类事情的人，Embers的事情，并且

他们基本上也发现O1在其中一些事情上做得更好，但他们也仍然发现存在数据依赖性，因为它的准确性在预训练数据较高的区域更高。

这再次让我认为这仍然与我对O1可能正在做的事情的看法一致，这是一个在某个语料库上进行过预训练的LLM，还有一个较小的LLM，它正在生成，你知道，伪动作标记，这将使其输出内容，其中一件有趣的事情实际上是差异，我被告知，再次，我们也不确定

我被告知，当最初的Oven模型出现时，有一个Oven Mini和Oven Preview，我被告知的区别是其中一个，我认为Oven Mini使用较小的LLM作为基础LLM，而Oven Preview使用较大的LLM作为基础LLM，所以我不知道他们没有说第二部分，但我认为如果我有一个，你知道，伪动作生成器模型

如果他正在使用更大的LLM，它具有更高的容量，因此它可以生成更有趣的补全，而较小的LLM则具有较少的有趣补全，这在基于RL的训练能够将你的准确性提高到什么程度方面有所不同。是的，我注意到一些有趣的事情。所以我现在已经为O1 Pro付费了。

我对01非常怀疑。正如你所说，基础模型是GPT-4的一个更弱的版本。所以GPT-4，我讨厌这个模型。我讨厌它的风格。我认为它很蠢。我必须承认，这主要是因为我正在将它拟人化，因为我讨厌这种风格。所以我认为它很蠢。你知道，我们人类非常脆弱，即使是在RLHF上。

你知道，我们喜欢自信，我们喜欢复杂性，你知道，我们喜欢某些风格，我们实际上并没有看到内容，但除此之外，一方面不喜欢这个模型，01预览版和迷你版并不真正想思考，所以大多数时候它不会思考，你会得到比使用GBT 4行更愚蠢的答案，然而01 pro

氛围不同。所以它思考得更多，它给你一些在质量上完全处于不同水平的东西。它不再看起来像愚蠢的ChatGPT了。感觉非常非常不同。

但它仍然存在一些问题。当然，对于处理歧义、进行编程等情况，我实际上喜欢使用DUMMA模型，因为它是一种启发式交流，对吧？我说，不，你误解了。让我们这样做。让我们那样做。我们正在一起研究这件事。O1所做的是，它说，一方面，你可以这样做。另一方面，你可以那样做。它给你一系列选择。

你知道，我想，好吧，难道仅仅是，你知道，与模型一起跳舞，或者仅仅是更好地指定你一开始想要的东西不是更好吗？所以，

再次，有两个问题。首先，O1 Pro我认为是上周才推出的，对吧？那是我考试周，我们还没有花时间，你知道，花时间。我们还没有在O1预览版上花钱。我的意思是O1 Pro，我的意思是，我从外部玩过，但我们还没有进行任何API级别的研究，这正是我们对O1预览版所做的事情。但是有一件事，你知道，我看过Twitter，你知道，关于人们的交流

通常的嫌疑犯尝试在他们身上尝试各种事情等等，让我感到震惊的两件事是我们在自己的预览版中看到的一件事正是你所说的，它看起来像烤箱仍然在做这件事，那就是他们擅长挖掘以试图解释他们的答案，为什么他们给出的答案是正确的答案，其中一件有趣的事情是……

我使用这个特定的三块堆叠示例，它是无法解决的。事实上，这在《纽约时报》上作为GPT-4O实际上在这个问题上失败的原因的一个例子出现。

当O1预览版出现时，Noam Brown在他的长推文中，其中一件事是Rao在ACL演讲中说这个问题无法解决，而O1预览版实际上解决了这个问题。这很好。现在，人们实际上已经说过O1得到了错误的答案。

而且人们，我看到过很多人，人们发布了截图，它得到了错误的答案，但它会与你争论为什么它给出的答案仍然可能是正确的。所以这个问题基本上涉及到，实际上没有办法解决它而不移动C，结果它给出了一个答案，其中C实际上由于重力而移动，它会掉下来。然后它试图与你争论说，在游戏中，人们会说，除非你故意移动C，如果自然过程使它掉落，则不被认为是移动，这是一个非常有趣的事情，我们在O1预览版中也看到过，当它会，当我们给它无法解决的实例时，顺便说一句，

嗯，普通的LLM在无法解决的实例中只会崩溃，因为它们已经被RLHF折磨死了，所以它们认为，如果你给他们一个问题，就一定有答案，所以基本上它们会给你一些东西，对于大多数无法解决的问题，这就是为什么这是一个我之前向4o展示的无法解决的实例，O1预览版实际上正确地解决了更多的问题，这是对它的肯定，这就是为什么在我看来，它实际上是一个比LLM更近似的推理模型LRM

但另一方面，当它实际上为一个无法解决的实例提供解决方案时，它会与你争论说它实际上仍然是正确的，因为……所以我在这篇草莓论文中开了个玩笑，说我们已经从幻觉变成了煤气灯。所以它实际上试图争论说你……

就像你说的那样，一方面你想要做的事情可能值得去做，但另一方面，这就是我这么做的原因。事实上，我认为这个人，Colin Fraser，我相信，Twitter上这些人之一，他一直在玩这些模型，他说他给了……

外科医生问题，经典的外科医生，你知道，男孩发生事故的那个，O1 Pro说外科医生，这基本上做了所有这些事情。这是一个经典的难题，它考虑了性别刻板印象等等，等等，并且

然后给出答案，正确的思考方式是。所以这就是说，这是一个难题，他做出了改变，母亲和男孩正在开车。

母亲死了，医生说，我不能给男孩做手术。所以它实际上改变了难题。而O1显然仍然说，我们应该基本上意识到医生是男孩的第二个母亲。它会试图争论这个立场。所以有趣的是，过度思考实际上是一种问题

实际上试图深入挖掘。所以我们不知道的一个有趣的问题是，我们还没有玩过这个，它的解释和它的推理在多大程度上是相关的？

你知道，在人类身上，这实际上是……我的意思是，我并不是想将它拟人化。如果存在两个不同的阶段，对吧？如果第一阶段，它想出了一个解决方案。在第二阶段，如果它需要解释，如果它不必查看它是如何得到解决方案的，那么解释就是死守阵地，并试图说明解决方案是正确的。人们往往会这样做。有时我们会得出某种解决方案，然后我们会试图想出一个解释，说明为什么，什么可能是正确的。

这是大型语言模型（LLM）一开始就存在的问题，因为它们完全假设这些是完全不同的东西，我一直担心大型语言模型的解释。大型推理模型（LRM）有时似乎更复杂，但这只是大部分是轶事。我还没有对此进行系统的研究。所以，一，我对这些模型没有任何直观的看法，因为

说实话，我日常生活中不使用它们。大多数时候，我的英语写得足够好，以至于我还没有见过比我做得更好的大型语言模型。而且我还没有找到需要大型语言模型帮助的有用事情。我的意思是，也许我将来某个时候会使用大型语言模型。所以我没有你那种轶事经验。我的意思是，我主要关注的是

使用多个规划问题的特定系统研究。我们扩展了规划基准来研究不可解性，我们研究了更长的长度问题，研究了调度问题等等，以进行评估。这些是我对 O1 能做什么和不能做什么有更好感觉的问题。- 是的。我必须承认，我更新了一点。所以当我们认为它们是近似检索器时，我一直和你站在同一阵营。

我现在开始看到一些东西了。是的，我认为我的观点是，有两种不同的思考方式。一种是大型语言模型并非如此。所以你如何定义大型语言模型是我们应该进行的一些讨论。这就是为什么我一直谈论石头汤的隐喻，不是因为我想淡化 O1 的重要性，它是一件伟大的事情，

但你必须决定你想把功劳给谁。如果你在争论你的一部分，而且肯定是我对大型语言模型推理能力的保留意见是，它们是自回归教师强制训练的东西。从 GPT-2.5 一直到 GPT-4.0 都是如此。OpenAI 知道这一点。OpenAI 知道这一点，以至于他们不再称之为，这不是 GPT-01。你知道它被称为 01。它就像一个完全不同的模型，他们知道它不是 GPT-01。

你只能说它是由一些也开发了大型语言模型的人完成的。但我们不能将大型语言模型定义为 OpenAI 生产的任何东西。我的意思是，我们必须有理论定义。我的感觉是自回归大型语言模型仍然存在所有问题，但也存在所有优势，因为它们非常快。它们就像令人惊叹的快速系统。

而 O1 是一个推理模型，因为它实际上在训练后添加了推理以及推理推理，没有人说这是不可行的。你知道，他们能够以非常普遍的方式做到这一点仍然很棒，但我认为没有任何论点说人工智能系统能够进行推理，对吧？毕竟，AlphaGo 本质上就是一个推理系统。它只是一个深度和狭隘的推理系统。

问题是，它是否更通用、更广泛，但不像大型语言模型那样肤浅，作为大型推理模型，这是一个朝着正确方向迈出的良好一步。但这并没有改变我对大型语言模型的看法，即自回归模型。它们是不同的。事实上，它们具有 O1 缺乏的优势。

例如，大型语言模型的成本实际上可能要低得多。它的确低得多。例如，在一项研究中，我们在草莓论文中学到的一件事是，在某些情况下，如果你正在给予，基本上你必须认为计算机科学最终也是关于效率和成本的，对吧？所以如果你给 O1 一个特定的问题实例，你付这么多钱，

与你给使用验证器的 LLM 同一个实例相比，在这种推理时间缩放方法中，我称之为 LLM 模块，这是一种我们一直在推动的通用方法。LLM 模块方法，它使用自回归大型语言模型生成许多候选者，以及外部验证器，甚至是基于大型语言模型的验证器或学习的验证器来检查，实际上可能比 O1 只使用一个候选者具有相同的准确性更便宜。

这变得很有趣，因为然后，你知道，关于人类文明有趣的事情之一是，一方面，我们是通用的，你知道，推理者。但另一方面，我们也知道每个工作都需要一个工具。我们也这样做。我们基本上，你知道，事实上，你知道，

基本上我们所做的一切都像一个特定的专用工具那样，在我们的时间花费方面可能极其低效，对于这些推理模型来说，在某种程度上也是如此，因为 O1 目前实际上花费相当多，什么时候会改变，这是任何人的猜测，但是

这实际上提出了一点，事实上，有一个 Shep Huckwriter，LSTM 的家伙。那太好了。所以你也应该问他。所以昨天我在他的演讲中，所以他基本上做了这个，其中一张幻灯片基本上是苦涩的教训结束了，效率将很重要。我完全同意这一点。我也很久以前就一直在争论这一点，想想以下的事情。

我们第一次将人和人类送上月球时，成本并不是考虑因素。我们想证明我们可以做到。NASA 是唯一一个这样做的人。第二次以及太空和月球。第二次和第三次等等，也许可以。但现在，是埃隆·马斯克将人们送入太空，并可能也送往火星，因为成本很重要。

从本质上讲，一旦完成，你就会开始关心你所支付的成本。计算机科学实际上相当一部分是关于成本的令人不快的事情，就像它关于做以前从未做过的事情一样。我们现在正处于第二阶段，我们实际上将关心……

基本上，我在预训练成本、推理成本等方面花了多少钱，以及我可以用哪些更好的方法？这在计算机科学中也发生过，并且有一段时间不再是一个问题，因为大型语言模型只是系统性的，因为根本没有推理时间成本。

即使预训练非常昂贵，推理时间也非常便宜。所以我们不必担心它。现在我们将担心它。所以有趣的事情之一，我们关于 O1 预览的规划基准问题的房间里的大象是

旨在解决这些问题的普通经典规划器，以如此小的成本分数来解决它们。它们在我的笔记本电脑上工作，并以 100% 的保证解决所有问题。所以问题是，我意识到它们完全专门用于那个问题。另一方面，你拥有这个非常通用的东西，它既有成本也有不准确性。

我们开始担心权衡。你将在这种普遍性成本范围内找到家吗？这将是一件非常重要的事情。我认为这就是 Shabha Prater 在他说的时候暗示的内容，你知道，苦涩的教训部分结束了，你确实需要担心

你为实现目标而花费的成本。你第一次实现目标时，没有人关心成本，因为它从未做过。你做到了，你得到了所有的功劳。但第无数次这样做是因为它变得像日常的事情一样，那么效率方面就重要了。

关于这一点，还有一些事情。我的意思是，首先，对于 O1 Pro 来说，我认为每月 200 美元，你可以每天调用一百次。当然，API 非常非常昂贵，但我每月已经在 Clawed 和 Sonnet 3.5 上花费超过一千美元了。但你提出了一个有趣的问题。我的意思是，首先，O1 模型的效用，它是一个有点奇怪的模型，对吧？它在某些特定情况下很有用。如果

如果有什么不同的话，由于冗长性和干扰因素以及上下文，它并不是你大多数时候想要使用的模型，但这提出了你所说的实用主义、架构和效率问题，所以我今天早上与一些人交谈过，并且

他们已经构建了一种神经进化方法来设计多智能体系统。你知道，目前我们利用工具使用，哦，我们使用辩论模式吗？我们有一个小型模型，我们经常提示它吗？或者我们使用，你知道，一个更大的模型？我们都在将这些多智能体架构组合在一起。其中一些架构甚至会做你正在谈论的事情。因此，与其试图让你相信它得到了正确的答案，不如说有一个主管代理进行一些反射性

可能还有另一个代理生成规划符号代码并在工具上运行它。所以我们正在构建这些复杂的大型事物。我认为我们现在需要弄清楚的过程是构建以最佳方式使用这项技术的系统。是的。所以我认为我同意这一点，但我想要指出的一点区别是，这两种模型的使用有两种概念。当你使用订阅模型时，20 美元或 200 美元，

我认为这从定义上来说是人机交互的，模型是你的助手。这是一种非常不同的评估方式，你对之前的模型感到不满意，因为它浪费了你的更多时间，这不值得。对你来说，这个模型帮助了你正在做的事情，你对此感到满意。这是一种特定类型。一般来说，我实际上……

我一直认为，我认为我们上次也谈到过，大型语言模型和大型推理模型现在也是如此，毫无疑问，它们都是智力放大器。关于这一点，毫无疑问，好吧？我的意思是，如果你想使用它，你就使用它，人们能够找到它的用途，这很好。我实际上没有更多谈论的部分，而且这是我们大部分工作的内容，实际上是

会有这样的场景，这些场景会成为面向最终用户的系统。

它们会做出决定。它们只会说：“这是答案，然后你将执行这个计划。” 因此，机器人将执行此计划。或者，“这是我将购买机票的旅行计划。” 你不能回来再说，“哦，我不喜欢这个旅行计划。” 这就是你在订阅模型中所做的。但我正在谈论的是，基本上 API 访问是人们，所有试图在这些模型之上构建附加工具的初创公司，

在这些模型之上，他们将提供特定的自主功能。在那里，这就是我谈论的特定准确度水平下最终用户时间的实际计算成本与收益。这两种都是，它们是两种非常不同的用户，而且我实际上一点也不怀疑

所有大型语言模型，当然还有大型推理模型，都是很棒的智力放大器。但那不是我的担忧，整件事一直以来都是，我的担忧一直是人们试图将其置于面向最终用户的场景中，在那里它们实际上会做出决定，并且一些执行者只是执行它而不会反驳。

当这种情况发生时，保证在推理的脆弱性方面很重要。如果你参与其中，你永远不会，你知道，就像如果你有一个助手，而助手，如果你给出大部分不好的想法，你可能会解雇助手，但你永远不会盲目地使用助手的想法，对吧？所以你将永远是，责任在你身上。这是一种非常不同的使用大型语言模型的方式。

然后大型语言模型是病人与之交谈的对象。大型语言模型和病人之间没有医生。在这种情况下，它们的准确性很重要，以及达到一定准确度水平的成本也很重要。这两种用途非常不同，我比第一种用途更感兴趣第二种用途。我可以稍微反驳一下吗？首先，我完全同意你的观点，这些东西被自主使用，它们不起作用。它们由于你所说的所有原因而不起作用，但是……

这不是它们的使用方式，它们没有那样使用，因为它们不起作用，但我们看到的是，所有成功地重新构想使用语言模型的应用程序都是完全交互式的，因此它们有人机交互，而人类正在监督、增强和重定向等等

我们还没有看到下一步，但我们开始看到的是拥有多层次反射、检查等的自主代理系统。例如，它可能是一堆生成程序的代理，它可能有助于程序库，程序不仅由你监督，还由应用程序的其他用户监督，整个事情都在增长，这是一个充满活力的生态系统。因此，存在某种分散形式的人工监督验证

也许将来，你知道，人类可能会越来越多地被排除在最前沿，我认为这是一种非常明智的使用方式，但我担心这不是唯一的被使用的方式，事实上，大多数人，所以实际上有两个问题，一个是如果这是唯一的方式，我很高兴，因为它就像一个工具，你会使用它，责任最终还在你身上，因为你参与其中，对吧

但是大多数设想的使用，至少在我看来，以及我听到的初创公司类型和我在阅读的论文类型，它们都是关于自主使用的。这就是我实际上关注的地方，它比以前更有希望。以前它非常脆弱。现在它不那么脆弱了。

但它不那么脆弱是以成本为代价的。有趣的是，这两种评估策略都大相径庭。评估辅助技术与评估自主技术非常不同

并非一种更容易，事实上。我的意思是，基本上，你可以说评估只是如果人们正在购买它并且他们继续支付订阅费用，这证明人们似乎从中获得了一些价值。

但正确评估辅助技术实际上非常困难，这是一个完整的领域。事实上，大多数担心大型语言模型滥用的人，他们不包括像弗朗索瓦这样的人，例如，弗朗索瓦·肖莱特和他的 Arc 等等。最终，所有这一切都是我们感兴趣的

无论你是否相信 AGI 将在下周、下个十年还是下个世纪到来，人工智能领域的每个人最终都希望这种自主能力能够以保证的方式采取明智的行动。

这基本上是我认为我们将到达的地方。但过早地说，目前存在的任何东西都已经在工作，这是我们许多人担心的问题。这就是我们正在反驳的内容。对于人机交互来说，这完全是另一回事。即使对于现在的代码生成，它们也像，

这两种不同的用途本质上是。代码生成技术也有其用途，它试图将准确性提高到人类无法达到的水平。它不仅仅是为人类生成想法。如果它是想法生成，那就太好了，因为其他人的工作在线。它不是，你知道，责任仍然在实际的程序员身上。所以我认为我关心的自主性是任何情况下我关心的，也是我担心的

过早宣布它们已经自主地具有智能。但我通常非常高兴这项技术作为人机交互技术而存在。

技术。对我来说，坐在这里听到你说你实际上作为用户，我的意思是，你似乎比我曾经使用过的大型推理模型和大型推理模型更像是一个普通用户，这很有趣，你知道，当你这么说的时候，这对我来说意味着一些东西，你更喜欢 O1 而不是你曾经喜欢的 O1 预览，你对 GPT-4 也许还可以，但现在更喜欢 O1 一点，这有点

你基本上从中获得了价值，但你仍然可以随时，你有一个红色开关。你可以决定不接受它的答案，你知道。- O1 Pro。- 是的，好的，O1 Pro，是的，好的，是的。- 唯一的区别是，当它长时间思考时，似乎有定性的改进，你知道。

我想听听你对其他事情的看法。所以我们看到，我的意思是，你有你的 LLM 模块架构，然后我们有了这种巨大的测试时间方法，这种绿化方法。所以你绿化模型，并让它生成大量大量的 Python 函数。以这种方式……

我们喜欢的事情，因为我们喜欢是的，是的，是的，绿化，好的，好的，是的，哦，是的，嗯，但是我们正在看到很多很多不同的方式，所以进行大量大量的推理，然后你知道我们有这些 Python 函数，也许我们做……你知道库学习和混音，你知道我们在代码的世界里，我们正在使用我们正在生成的显式函数，我们可以验证它，我们喜欢它，你知道我们在一个非常快乐的地方，但现在我们看到一个有趣的转变，当然在 arc 和其他几篇论文上

人们正在转向这种转导主动微调的想法。这仅仅意味着，与其生成一个显式的 Python 函数，

并多次执行它。让我们只使用神经网络直接生成解决方案。这是一个步骤，因为我们喜欢程序，因为，你知道，程序是图灵完备的，我们理解它们的意思以及所有内容。现在有一大堆人说，实际上，神经网络可以做程序所做的任何事情。让我们让神经网络直接输出解决方案。你怎么看待这个？

说实话，我没有那么密切地关注这项工作。所以我的答案有点更笼统。我会感到惊讶。我的意思是，我会与事实有同样的偏见，事实上，有一句老话是，为什么写程序时你可以写程序写程序？这就是我们正在谈论的版本。基本上，你想生成生成解决方案的高级代码。这始终是……

计算机科学的观点，所以我很惊讶，我实际上并不真正了解你所指的直接返回并直接寻找解决方案的工作，因为老实说

在推理时间缩放的背景下，一个有趣的问题是你生成了大量候选者。候选者可以是直接的解决方案候选者或代码候选者，无论哪种方式。然后你仍然必须有一个验证器。如果是代码，你需要一个代码验证器。如果你有解决方案，你需要一个解决方案验证器。一个有趣的问题是这些验证器来自哪里？

事实上，我们一直在追求的一个更有效的想法是，你实际上可以生成验证器。它们就像

当然，对于特定的事情可能存在符号验证器。我们可以在 LLM 模块式框架中使用它。但你也可以使用学习的验证器，你基本上只是区分性地学习什么是解决方案，什么不是解决方案。第三个想法是生成验证器的代码，然后对其进行更正。

这实际上，事实上，至少在我们的例子中，似乎很有希望。我们正在研究一些很快就会发布的东西。但是，你知道，基本上，我仍然认为，尤其是在大型语言模型的背景下，在大型语言模型的背景下。好的，所以就像，再次，这是一件非常不同的事情。如果你根本没有将大型语言模型包含在循环中，这是一个不同的问题。但是如果大型语言模型在那里，它们实际上擅长做的一件事是像输出一样，你知道，

基本上，它们可以输出代码和解决方案，在这种情况下，代码可以输出大量类别的解决方案，这些解决方案可以由代码验证。如果你纠正一次，那么它本质上将在更长的时间内工作。

我仍然认为，至少对于推理时间缩放验证器的情况来说，这似乎仍然是一个好主意。我不太了解你所说的转导人员所说的具体情况，

直接猜测解决方案会有所帮助。我不确定他们是否仍然将大型语言模型包含在循环中，或者他们只是说我们将直接训练一个单独的神经网络？- 好吧，我会概述一下。所以 SolvingArc 有两个 LLAMA 80 亿模型，一个正在生成 Python 程序，它们正在绿化它。另一个是单独训练的，只是为了直接输出答案网格。- 好的。

在这两种情况下，它们都会进行推理时间计算。因此，要么生成大量的 Python 程序，要么通过增强测试时间示例来对直接解决方案进行主动微调。他们发现的是，在他们的成功率的维恩图上，他们发现对于某些问题，程序运行得非常好，你知道，就像绿化方法一样。对于某些问题，你知道，当然像马赛克和空间感知类型的东西

转导效果非常好。这有点奇怪，因为如果你考虑神经网络可以推理的函数空间，它们应该是相同的。所以我不确定这仅仅是因为神经网络的局限性，还是问题的特征，或者是你看到的东西。对我来说，有趣的是，对我来说，再次，这在很大程度上取决于函数空间

解决方案配置与代码配置空间，许多问题的解决方案的“句法复杂性”可能低于……因此，能够猜测字符串的神经网络可能无法猜测看起来像句法正确的 Python 程序的东西，对吧？大型语言模型实际上可以做到这一点。

稍后，所以如果您可以做到这一点，并且如果您仍然回到神经网络来直接猜测解决方案，这是一个更有用的步骤，我开始我们正在为验证所做的事情仍然处于……你知道，初始阶段，你知道，我们实际上还没有检查这种权衡是否存在，所以你知道，我对为什么可能发生这种情况没有更多见解

太棒了。你本周在会议上做什么？这很有趣。所以我今天就在这里，我认为我们做了这篇关于“思想链”的论文，然后我说这就像我们写它的时候一样，

它无法遵循程序，所以我应该能够展示它。但现在实际上我解释了整件事，就像我一开始向你解释的那样，从提示增强开始。我认为就像叔本华说的那样，生活必须向前看，但只有向后看才有意义。论文也只有向后看才有意义。写了一段时间后，你实际上会看看它，然后说，我真正想说的是思想链，

不是一个好主意，因为你真的想考虑提示增强，而人类参与循环变得不那么重要了。这就是我们所做的。然后我实际上要去这个复合系统的东西，玩得很开心。他们有 16000 人，你知道，

遇到很多老朋友等等。是的，上次采访中最精彩的时刻之一是你谈到那篇论文时说的，你知道，他们可以抓住，你可以教别人抓两条鱼、三条鱼或四条鱼。是的，是的，是的。是的，我的意思是，这基本上是因为它不太知道如何概括。所以我做了那件事，是的，本质上，

因为你必须为四字问题提供示例，再次为七字问题提供示例，再次为九字问题提供示例，等等，然后尝试改进它。而人们认为的观点是，当人们，当你这么说的时候，他们会说，哦，它一定是在进行程序泛化。有趣的是，再次，我认为我们上次也进行过这样的对话，我这样看待这个问题的方式是，我的意思是，我持怀疑态度只是……

因为有一些额外的背景。其中一件事是麦卡锡，约翰·麦卡锡，他是创始人，我的意思是，创造人工智能这个名字的人，基本上说人工智能的圣杯是一个建议接受者程序。

而接受建议是人工智能完备的。如果思想链能够让大型语言模型接受建议，那将是非常令人印象深刻的。我开始认为那里一定有漏洞。这就是一条鱼、两条鱼的事情的来源。但更有趣的是，我认为

将大型语言模型去拟人化，并试图将它们视为这些基本上是外星实体，对于这些实体来说，任意的提示增强可以产生良好的行为。顺便说一句，人们应该考虑的一个例子是，如果你考虑大型语言模型上的越狱，

越狱攻击是指你给出一个正常的提示，然后你给出这个特定精心构造的学习序列。你知道，Zico Coulter 的原始论文，他小组的原始论文表明，这个序列对人类来说毫无意义。但它会使大多数大型语言模型提供确定性的行为，例如说“明白了”之类的。从本质上讲，这应该告诉我们

它们没有理解语言，因此提示增强不需要对循环中的用户有意义，这没关系，因为在某种意义上，唯一对人类有意义的思维链条是给出了某种错误的印象，即大型语言模型以我们做事的方式做事，但事实并非如此，所以

不妨直接使用它们能够做的事情并进行优化，这似乎正是推理时间缩放和训练后方法正在做的。——是的，我卡住的一点是我们可以批评单个大型语言模型。我的意思是，是的，它们是近似的检索引擎，

我的联合主持人 Keith Duggar 总是费尽心思地从理论上指出它们并不完整。你知道，它们是有限状态自动机，所有这些东西。但问题是，当你谈论大型语言模型系统时，这一切都会崩溃。因此，即使使用思维链条，对吧，我也可以拥有另一个监督模型，它可以将提示泛化到五条鱼、六条鱼等等。因此，我们可以轻松构建克服所有这些批评的系统。所以在某种程度上，这是否仅仅看起来像，

我们提出的批评很容易……不，不，不。实际上，这是一个非常好的观点。事实上，在这之后，参加这个复合系统会议后，我完全相信整个方向。但有些人不想相信这一点。通常的大型语言模型爱好者不相信。事实上，顺便说一句，这是一件非常有趣的事情，OpenAI 费尽心思地指出 O1 预览是一个模型，而不是一个系统。

不是我和你说的。是他们说的。他们想说有一个万能模型可以做到这一点。因此，接受他们的说法是合理的。但与此同时，我也喜欢复合系统的工作。它使大型语言模型模块成为一个复合系统。这基本上改进了大型语言模型的所有局限性和大型语言模型的一组局限性。

我完全没问题。你知道，再说一次，只要我能保证，在安全关键场景中，我对此没问题，我就没问题。我没有这种偏见。但如果你说一个模型就能做到，我会相信你的话，然后看看这是否属实。在我看来，这是一件公平的事情。

你认为为什么谷歌完全接受混合系统？OpenAI，他们真的坚持这种万能的单一模型。我认为他们正在慢慢改变这一点，但我认为有一个原因，我认为，我的意思是，在某种程度上，我可以理解。从某种意义上说，这将是某种

又是拟人化。我们只有一个大脑。我们不是有一个大脑用于进食，一个大脑用于……只有一个大脑，对吧？因此，如果我们试图做的事情在某种程度上基本上是这个万能的、通用的系统，那就太好了。但与此同时，还存在无论我做什么，我都想提供保证以便它可以用于安全关键系统的问题。而且

所以问题是现代人工智能、神经科学和认知科学并非一回事，对吧？我的意思是，每个人都明白这一点。从本质上讲，神经网络本身并不是……

与大脑联系得很好，从本质上讲，它们就像生物学上不可信的，大型语言模型肯定不是，但这没什么错，就像我们说的那样，飞机不必拍打翅膀，所以这些是，但我们不会试图理解飞机和鸟类

在同一个句子中，因为它们都会飞，但除此之外，机制不同，飞行方程完全不一样。大型语言模型的情况也会更多。只要我们意识到这一点，那就好了。但我认为 OpenAI，我认为最初他们希望，我的感觉是，很多人希望我们只会得到

一石二鸟。我们将获得人工智能系统，并了解大脑的工作原理。但我真的不认为没有人真正相信，老实说。我的意思是，你可能会使用这些系统来提高我们实际上进行神经科学研究的理解。事实上，我认为，他叫什么名字？

Sung Kim，我认为，基本上说，显然这些系统有助于实际进行神经科学研究，但它们并没有真正告诉你大脑是如何工作的。所以这可能是，这只是一个推测，这可能解释了为什么，你知道，OpenAI 和一些坚持……的人，但我的意思是，我已经在会议的幕后进行的谈话……

公司、初创公司等，他们已经更多地转向这些混合系统，更多地转向这些复合系统，就像你知道的那样，这基本上不会是一个单一系统，但 OpenAI 也正在慢慢推出这些微调模型，他们有这个针对特定类型场景的强化学习微调内容等等，所以这将很有趣，但我认为回到你的最初想法

我认为复合系统非常不同，它们基本上是大型语言模型必须扮演的个体角色的要求要低得多。

事实上，一件有趣的事情是，我们可以用普通的大型语言模型或用 O1 代替大型语言模型进行大型语言模型模块，我称之为 O1。因此，候选人的生成成本更高。我们实际上在草莓论文中表明，即使我们无法改变思考所需的时间等，我们也可以进一步提高 O1 预览在某些问题上的性能。我们可以通过……

多次调用它，并对它给出的问题的答案进行正确的、更好的批评，我们可以显著提高它的性能准确性，这仍然是在系统中使用它们，你知道，大型语言推理模型本身可以在系统中使用，但我认为 OpenAI 本身只想称之为模型，直到现在，让我们看看会发生什么

Subbarao Kambhampati - Do o1 models search? 01:32:13 Share

Machine Learning Street Talk (MLST)

Deep Dive

Shownotes Transcript

Subbarao Kambhampati - Do o1 models search?