We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode O3 and the Next Leap in Reasoning with OpenAI’s Eric Mitchell and Brandon McKinzie

O3 and the Next Leap in Reasoning with OpenAI’s Eric Mitchell and Brandon McKinzie

2025/5/1
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive Transcript
People
B
Brandon McKinzie
E
Elad Gil
E
Eric Mitchell
Topics
Eric Mitchell: O3模型是OpenAI最新的O系列模型,它比之前的模型更聪明,能够给出更准确的答案。更重要的是,它能够使用各种工具来增强其能力,例如浏览网页、编写和执行代码等,从而处理更复杂的任务。这使得O3模型能够更好地理解和响应用户的需求,并提供更有效的解决方案。 我个人认为,工具的使用对于O3模型的测试时间缩放至关重要。它能够让模型更有效地利用计算资源,并获得更好的结果。在使用O3模型的过程中,我发现模型思考的时间越长,获得的结果就越好,这与之前的模型有很大的不同。 我认为,模型的统一性非常重要。我们希望用户能够更容易地使用模型,而不是在众多模型中进行选择。因此,我们将努力让模型的使用体验更加直观和便捷。 在未来,我希望模型能够更好地理解自身的不确定性,并根据需要花费相应的时间来给出答案。如果模型已经知道答案,它应该直接给出答案;如果需要花费时间来计算,它也应该能够准确地评估所需的时间。 我认为,模型应该更容易被用户控制和引导,特别是对于API使用场景,需要模型能够快速给出答案。模型应该能够根据用户的具体情况和要求做出正确的选择,即使这需要进行思考。 网络浏览是工具使用的一个重要应用场景,它能够帮助模型处理需要最新信息的任务。强化学习的目标需要根据预期用户和他们的需求进行调整。 我认为,模型在编码和研究方面具有很大的潜力,能够显著提高工作效率。未来模型与用户交互的方式将会更加直观和自然,例如通过语音或更直接的方式进行交互。模型使用工具的方式与人类非常相似,这可能是因为模型学习的数据中包含了大量人类行为的信息。 在大型环境中使用工具进行异步强化学习需要处理大量的基础设施问题,例如如何优雅地处理工具故障。 Brandon McKinzie: O3模型的训练与之前的模型不同,它使用了强化学习,目标是让模型解决更复杂的任务,并根据需要花费更多时间来找到答案。 工具的使用对于O3模型的测试时间缩放至关重要,它能够让模型更有效地利用计算资源,并获得更好的结果。在使用O3模型的过程中,我发现模型思考的时间越长,获得的结果就越好,这与之前的模型有很大的不同。 我认为,模型应该更容易被用户控制和引导,特别是对于API使用场景,需要模型能够快速给出答案。 工具的使用能够显著提高模型的测试时间缩放效果,特别是对于视觉推理任务。工具的使用能够提高模型的计算效率,例如,编写简单的程序来解决问题比让模型自己尝试要高效得多。 我认为,模型在编码和研究方面具有很大的潜力,能够显著提高工作效率。 模型不再是一个封闭的系统,它可以根据需要寻求外部信息来解决问题。 反复发送相同的提示可以帮助用户了解模型的输出分布,从而更好地利用模型。 发送一些超出预期能力的提示可以帮助用户更好地了解模型的能力边界,并发现模型的惊喜之处。

Deep Dive

Shownotes Transcript

哦,老天。

嗨,各位听众,欢迎回到《No Priors》。今天,我和布兰登·麦肯齐和埃里克·米切尔两位交谈,他们是OpenAI的O3模型背后的两位核心人物。O3是OpenAI推理模型系列的最新成果,功能强大,能够找出要使用的工具,然后在多步骤任务中使用它们。我们将讨论它的制作方法、未来的发展方向以及如何思考推理问题。布兰登和埃里克,欢迎来到《No Priors》。感谢你们的邀请。是的,感谢你们的邀请。你们能否带我们了解一下O3,它与众不同之处是什么,

它在突破方面取得了什么成就,例如,它专注于推理,并添加了内存和其他功能,而不是这个核心基础模型LLM,以及它是什么。所以O3就像我们这个O系列模型中最新发布的模型,它专注于在回应之前仔细思考。而且

这些模型在某种模糊的普遍意义上比那些不加思考就回应的模型更聪明,就像人类一样。如果你在回应之前先思考一下,更容易做到准确。我认为O3真正令人兴奋之处在于,它不仅比我们之前的O系列模型更聪明,如果你进行苹果与苹果的比较,你会发现,

它在给出数学题或关于世界的事实问题的正确答案方面更好。这是真的,而且很棒。而且,我们知道,我们会,

继续训练更聪明的模型。但它也很酷,因为它使用了许多工具来增强其完成对你有用事情的能力。所以是的,你可以训练一个非常聪明的模型,但如果它不能浏览网页并获取最新的信息,那么这个模型所能完成的有用事情就会受到限制。如果模型实际上无法编写和执行代码,那么LLM能够高效完成的事情类型就会受到限制。而像,

一个相对简单的Python程序可以很容易地解决一个特定的问题。因此,该模型本身不仅比我们之前的O系列模型更聪明,这很好,而且它还能够使用所有这些进一步增强其能力的工具,无论是进行

关于你想要最新信息的研究,还是你想要模型为你进行一些数据分析,或者你想要模型能够进行数据分析,然后根据需要调整方向,而不是你必须对沿途的每个步骤都进行规定,该模型能够接受这些高级请求,例如对这家公司进行尽职调查,并

知道,也许对某事运行一些合理的预测模型。然后,知道,为我写一份总结,模型会自行推断出一套合理的行动方案。因此,它为你提供了一种更高级的界面来完成一些更复杂的任务。这说得通。所以听起来基本上在你的核心GPT模型之间有一些不同的变化,现在你有了能够停下来思考一些东西的东西。所以它的推理时间,

有更多的计算发生,而且它可以执行顺序步骤,因为它们可以推断出这些步骤是什么,然后对其进行操作。与仅仅是核心基础模型相比,或者当你们做了GPT 2.5和4以及所有随着时间推移而出现的各种模型时,你们是如何不同地构建或训练这个模型的,

在你们实际构建这些模型方面有什么不同?我想简短的答案是强化学习是最重要的一个。所以是的,与其仅仅是预测大型预训练语料库中某个地方的下一个标记,现在我们的目标更集中于让模型解决非常困难的任务,并尽可能多地花时间来找出这些问题的答案。对我来说,从用户体验的角度来看,有点神奇的是,过去对于我们的推理模型,我们谈论了很多关于测试时间缩放的问题。我认为对于很多问题,你知道,如果没有工具,测试时间缩放可能会

偶尔有效,但在某些时候,模型只是在其内部思维链中胡言乱语,特别是对于一些视觉感知问题,它知道它无法看到它需要的东西,它只是有点像失去理智,变得疯狂,我认为

工具的使用现在是继续这种测试时间缩放的一个非常重要的组成部分。当你与O3交谈时,你可以感受到这一点,至少在我第一次开始使用它时,我的印象是,它思考的时间越长,我越觉得我会得到更好的结果,你可以看到它做一些非常直观的事情。这是一种非常不同的体验,但能够相信,当你等待的时候,这是值得等待的,你会因为等待而得到更好的结果,而模型并没有做一些,你知道,完全无关的事情。这很酷。

我认为在你们最初关于这篇文章中,你们也有一张图表,基本上显示了你们观察了它思考的时间与结果的准确性之间的关系。这是一种非常好的关系。所以很明显,你知道,更深入地思考某件事真的很重要。而且似乎,嗯,

从长远来看,你认为是否会存在一个世界,在这个世界里,我们将拥有某种分裂或分歧,即一些模型速度快、成本低、效率高,可以完成某些基本任务;而另一种模型,你可以上传一个法律并购文件夹,它需要花一天时间来思考。它速度慢且昂贵,但它产生的输出需要一个团队的人员。

你知道,一个月才能完成?或者你怎么看待这个世界的演变或发展方向?你知道,我认为对我们来说,模型的统一是萨姆公开谈论过的事情,你知道,我们在ChatGPT中有一个大型疯狂的模型切换器,有很多选择。而且,你知道,我们有……

一个可能擅长用户可能想要做的任何特定事情的模型,但如果用户不容易弄清楚应该为该任务使用哪个模型,那就不太有帮助。因此,是的,让模型更好地能够,你知道,让这种体验更直观绝对是……

有价值的,也是我们感兴趣的事情。这适用于这个问题,即我们是否会有两个模型供人们选择,或者有无数个模型供人们选择?或者我们将这个决定放在模型内部?我认为每个人都会尝试一些东西,并找出对他们感兴趣的问题和他们拥有的用户来说什么有效。但是是的,我的意思是,那

所以如何使这种决策尽可能有效、准确、直观的问题绝对是我们的首要任务。从研究的角度来看,将推理与预训练结合起来或试图更好地控制这一点是否有原因?因为如果你只是从最终消费者处理ChatGPT的产品角度来考虑。

你知道,我们不会在这里讨论命名废话,但他们不在乎。他们只是想要正确的答案,以及在尽可能短的时间内获得所需智力的数量,对吧?理想的情况是,它像直观一样,你应该等待多长时间?你应该等待模型给出正确答案所需的时间。我希望我们能够达到一个阶段,我们的模型能够更精确地理解自身的不确定性水平。是的。

因为,你知道,如果他们已经知道答案,他们应该直接告诉你。如果他们需要花一天时间才能弄清楚,那么他们就应该花一天时间。但你应该始终有一种感觉,即它花费的时间正好是当前模型智能所需的时间,

我觉得我们正朝着正确的方向前进。是的,我想知道是否在最终用户产品和开发人员产品之间存在分歧,对吧?因为有很多公司使用所有这些不同模型的API,然后用于非常具体的任务。然后在其中一些任务中,他们甚至可能会使用像,

开源模型,具有非常便宜的推理,以及他们可以更好地控制的东西。我希望你可以直接告诉模型,嘿,这是一个API用例。是的,你真的不能在那里思考10分钟,我们必须给用户一个答案。如果他们的模型也能变得更易于控制,那就太好了。是的,我认为这只是一个普遍的可控性问题。归根结底,如果模型很聪明,你应该能够指定

问题的上下文,模型应该做正确的事情。会有一些限制,因为也许仅仅是根据你的情况找出正确的事情可能需要思考本身才能弄清楚。这并不是说你显然可以做到完美,但是将所有这些正确的部分推入模型以简化用户的工作是……

似乎是一个非常好的目标。我可以回到你之前说过的话吗?例如,我们在这个播客上邀请的第一位嘉宾实际上是诺姆·布朗。哦,不错。我听说过他。两年前。是的,你好,诺姆。我希望你们能给我们一些直觉,说明为什么工具的使用有助于测试时间缩放工作得更好。我可以为视觉推理方面提供一些非常具体的案例。这

呃,有很多案例,呃,回到我们身上,模型也能够估计自身的不确定性,你会给它一些关于图像的问题,模型会非常透明地告诉你一个问题。我认为,我不知道,我,我不知道,我不能很好地看到你正在谈论的东西。或者像,呃,它几乎知道它的视觉不太好。而且,呃,

但神奇的是,当你赋予它访问工具的权限时,它就像,好吧,我必须弄清楚一些事情。让我们看看我是否可以操纵图像或在此处裁剪等等。这意味着在它这样做的时候,它对标记的利用效率要高得多。因此,你的测试时间缩放斜率从类似这样的东西变成了更深、更快的斜率。

我们已经看到了这一点。没有工具使用和使用工具的视觉推理的测试时间缩放斜率非常明显地不同。是的,我想说的是,对于编写代码来说,LLM可以尝试自己弄清楚很多事情,但这需要很多……

尝试和自我验证,你可以编写一个非常简单的程序来以可验证且更快的速度完成。所以,你知道,我对这家公司做一些研究,并使用这种类型的,你知道,估值模型来告诉我,你知道,估值应该是多少。

你可以让模型尝试处理这个问题并拟合这些系数或其他任何东西,或者你可以让它直接编写代码来正确地完成它,并知道实际的答案是什么。所以,是的,我认为这部分原因是你可以更有效地分配计算资源,因为你可以将模型没有比较优势的事情推迟到非常适合做这件事的工具上。我一直在使用的一种方法

某种形式的O3很多是深度研究,对吧?我认为这基本上是一个你们构建的研究分析师AI,它基本上会出去,会在网上查找东西,会综合信息,会为你制作图表。就其能力集而言,它非常令人惊叹。为了让它在这一点上或你们针对它构建的其他方面做得更好,你们是否必须在任何形式的特定强化学习方面做任何特别的事情?或者你们是如何考虑的

它的数据训练,用于训练它的数据。我只是很好奇,如果它完全是这个的衍生产品,你们是如何考虑专门构建这个产品的,以及你们是如何将其作为这项更广泛努力的一部分来考虑的。我认为当我们考虑工具使用时,我认为浏览是最自然的地方之一

你认为是起点,好吧,这并不总是容易的。我的意思是,几年前我们在GPT-4中包含的最初浏览很难以一种感觉可靠和有用的方式使其工作。但在这种现代的,这些天,

两年前是古代历史。嗯,我认为这感觉像是一个自然的起点,因为它对如此广泛的查询类型都适用,例如任何需要最新信息的东西,例如它应该有助于浏览。因此,嗯,就测试平台而言,嘿,像,你知道,我们正在做的RL,像,它真的有效吗?或者,你知道,我们真的能让模型学习像,呃,

更长的时间范围,例如有意义的扩展行为,它感觉像是一个自然的起点,因为它,你知道,也相当有可能在相对较短的时间内变得有用,所以它就像,是的,让我们尝试一下,我的意思是,你知道,在RL中,归根结底,你是在定义一个目标,而且,如果你对像

谁会发现这个最有用?例如,你知道,你可能想调整你的目标,你知道,你期望谁使用这个东西,你期望他们想要什么,你知道,他们的容忍度是多少

他们是否想花30分钟的时间来进行深度研究?当他们请求报告时,他们想要一页、五页还是无数页?所以是的,我的意思是,你肯定想根据你认为会使用它的人来调整事情。我觉得有很多几乎是白领行为工作或知识工作,你们通过这种工具正在真正捕捉到这些工作,并且你们提到了软件工程作为一个潜在的领域。

深度研究和某种分析工作是另一个领域,在这个领域里,有很多非常有趣的工作要做,这些工作对于增强人们正在做的事情非常有帮助。除了OpenAI正在做的事情之外,你认为还有哪些其他两三个领域是近期最有趣的应用领域?我只是很好奇你如何看待这种技术的重大应用领域。我想我的非常偏颇的观点

我感到兴奋的一个领域是编码,以及一般意义上的研究,能够改进我们在OpenAI以及其他人使用我们的工具时进行研究的速度。我认为我们的模型正在变得越来越好,速度非常快,而且它们似乎正在达到某种拐点,在这个拐点上,

它们足够有用,值得每天多次使用,至少对我来说是这样,而以前情况并非如此。它们总是落后于我想要它们成为的样子,尤其是在导航和使用我们的内部代码库方面,这

并不简单。看到最近的模型实际上花费大量时间试图理解我们问它们的问题,并给出为我节省了大量时间的答案,这真是太神奇了。人们说这是最快的潜在引导,对吧?就每个模型随后帮助使下一个模型更好、更快和

更便宜等等而言。因此,人们经常争论说,这几乎是通往超级智能的指数上的一个拐点,这基本上是使用

AI来构建下一代AI的能力。而且研究还有很多不同的组成部分。这不仅仅是坐在象牙塔里思考问题,还有硬件、训练和评估的各个组成部分等等。这些都可以转化为可以优化和迭代的某种任务。因此,有很多空间可以挤出改进。我们谈到了浏览网页。

编写代码,可以说是所有工具中最伟大的工具,对吧?特别是如果你试图弄清楚如何花费你的计算资源,对吧?更高效的代码。生成图像,编写文本。当然有一些行动轨迹我认为还没有在那里,对吧?

对。像可靠地使用一系列业务软件。我对计算机使用方面的东西非常兴奋。从某种意义上说,我们的模型还没有整天在我的电脑上观察我的行为,这让我有点抓狂。我知道这对某些人来说可能很令人毛骨悚然。而且,我认为你应该能够选择退出,或者默认情况下选择退出。我也讨厌打字。我希望我能够像这样在电脑上处理一些事情。我遇到了一些问题,我只是想,你知道,我应该如何处理这个问题?我可以直接问。

我认为在改进我们与模型交互的方式方面还有很大的空间。这回到了他们能够以更直观的方式使用工具。我想使用更接近我们使用方式的工具

我们的模型使用我们赋予它们的工具的方式也让我感到惊讶。这有点像人类一样,但我猜这并不奇怪,因为它们之前见过这些数据。但是是的。我认为很多事情都非常像人类。像我对工具使用对测试时间缩放的影响的直觉一样。为什么这种组合会好得多?拿任何,任何,

任何角色,当你试图在任务上取得进展时,你可以做出决定,例如,我是否获得外部验证,或者我是否认真思考?对。通常你想要做一件事,或者比另一件事更有效。这并不总是仅仅坐在真空中认真思考你所知道的事情。是的,绝对的。你可以寻求某种新的输入,它不再必须是这个封闭的系统了。而且我确实觉得模型的封闭性在某种程度上仍然是一种限制。就像你不是你

你并不一定像这样转动它。我的意思是,我认为如果模型能够控制我的电脑,那将是很棒的。但在某种意义上,我们不放纵地说,哦,是的,这是王国的钥匙,尽情享受吧,是有原因的。仍然存在,你知道,对你可以节省的时间和你可以犯的错误类型的不对称成本。因此,我们试图像迭代地,你知道,部署这些东西,并像尝试它们,并找出像,

它们在哪里可靠,你知道,它们在哪里不可靠,因为是的,如果你只是让模型控制你的电脑,它可以做一些很酷的事情,我毫不怀疑,但是你知道,我是否相信它会回复布兰登发送给我的所有,你知道,随机邮件,实际上也许对于这项任务来说,它不需要那么高的智力,但你知道这是真的,像

我是否相信它会做我正在做的一切?有些事情。我相信明天这套事情会比昨天多。但是是的,我认为这部分原因是我们限制了可供性

并将其保留在像沙盒中,仅仅是为了谨慎起见,这样,你知道,你不会向你的老板发送一些疯狂的电子邮件,或者,你知道,删除你所有的文本或删除你的硬盘驱动器或其他什么东西。是否存在某种,像,组织性的思维模型,像,可以用……

你知道,越来越高的智力、测试时间缩放和改进的工具使用,对吧?因为我看着这些,我想,好吧,你有任务的复杂性,你有时间尺度。然后你有了像提出这些RL奖励和环境的能力,对吧?然后你有了像有用性。也许你有一些,当然,你有一些关于像多样性和不同事情的泛化的直觉,你可以做,但是

它似乎是一个非常大的空间,并且扩展我们的新一代RL并不是,这对我来说并不明显。对我来说,我不清楚你如何做到这一点,或者你如何选择路径。你们是否有一些组织框架可以分享?我的意思是,我不知道是否存在一个组织框架。我认为至少有一些因素是我在非常非常宏大的计划中考虑的,例如,

为了解决这项任务,像,我必须与多少环境不确定性作斗争?像,对于一些事情,它就像,这是一个纯粹的脂肪,像,美国的第一任总统是谁?像,零,像,

我需要与之互动才能正确地找到这个问题的答案。我只需要记住答案并说出答案。你知道,如果我想让你编写一些代码,你知道,像解决某个问题。好吧,现在我必须处理一些像

不是纯粹的内部模型的东西,而是像,好吧,我需要执行代码。而且像代码执行环境可能比我的模型能够在内部记住的更复杂。所以我必须做一些像编写代码,然后执行它,并确保它按照我的想法去做,然后测试它,然后将其提供给用户。事情变得像你必须处理的模型外部的东西越多,这些实验的结果就越不确定。从某种意义上说,这就像,像,

使任务变得困难的核心属性之一。嗯,我认为另一个是像,你知道,它们的可模拟性,嗯,像那些真正受时间瓶颈限制的东西,像物理世界,嗯,也,你知道,只是,只是比我们能够很好地模拟的东西更难。你知道,这并非巧合,你知道,这么多人都对编码感兴趣,你知道,编码代理和类似的东西。嗯,

而且像,你知道,机器人技术很难,而且,你知道,它很慢。而且,你知道,我曾经从事机器人技术工作,而且在很多方面都令人沮丧。我认为这两种情况,像你必须处理多少外部环境?然后像,你必须与现实世界不可避免的缓慢性作斗争多少,是我考虑的两个维度。这非常有趣,因为如果你回顾历史上的一些模型,你

我认为一直令人印象深刻的一件事是它们在很大程度上是可泛化的。所以我认为当GitHub Copilot发布时,它是在Codex上,Codex是一个专门的代码模型。然后最终这就被纳入到更多通用的模型中,就很多人实际上用于编码相关应用程序而言。你如何在机器人技术等情境下考虑这个问题?所以,你知道,现在可能有十几家不同的机器人基础模型公司。

你认为最终这是否会合并到你正在做的工作中,即只有一些大型通用模型可以做各种事情?或者你认为这些独立的其他类型的模型随着时间的推移还有很大的发展空间?我要说的是,一直让我觉得有点好笑的一件事是我们做RL,而我们还没有在机器人技术的规范RL任务上做RL。我个人没有看到任何理由为什么我们不能让这些成为同一个模型。

我认为在某些方面存在一些挑战,例如,我不知道,你是否希望你的RL模型能够为你原生生成一个小时长的电影,而不是像工具调用?像,这就是在拥有像所有东西都在同一组权重中时可能很棘手的地方,但是……

当然,像你看到的O3在探索图片等方面已经做的事情,有点像亚洲人探索外部环境的早期迹象。所以我认为这对我来说并不牵强。是的,我的意思是,我认为我之前提到的关于每单位成本的智力的事情,你知道,现实世界是一个有趣的试金石,因为归根结底,像

现实世界中存在一个你必须生存的帧率。如果你在思考两分钟后得到正确的答案并不重要,就像,你知道,球现在朝你飞来,你必须接住它。重力不会等你。所以这是一个额外的约束,当我们谈论这些纯粹的非实体事物时,我们至少可以软性地忽略它。但这很有趣,因为非常小的脑容量在这方面非常擅长。

你知道,你观察青蛙,你开始观察不同的生物,你观察相对的计算能力。是的。而且,你知道,非常简单的系统在这方面非常擅长。蚂蚁,你知道,像所以我认为这是一个关于什么才是完成这些对现实世界反应合理的任务实际上所需的基本能力的问题。是的。

和自然。视觉方面也很棘手。因此,我们的模型在某些方面,我认为,可能有一些著名的边缘案例,它们没有做正确的事情。我想埃里克可能知道我要说什么。我不知道你是否曾经要求我们的模型告诉你钟表上的时间。

他们非常喜欢10:10的时间。是的。——这也是我最喜欢的时间。所以我通常是这么告诉人们的。——互联网上超过90%的时钟都是10:10。这是因为它看起来像,我想就像一张笑脸,看起来很漂亮。但无论如何,我想说的是,我们的视觉系统是通过与外部世界互动而发展起来的,它必须擅长于导航事物、躲避捕食者等等。

我们的模型以一种非常不同的方式学习了视觉。我认为,如果我们能让它们通过在现实世界中采取行动来减少不确定性,从而闭环,我们将看到很多非常有趣的事情,而不是仅仅思考事情。嘿,埃里克,你提到了关于……

环境中可以模拟什么,对吧?作为一种输入,就像,改进这个有多难?当你处理长期运行的任务时,比如我们以软件工程为例,比如,

有很多互动不仅仅是我不断地提交代码。就像,我要和其他人讨论这个项目,在这种情况下,你就要处理这样的问题:你能合理地模拟其他人将如何在这个环境中与你互动吗?这似乎非常棘手,对吧?我不是说,你知道,O3或任何现有的基础模型现在都没有足够的智力来

做出合理的回应。但是,你怎么看待这种模拟对现实的真实性,对现实世界的真实性,当你理论上让环境中的人类参与进来时?我的辛辣的,我想,看法是,我没有辛辣的,但在某种意义上,O3已经模拟了单个人使用浏览器或类似东西的情况。我不知道,把两个训练在一起。

这样你就有两个人互相互动。没有理由你不能扩大规模,让模型训练得非常擅长彼此合作。我的意思是,关于多智能体强化学习已经有很多现有的文献。是的,如果你想让模型擅长像与很多人合作这样的事情,也许一个不错的起点是让它擅长与其他模型合作。伙计,有人应该这么做。是的,是的。我们真的应该开始考虑这个问题,埃里克。

我认为是的。我认为这有点辛辣,因为,是的,这项工作正在进行中。听到你认为这是一个有用的方向很有趣。我认为很多人仍然愿意相信,不是我,我的评论在这个拉取请求上特别好,或者其他什么。对。

好的,我能理解这一点。有时我看到我们的模型在训练,我想,哦,你在做什么?你知道,你花了很长时间才弄明白这一点。而我实际上认为,如果你能够以交互的方式训练模型,那将会非常有趣。你知道,忘记测试时间吧,但我认为让它们学习做这样的事情会非常棒。能够在有意义的时候进行干预。是的,只是我更多地能够告诉模型停止,就像在其思维链的中间……

它能够动态地从中学习,我认为这将是很棒的。是的,我认为这是这两件事的交集,它既是与外部环境的接触点,这可能是非常不确定的,比如人类在某些情况下可能是非常不可预测的。它也受到现实世界时间刻度的限制。如果你想,你知道,处理实际的人类,比如人类有一个固定的,你知道,他们头脑中的时钟

周期。

所以,是的,我的意思是,如果你,你知道,如果你想在字面上这样做,这是很难的。所以,你知道,扩大规模,你知道,让它运作良好,你知道,这并不是显而易见的。是的,我们是一个超级昂贵的工具调用。你知道,如果你是一个模型,你可以问我,你知道,这里的人肉来,你知道,帮忙解决一些事情。我会尽量慢慢地思考。与此同时,它可以使用浏览器并阅读关于这个主题的100篇论文之类的东西。所以它是如何模拟那里的权衡呢?

但人类的部分很重要。我的意思是,我认为在任何研究项目中,我和布兰登的互动都是项目中最难的部分。你知道,写代码是容易的部分。嗯,而且自动驾驶也有一些类似之处。很多人会说,你知道,每周都和我一起玩是做这个播客最难的部分。但这是我最喜欢的部分。看看他们的关系有多健康,埃里克。我们需要向他们学习。不,我们是诚实的。没关系。我们必须克服它。好的。

在自动驾驶中,一个经典的难题是预测人类、儿童和狗,就像环境中的代理一样,而不是环境本身。所以我认为在那里可以画一些类比。回到如何从这里推进O系列模型,是?

呃,一些人认为模型的能力可能会以更尖锐的方式发展,这是一个合理的评估吗?因为你在某种程度上更依赖于研究团队的创造力,以及创建这些环境和决定如何创建这些评估,而不是我们正在扩展现有的数据集

在预训练中。这是一个公平的对比吗?更尖锐,比如,这里的情节是什么?什么是,比如,x轴和y?领域是x轴,y是能力?是的,因为你,比如,选择你……

正在创建这个强化学习循环的领域?我的意思是,我认为这是一个非常合理的假设。我认为有一些反证,我认为应该,你知道,纳入人们的直觉。比如,你知道,萨姆发推文举了一个我们模型的一些创意写作的例子,我认为是

我不是专家,我不会说这是,你知道,可发表的或具有突破性的,但我认为它可能更新了一些人对,你知道,你可以训练一个模型做得非常好的直觉。所以,

我认为有一些结构性原因会导致一些尖锐性,因为作为一个组织,你必须决定,嘿,我们将优先考虑,你知道,X、Y、Z之类的东西。随着模型变得更好,你可以用它们做的事情的表面积增长速度快于,你知道,你可能说,嘿,这是利基,你知道,我们将开辟,我们将努力做到这一点。所以,我认为有一些尖锐性的原因,但我认为有些人会

可能对此走得太远,说,哦,是的,这些模型只会擅长数学和代码,而不会,你知道,其他所有东西都像,你不能在它们方面变得更好。而我,我认为这可能不是正确的直觉。是的。我认为,

现在所有主要的AI实验室都有一些分区,让我们定义一些我们希望我们的模型擅长的数据分布,然后向它们投入数据。然后,这些公司中的另一组人可能正在考虑如何通过一些算法更改来同时提升所有船只。我认为,是的,我们在OpenAI肯定同时开展了这两种类型的努力,我们

我认为,尤其是在数据方面,我们拥有的某些数据比其他数据要多得多。但理想情况下,是的,我们有很多努力不会如此依赖于我们进行强化学习的确切数据子集,它将更好地泛化。我每周都会接到电话,我相信很多人也是如此,一家公司想要以某种方式为实验室生成数据。

或者,你知道,访问人类专家或其他什么,但是,你知道,这有无限的变化。如果你可以挥舞魔杖,拥有一个完美的数据集,那么你知道什么会提升今天的模型质量吗?这是一个回避,但就像未受污染的评估一样,总是非常有价值的。这就是数据。我的意思是,是的,就像你想要,你知道,

训练数据,这当然对于使模型更好是有价值的,但我认为人们经常忽略的是,高质量数据也同样重要,当涉及到评估时,高质量数据的定义是不同的,但是是的,评估方面经常同样重要,因为你不需要

你需要衡量事物。而且,正如你所知,从,你知道,试图雇佣人或其他什么,评估一个通用、有能力的代理的能力,在严格的,你知道,方式下是非常困难的。所以是的,我认为评估有点被低估了。但这是真的。评估是,我的意思是,这是真的。

尤其是一些我们最近的模型,我们已经有点缺乏可靠的评估来跟踪,因为它们已经解决了其中的一些。但在训练方面,我认为拥有处于模型能力下一前沿的训练数据总是很有价值的。我的意思是,我认为O3和O4 Mini已经能够做到的很多事情,这些类型的任务,比如基本的工具使用,我们可能不会。

你知道,非常需要这样的新数据。但我认为很难拒绝这样一个数据集,它是一堆多轮用户交互和一个百万行代码的代码库,你知道,

这是一个为期两周的研究任务,比如向其中添加一些新功能,这需要多个拉取请求。我的意思是,我的意思是像一些超级高质量的东西,并且有大量的监督信号供我们学习。是的,我认为拥有这些将会很棒,你知道,我绝对不会拒绝。你一直都在玩模型。我假设比普通人类多得多。你对推理模型做了什么,你认为其他人做得还不够?向模型发送相同的提示很多很多次。

并获得对您可以获得的响应分布的直觉。我看到,当人们在Twitter或其他地方进行这些比较时,这让我非常抓狂,他们说,哦,我把相同的提示输入到bla bla和bla bla中,这个更好。就像,伙计,你就像,我的意思是,这是我们讨论过的一些事情,

当我们发布时,就像,是的,O3可以做非常酷的事情。就像当它将许多工具调用链接在一起时,然后有时对于相同的提示,它不会有那种,你知道,神奇的时刻,或者它会,你知道,只是做一点,它会为你做更少的工作。所以,是的,像峰值性能真的很令人印象深刻,但是行为的分布是存在的。我认为人们常常没有意识到,当你输入相同的提示时,结果的分布是存在的,并且获得关于这一点的直觉是有用的。

因此,作为一个最终用户,我会这样做,我也会向你们在产品组织的朋友提出一个功能请求。我会问奥利弗或其他什么人,但这只是我——

想要一个按钮,假设我的速率限制或其他支持它,我希望每次自动运行提示100次,即使它非常昂贵,然后我希望模型对它们进行排名,只给我一两个有趣的,并让它变得昂贵,或者跨越它进行综合,对吧,你也可以综合输出,看看是否有一些,尽管你可能在某种意义上相对于该分布回归平均值,或者其他什么,但这似乎很有趣,是的

也许你们没有给我们这个按钮是有很好的基础设施原因的。嗯,这很贵,但我认为这是一个很好的建议。是的,我认为这是一个很好的建议。你愿意为此支付多少钱?很多,但我是一个对价格不敏感的AI用户。我明白了。完美的。这些都是我们最喜欢的。也许我们有很多这样的用户。你应该让萨拉·蒂尔成为你的等级之一。没错。没错。我真的很喜欢……

向我们的模型发送一些在我预期它们能够做到的事情边缘的提示,只是为了好玩。很多时候,在我即将完成一些编程任务之前,

我会要求模型去看看它们是否能够弄清楚。很多时候,根本没有希望它能够做到。事实上,有时它会回来,我只是很像,我就像一个失望的父亲,但有时它做到了。这太神奇了。它为我节省了大量时间。所以我几乎把我们的模型用作后台工作队列,我只是,我会向它们发送任务。有时这些会,这些会成功,有时不会,但在任何情况下,如果发生好事,那总是好的结果。

这很酷。是的,我这样做只是为了让我自己感觉更好,当它不起作用时。我仍然在提供价值。当它起作用时,我对自己感觉更糟。所以它非常反复无常。是的。在如何训练、强化学习或有效地生成这些模型方面存在一些差异。在方法方面,在你们如何处理它方面,有哪些差异?

该系列模型与过去在OpenAI中完成的其他工作相比?工具方面非常,在大型规模设置中工作是一次相当的体验。所以你可以想象,如果你正在使用一堆工具进行异步强化学习,那么你只是在向你的基础设施添加越来越多的故障点。当你遇到明显失败的事情时,你会做什么,这是一个非常有趣的问题,就像工程问题,也是一个强化学习,就像机器学习问题一样,因为,你知道,如果你,我不知道

我不知道你是否

Python工具,它在运行过程中崩溃了。你做什么?你停止运行吗?可能不会。对于这么多的计算来说,这可能不是最明智的事情。所以问题是,你如何优雅地处理这个问题,并且不会无意中损害模型的能力?因此,在如何处理异步强化学习的巨大基础设施方面,有很多这样的经验教训。强化学习很难。这太棒了,伙计们。谢谢。是的,非常感谢你们来。是的,谢谢。很有趣。感谢你们的邀请。

在Twitter上找到我们@NoPriorsPod。如果你想看到我们的脸,请订阅我们的YouTube频道。在Apple Podcasts、Spotify或你收听的任何地方关注该节目。这样你每周都会收到一集新剧集。并在no-priors.com上注册电子邮件或查找每集的文字记录。