We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 64: GPT 4.1 Lead at OpenAI Michelle Pokrass: RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today

2025/5/8

Unsupervised Learning

AI Deep Dive Transcript

People

Michelle Pokrass

Topics

Michelle Pokrass: 我领导了 OpenAI 的 GPT-4.1 模型的后训练工作，该模型的重点是提升开发者的使用体验，而非仅仅追求基准测试分数。我们收集了大量的用户反馈，并将其转化为可用于模型训练的评估指标。在开发过程中，我们特别关注指令遵循和长文本上下文处理能力。模型评估指标的有效期大约为三个月，因为模型进步速度很快，我们需要持续收集新的评估数据。当前的 AI 智能体在范围明确的领域表现出色，但在处理模糊和复杂的问题时仍面临挑战。我们正在努力改进模型在处理长文本上下文、遵循复杂指令以及应对模糊情况的能力。在代码生成方面，GPT-4.1 在局部范围内表现出色，但在需要全局上下文和复杂推理的场景下仍有不足。我们正在努力改进模型的全局理解能力，并使其生成的代码更符合代码规范。我们推出了强化学习微调 (RFT)，这是一种数据效率极高的微调方法，尤其适用于拥有独特数据的深度科技领域。RFT 可以帮助突破模型能力的边界。选择合适的微调方法取决于具体需求：对于风格调整，建议使用偏好微调；对于简单错误修正，可以使用监督式微调；对于突破能力边界，则应使用强化学习微调。未来，OpenAI 的模型家族将朝着更通用化的方向发展，目标是减少模型数量，简化产品选择。我们正在努力将不同模型的能力整合到一个模型中，并在保持其在不同任务上的出色表现的同时，提升其在不同任务间的平衡性。模型的个性化将通过增强记忆和可控性来实现，用户将能够根据自己的偏好调整模型的个性。我们正在积极探索利用模型来改进模型，特别是利用模型信号来判断模型是否在正确的方向上。我们也在努力提高模型迭代的速度，以便能够更快地进行实验和研究。 Jacob Efron: 作为访谈的主持人，我与 Michelle Pokrass 进行了深入的探讨，涵盖了 GPT-4.1 的开发过程、模型评估方法、AI 智能体的现状、代码生成能力的提升以及未来模型的发展方向等多个方面。我特别关注了模型在实际应用中的表现，以及如何帮助公司利用 AI 技术取得成功。 Patrick Chase, Erica Brescia, Jordan Segall: 作为联合主持人，我们与 Michelle Pokrass 就 AI 领域的一些热点问题进行了简短的讨论，例如模型的过高和过低估计、以及未来模型的发展趋势等。

Deep Dive

Shownotes Transcript

Michelle Pokras 是 GPT 4.1 和 OpenAI 背后的关键人物之一。作为后期训练研究负责人，她在使这些模型更适合开发者方面发挥了至关重要的作用。我是 Jacob Efron，今天在《无监督学习》中，我们深入探讨了 GPT 4.1 及更多内容。我和 Michelle 谈话我最喜欢的部分包括代理的当前和未来状态，以及未来的模型是否会针对不同的群体而专门构建。我们讨论了 RFT 及其对构建者的意义，以及弄清楚模型即将实现的目标与遥远未来的目标的策略。

我们还讨论了公司如何在快速发展的 AI 领域取得成功，以及哪些类型的创始人将在应用层获胜。最后，我们谈到了 OpenAI 代理产品的未来发展方向。这是一集很棒的节目，采访对象正在帮助定义尖端技术。在我们开始节目之前，我只有一个请求。如果您在 Spotify 或 Apple Podcasts 上收听本节目，请考虑为本节目评分。评分有助于我们发展壮大，这有助于我们继续邀请最优秀的嘉宾并保持对话的持续进行。现在，让我们听听 Michelle Prokras 的发言。Michelle Prokras

Michelle，非常感谢你来到播客节目。非常感谢。是的，感谢你的邀请。我很高兴来到这里。是的，我今天很高兴和你一起探讨关于 GPT-4.1 的许多不同方面。你提到该模型更侧重于现实世界的使用和效用，而不是基准测试。我觉得这在 Twitter 的讨论以及人们试用该模型的过程中确实引起了共鸣。你们在实践中是如何做到这一点的？是的，这是一个很好的问题。

该模型的真正目标是为开发者提供一种令人愉悦的使用体验。通常情况下，我们并不是唯一这么做的，但有时你会针对基准测试优化模型，它看起来非常好，但当你实际尝试使用它时，你会遇到一些基本问题，例如，它没有遵循我的指令，或者格式很奇怪，或者上下文太短而无法使用。对于这个模型，我们真正关注的是开发者一直在告诉我们的他们想要什么

以及我们如何重现这种反馈？

因此，很多重点都放在与用户沟通、获取他们的反馈，然后将其转化为我们可以在研究过程中实际使用的评估指标。我想说的是，在我们开始模型训练之前，有一段相当长的准备阶段。我们只是在整理评估指标，并了解我们模型中最大的问题实际上在哪里。因此，我们实际上在博客文章中提到了这一点，但我们有一个内部指令遵循评估指标。它基于真实的 API 使用情况。它基于人们告诉我们的内容。

这可以说是开发此模型时的目标之一。是的，我很感兴趣，因为我听说你谈到了选择评估指标的想法，基本上是去创业公司和在 API 之上构建产品的公司，并询问模型无法做的事情？让我们尝试在这个方向上努力改进。你们是如何确定哪些评估指标很重要的？我相信每个人都会选择 15 件他们希望你优化的东西。你们是如何确定哪些评估指标很重要的？在构建此模型的过程中，你们有什么经验教训吗？是的，是的。

我会说这实际上更像是相反的问题。他们不会来找我们说：“哦，我有这 100 个评估指标。请修复所有这些。”他们更像是说：“啊，在这个用例中有点奇怪”，然后我们必须像，“你这是什么意思？”我们，就像，你知道……

开始一些提示并弄清楚。所以我会说很多前期工作就像与用户交谈并真正提取关键见解一样。我最近从与用户的交谈中获得了一个有趣的见解，事实证明我们的模型在某种程度上做得更好，有时你想要告诉他们，忽略你对世界的了解，只使用上下文中的信息。

这是我们在评估中永远不会看到的。例如 AIME、GBQA，它们都没有关注这一点。但对于这个特定的用户来说，最重要的是模型只关注系统指令并忽略它已经知道的一切。

回到我们如何确定什么最重要的问题。基本上，看看客户的主题中反复出现的内容。然后我们也在内部使用我们的模型。我们知道他们在哪些方面做得不好。我们还有在我们的模型之上构建产品的内部客户。基本上，所有这些加在一起就构成了……

这就是我们确定要真正追求的评估指标集的方式。你对我们的听众有什么评估指标方面的请求吗？你们是否有一些领域，例如，“哦，我们真的希望有更多示例或需要测试某些领域的东西”？是的，是的，总是需要更多。我一直在宣传，例如，我们有这个评估指标产品，你可以选择加入，你可以在评估指标上获得免费推理，作为交换，我们可以使用它们。但特别是我感兴趣的是更长的上下文，例如现实世界的评估指标。

制作长上下文评估指标非常困难。综合评估指标对于定位非常利基的用例很有用，但是如果你想全面了解，这是否在长上下文中有效，我们可以使用更多这样的评估指标。另一个是指令遵循。我觉得这是 ML 中最难定义的事情。每个人都认为，模型没有遵循此指令，它在这方面不好。但是人们实际上指的是数百种不同的含义。

因此，任何更多这方面的内容，我都很感兴趣。在这个过程中，你有没有发现什么你最喜欢的随机评估指标？我的意思是，你已经提到了一些例子，但任何令人惊讶的，我想，在不起作用的事情或你认为特别有趣的需要努力改进的事情？这很有趣。我们测试了 4.1 的几个不同版本。

并获得了真实 alpha 用户的反馈。一位客户非常喜欢第一个版本而不是第四个版本（我们最终发布的版本）。他们是唯一一个这样认为的用户。所有评估指标在这两者之间都在向上和向右移动，我们就是无法弄清楚是什么原因。这只是一个非常利基的用例，任何地方都没有涵盖。

很难让每个人都满意这些模型。这几乎是不可能的，但是如果你制作了一些能够很好地遵循指令的东西，那么你可以尝试通过教他们更好地提示来取悦更多的人。然后，我认为微调服务是一种真正取悦更多人的好方法。

百分之百。好吧，我们肯定会深入探讨这两个方面，嗯，你知道，在这里，我想，我很想知道，你知道，该模型已经发布了几周了。嗯，我相信你们都有这些，你们显然正在与很多人一起测试这个。所以你们对人们如何使用它有一定的了解，但让它在现实世界中使用并看到各种意想不到的方式总是很有趣的，在过去几周中，任何能够弥合或解决的意想不到的事情，看到这些都很有趣。

是的，我真的很喜欢看到人们构建的许多很酷的 UI。所以实际上这是我们在模型结束时偷偷添加的东西，例如大大改进的 UI 和编码能力。所以我看到那里真的很酷的应用程序。我还喜欢看到人们使用 Nano。它体积小、价格便宜且速度快。我看到，我认为 Box 有一个……

产品功能，你可以阅读 17 页文档。我知道 Aaron 发布了一些使用该模型的结果，并且核心产品的提升非常令人印象深刻。是的，看到 Nano 背后的假设非常酷，我们能否仅仅通过

价格便宜且速度快的模型来刺激更多 AI 的采用。看起来答案是肯定的。人们在成本延迟曲线的各个点上都有需求。我觉得这个答案在整个过程中似乎普遍是肯定的。你们总是降低价格，这似乎总是会刺激更多需求。我觉得你已经被 Sam 承认了，我知道，被各种各样的人承认，就像，你知道，真正让这一切发生的人之一。实际完成像这样的模型的端到端发布需要做些什么？你们在幕后做了哪些工作来实现这一点？

是的，这是一个很好的问题。所以显然幕后有一个庞大的团队。因此，我们基本上有这三个模型，每个模型都是一种半新的预训练模型。所以我们有标准尺寸、迷你版和纳米版。因此，预训练团队做得非常出色。半新的预训练模型是什么意思？

是的，这是一个很好的问题。我的意思是，它有点像，我们称之为中期训练。这是一个新鲜度更新。因此，较大的一个是中期训练，但另外两个是新的预训练模型。然后我的团队在后期训练方面做了很多工作。因此，我们一直在关注很多方面，例如，我们如何确定最佳的数据组合，或者我们如何确定 RL 训练的最佳参数，或者我们如何确定不同奖励的权重？因此，回到，例如，这一切是如何产生的，我认为

我们开始意识到许多开发人员在 4.0 版本中遇到了很多痛点。我们花了，我想说，三个月的时间进行评估并找出真正的问题所在。然后我想接下来的三个月就像一阵训练狂潮。因此，我们会进行大量的实验。例如，这个数据集如何工作？或者如果我们调整这些参数会怎样？然后所有这些都与这些新的预训练模型联系起来，

然后我们终于进行了大约一个月的 alpha 测试，我们非常快速地进行交易并获得反馈，并尝试尽可能多地整合这些反馈。你知道，这其中一部分是收集这些评估指标。例如，这组评估指标是否仍然相关？或者现在，例如，你必须收集一整套新的东西，例如，你知道，这可能是需要努力改进的正确东西，以便改进 4.1？是的。

是的，我认为评估指标的保质期大约是三个月，不幸的是。进步如此之快。事情很快就饱和了。所以我们仍在不断寻找。我认为我们将永远如此。我认为模型中非常清楚的一点是，你提高了指令遵循能力，你提高了长上下文能力，这显然对代理都非常有益。我认为我们的听众总是试图弄清楚，例如，我们现在代理的状况如何？例如，什么有效？什么无效？例如，4.1 之后该领域的现状是什么？

我认为我们现在所处的位置是，代理在范围明确的领域工作得非常好。因此，在这种情况下，你拥有模型的所有正确工具，用户请求的内容相当清楚，我们看到所有这些用例都运行良好。但是现在更多的是弥合与模糊和混乱的现实世界的差距。就像用户在客户支持框中输入一些内容一样

实际上不知道代理可以做什么，而代理可能缺乏对其自身能力的认识。或者代理可能与现实世界联系不够紧密，无法知道某些信息。老实说，我认为很多能力都在那里，但这很难将上下文放入模型中。然后我认为我们可以改进的一个领域是歧义。我们应该让它更容易

对于开发人员来说，如果模棱两可，模型应该向用户请求更多信息还是应该继续进行假设？如果模型总是回到你身边并说：“我应该这样做吗？你确定吗？我可以这样做吗？”这显然非常烦人。我认为我们需要在那里有更多的可控性。我们以前都与这样的实习生一起工作过，所以我明白需要取得微妙的平衡。

你想要一些委托，但不要太多。听起来，在许多方面，模型的底层能力并没有完全展现出来，仅仅是因为我们还没有将足够的上下文或工具连接到模型本身。而且似乎在做到这一点方面有很多改进。是的，完全正确。是的，我会说，当我们查看函数调用或代理工具使用的某些外部基准时，当我们实际深入研究失败案例时，例如我们的模型被评为不正确，

我看到它们大多被错误评级，或者可能是模棱两可的，或者它们正在使用用户模型，而用户模型没有很好地遵循指令。因此，我们实际上很难找到模型实际上做错事情的案例。

显然有这些情况，但是大多数基准测试，我想说，它们已经饱和了。我想在接下来的 6-12 个月中，很多这些东西都会被添加进去。有更多工具、更多上下文。我觉得一个差距仍然是长期任务执行。你如何看待需要做些什么才能继续在一些更长、更模糊、多步骤的任务方面取得进展？是的。我认为我们需要在

在工程方面和模型方面。因此，在工程方面，我们需要 API 和 UI，这样更容易跟踪代理正在做什么，对其正在做的事情进行总结，以及一种介入并改变轨迹的方法。我们在 Operator 中拥有它。这很酷。你可以介入并引导。但是对于我们 API 中的其他内容，你并没有那么多。所以我认为这是工程方面的一项核心能力。在建模方面，我认为……

我们需要更强的鲁棒性，例如当事情出错时。显然，有时你的 API 会出现 500 错误，模型可能会卡住。所以我认为我们希望训练出更强的鲁棒性，而“毅力”是我们有时考虑的另一种方式。我认为每个人都注意到的模型的另一个部分，而且你显然在基准测试中也提到了这一点，那就是它们在代码方面的改进程度。所以我想，你知道，从这里开始，例如，你如何描述我们现在在 AI 代码方面的状况，例如什么有效，什么无效？是的。

是的，完全正确。所以我认为我们现在在代码方面的情况是，4.1 和我们的一些其他模型在问题是局部范围时非常出色。所以也许你要求模型更改一些库，并且所有文件都彼此靠近，这很有意义。

但是我们看到我们错过的 Sweep-bench 任务，例如，那些模型真正需要全局上下文的任务。它需要对代码的许多不同部分进行推理。或者可能在一个文件中有一些极其技术性的细节，你试图将它们传递到另一个文件中。所以我想说我们仍在改进这种全局理解。

我还认为我们在前端编码方面取得了非常大的进步，但我仍然希望继续改进。我们不仅应该生成漂亮的前端代码，而且前端工程师也应该为此感到自豪。那里有一些 lint 方面的东西，代码风格是我们的另一个主要关注领域。最后，我认为我们总是会继续改进的另一件事是只更改你要求更改的内容，而不是其他所有内容。

模型应该适应你的代码风格，而不是注入太多它自己的风格。在我们的内部评估中，我们看到无关编辑从 4.0 到 4.1 的比例从 9% 下降到 2%。但显然 2% 不是零，所以这是我们将继续改进的事情。这对你在日常编码中的使用方法意味着什么？

是的。我现在管理一个团队，所以没有那么多。唉，在这些公司做得好的不可避免的轨迹。但我确实使用 Codex，而且说实话，我一直都在使用 GitHub Copilot。它仍然是一款很棒的产品，我还尝试使用 Windsurf 和 Cursor。进进出出。但是 Codex 真的很酷，它独立完成工作的方式。我认为……

我主要在那里使用的模型是 04 Mini，只是为了速度。你知道，你显然已经暗示了这一点。有很多基准测试，而且，你知道，我觉得人们总是争论，基准测试是否仍然相关？你们甚至在 401 中添加了一些，你知道，我认为在编码方面已经有一段时间了，例如，基准测试并不能说明全部情况，当你使用它时，你就会知道。这种说法在多大程度上是正确的？你对当今这些基准测试的现状以及它们的实用性有什么总体看法？

是的，我认为 SweeBench 仍然是一个有用的基准测试。例如，可以实现 55 分与 35 分的模型之间的实际差异惊人地不同。我认为 AIDER 评估仍然非常有用。但是然后有一些完全饱和且无用的评估指标。基本上，你必须……

在评估指标的生命周期内充分利用它，然后继续并创建另一个评估指标。三个月的保质期确实很艰难。是的，一旦 SweeBench 饱和，肯定会有它的继任者。

是的。我认为关于 401 非常有趣的一点是，我认为你们非常明确。例如，这是为开发人员构建的。而且，你知道，你们做了所有这些评估，以使其更好地满足开发人员的要求。这确实引出了一个问题，例如，OpenAI 模型家族将如何从这里发展？因为显然你可以想象，例如，一个为不同的最终用户或我不知道，领域或任务进行后期训练的预训练模型。我相信你们在为这个明确的最终群体构建这个模型的过程中学到了很多东西。你如何看待这个问题？总的来说，我的理念是

我们应该真正关注 AGI 中的 G，并尝试制作一个通用的模型。因此，理想情况下，我认为未来我们将尝试

简化产品供应，尝试为两种用例提供一个模型，并简化 ChatGPT 中的模型选择器情况。但是对于 4.1，我们认为存在特别迫切的需求，并且我们认为如果我们可以与 ChatGPT 脱钩，我们可以更快地解决这个问题。因此，这让我们能够更快地训练模型、获得反馈并按不同的时间表发布。

它还让我们能够在模型训练中做出一些有趣的选择。因此，我们能够删除一些特定于 ChatGPT 的数据集，并且我们能够显着增加编码数据。因此，这是你在针对单独领域时可以做的事情。但总的来说，我确实希望我们能够简化。我认为当 OpenAI 的所有研究人员都在努力工作时，模型会变得更好。

而不是现在专注于 API 的子组。好吧，无论如何，它似乎也存在大量的跨领域泛化，总的来说，感觉将所有内容都放入一个模型中是有益的。但有趣的是，显然，这种更具针对性的方法取得了如此巨大的成功。是的，我认为两者都有空间。有时，为一个你非常了解的用户弹出并发布该内容是有意义的。你认为你们可能会再次这样做吗？是的，我认为这是可能的。我的意思是，我们……

我们会根据需求的变化而随时做出很多改变，这绝对是可能的。好吧，我经常听到人们说的一件事是你们发布模型的速度非常快。我知道命名一直以来都备受争议，关于有多少不同的模型。我觉得公司都在努力跟上模型能力的最新技术。你从公司如何保持领先地位方面看到了哪些最佳实践？感觉在这个领域中每个月都会发布一个新模型。

如果你是一位这些 API 的用户，你会如何考虑这个问题？不幸的是，这一切都回到了评估指标。最成功的创业公司是那些非常了解其用例、拥有非常好的评估指标的公司，然后他们可以在新模型发布时花一个小时来运行评估指标。我认为，真正成功的客户也是那些能够

切换他们的提示和脚手架并将其调整到特定模型的客户。这就是我推荐的。然后另一件事是

构建一些可能刚刚超出当前模型范围的东西，或者它可能十次中只有一次有效，而你希望它能达到九次。如果你在你的备选方案中拥有这些类型的用例，新模型发布并且一切正常，那么你将成为市场上的第一名。你有没有使用过什么启发式方法来判断什么刚刚超出范围？显然，我觉得有时很难判断这些事情什么时候才能奏效。是的，我认为如果你在微调方面看到了显著的改进，

例如，假设你的通过率为 10%。你可以将其微调到 50%。它可能还不够好，无法用于你的产品。这是未来模型即将实现的目标。几个月后，我们可能会轻松搞定它。不，这非常有意义。我的意思是，你显然提到了能够切换提示和脚手架。我认为在投资方面我思考很多的一件事是

你知道，有很多公司，你知道，模型能够做到它们能够做到的事情。它们基于这些限制构建了各种脚手架，以使产品在今天能够工作。然后感觉就像，你知道，你们发布了下一个伟大的模型，其中一些脚手架就被淘汰了。就像，好吧，很酷。模型在遵循指令方面要好得多。我不需要做所有这些笨拙的事情，因为你现在有了这个长的上下文窗口。鉴于此，你如何看待在构建一些脚手架或哪些脚手架适合这些人时，什么时候有意义，什么时候没有意义？我喜欢，

将此追溯到作为一家创业公司的理由。你存在的理由是为你的用户提供价值并创造人们想要的东西。我认为构建脚手架并使你的产品发挥作用非常值得。你基本上是在这种能力更容易获得之前进行了几个月的套利。

但我认为重要的是要记住未来的趋势。因此，也许现在构建 RAG 系统，或者在提示中将你的指令写五遍，尽管不是在 4.1 中。但要准备好改变事情。但要知道事情的发展方向。所以我认为上下文窗口只会不断改进。我认为推理能力只会越来越好。指令遵循能力只会越来越好。

因此，只要关注这些趋势的发展方向。是的。还有什么其他的，你知道，关于事情的发展方向，对人们有什么建议吗？是的，我认为多模态是另一个。

模型在这些方面变得非常原生多模态且易于使用。是的，我觉得这是 4.1 中一个讨论不足的部分。它具有非常令人印象深刻的多模态能力。是的，老实说，要向我们的预训练团队致敬，因为这些新的预训练模型在多模态方面有了显著的改进。我认为我们将继续看到这些改进。但是，在 4.0 中不起作用的许多事情现在都可以工作了，因为模型在这方面得到了改进。因此……

值得将模型连接到尽可能多的关于你的任务的信息，即使你今天的结果很糟糕，因为明天它会变得更好。你提到了微调。我觉得很有趣。我觉得我们已经经历了微调的历程，早期，我觉得很多人都不确定这实际上有多大帮助。然后感觉随着这些较新的模型以及它实际上有多大帮助，微调似乎经历了复兴。是的。

我想知道你观察到了什么。这个弧线对你来说是否真实？人们应该如何考虑这个问题？更多的人是否应该重新审视他们之前对微调的假设？是的，我认为我会将微调分为两类。第一类是用于速度和延迟的微调。因此，我认为这仍然是我们 SFT 服务的支柱。所以 4.1 效果很好，但你可以以极低的延迟获得它。

但是，我认为我们还没有看到太多用于前沿能力的微调。你可能可以在一个非常利基的领域使用 SFT 获得它们，但是使用 RFT，你实际上可以在你的特定领域推动前沿发展。

微调过程非常高效，你只需要使用大约 100 个样本或类似数量的样本。因此，我们的 RFT 服务实际上将于下周发布到 GA。我想你们的听众可能会在它发布时听到关于它的消息。我们对此感到非常兴奋。有一些用例非常有效。例如，教导代理如何选择工作流程或……

如何完成其决策过程。还有一些有趣的深度技术应用，也许是创业公司或

某个组织拥有其他人不具备且可验证的数据。通过这些数据，您可以获得RFT的最佳结果。至少有一点让我印象深刻，那就是各个领域所需示例的数量并不庞大。我认为在早期，人们会说，哦，一些公司拥有数万个示例，他们将能够胜出竞争。数据确实很重要，但这可能比人们之前想象的要少得多。

是的，我认为这两种趋势使微调更有趣，因为它非常高效。而且，RFT基本上与我们内部用于改进模型的强化学习过程相同。因此，我们知道它非常有效，并且比SFT更稳定。

因此，是的，由于这些原因，我认为它将对深度科技和一些最棘手的问题非常有用。您认为这是每个人都应该尝试的事情吗？或者，您知道，这意味着，显然有一些情况是模型可以做到的，但是让我们以几乎任何模型的准确性不如人们想要的情况为例。对于任何这些情况，是否值得尝试一下？我认为我的思维模型是，如果这是一件风格化的事情，那么您可能应该使用我们最近推出的偏好微调。如果是，

更简单。例如，您可能希望纳米来对事物进行分类，但它会……

你知道，10% 的情况出错，你可以用 SFT 来弥补这个差距，这很好。但是对于市场上没有任何模型能够满足您需求的情况，那么您应该转向 RFT。这不像您暗示的那样，有一些事情，尤其是在可验证的事情上，这使得更容易做到。例如，您是否有一些粗略的、使用的经验法则，例如何时使用 RFT、RFT 特别有效的领域类型或问题类型？

或者这些更容易验证的领域是什么。现在，除了代码和数学之外，每个人都在问这个问题。是的，我认为芯片设计或生物学领域有一些东西，比如药物发现。我认为那些可能需要探索的事情，但有效的事情很容易验证。我认为这些将是很好的应用。当然。

芯片设计当然就是这样。我觉得药物发现是一个持续令人惊叹的用例，但有时需要10年时间才能弄清楚它是否真的对人有效。因此，反馈循环显然是介于两者之间的中间步骤。但最终，我的意思是，这确实引出了一个问题，我的意思是，我觉得，你知道，在401中，显然这些多模态能力，你知道，你谈到了使用RFT进行生物学研究的能力。我想一直以来都存在这样的问题，即是否会有

独立类型的基础模型，例如机器人基础模型或生物学基础模型，它什么都没有或有一些东西，但它是一种独立的模型类别，您对此的看法是什么？它是否感觉像您之前提到的g和agi一样，我们是否正在这方面融合？我认为泛化会大大提高能力……

我认为机器人技术还有待观察。我想我们将根据经验知道最好的机器人产品是否是它们自己的模型。

但我确实认为，我认为我在内部看到的趋势是，结合所有东西会产生更好的结果。每个人都戏弄说你很快就会拥有，比如，一个模型会在幕后为人们选择使用什么。但显然我们今天还没有。所以，呃，我很想知道，如果我是一家公司，那么，呃，弄清楚，你知道，显然我可能会测试很多。您对人们应该为他们尝试做的不同事情选择哪些模型有任何粗略的经验法则吗？是的，完全正确。嗯，

这是一个非常艰难的决策树，所以我很高兴我们将简化它。这就是我思考这个问题的方式。在ChatGPT中，显然在ChatGPT DAO中，所以我的……你和我一样。是的，我主要使用的模型是4.0，有时我使用4.5进行写作或创意工作。然后0.3是我用来解决最难的数学问题的。我不知道。我当时正在报税，我希望它们做得对。所以这是……

你知道，我会使用O3的地方。这与你的想法一致吗？这些是你用在聊天中的模型吗？我不确定这些模型是否足够好，可以让我相信我的税务，所以我还没有这样做。但我也许应该这样做。如果你说它足够好，那就太好了。明年，我一定会这样做。我更麻烦的是检查我的注册会计师。

用可信的来源进行验证。但是，这在消费者方面绝对是一致的。然后，我对企业用户感到好奇，显然我觉得你总是想尽可能快而便宜，但我认为人们仍在努力弄清楚何时才能获得每种不同类型的模型。是的，完全正确。所以是的，我思考这个问题的方式是

开发人员应该从4.1开始，看看它是否适合他们的用例。如果可以，并且您正在寻找更快的速度，那么我会考虑 mini 和 nano 并对它们进行微调。显然，mini 接下来是 nano，它是最小模型。然后，如果某些事情对于 4.1 来说遥不可及，那么我会推动使用 04 mini，看看你是否可以

你知道，从它那里获得足够的推理能力。然后你转到或三个。如果这不起作用，那么你就用 O4 mini 进行 RFT。我想在使用这些模型的另一面，我一直很喜欢你们在这些模型旁边发布的提示指南，因为它总是有点滑稽，有时是违反直觉的，比如在提示方面有帮助的不同事情，比如任何特别喜欢的出现的事情，比如，“哦，这实际上是一个非常有用的提示方式”，你知道，4.1。是的，我认为我们，

我发现 XML 或很好地构建你的提示非常有效。另一件事就是告诉模型继续。

我喜欢那个。这是我们希望为下一个版本修复的事情，但通过告诉模型，“嘿，在你解决问题之前，请不要再回来找我”，你可以获得多得多的性能，这真是非凡。是的，这些很有趣，而且有点违反直觉。你是如何做到的，比如，是的，你已经看到了“继续”这个东西，显然在你的食谱中显示了很大的影响。那么，你如何将它融入下一代模型中，这样它就不再是那样了呢？是的。

我们的后期训练过程可能对所使用数据的精确组合非常敏感。因此，您可以想象一个后期训练过程，您使用一种 diff 格式训练模型，然后您的用户使用完全不同的 diff 格式，而模型有点迷失方向。

而对于 4.1，我们使用大约 12 种不同的 diff 格式训练模型，我们能想到的一切。因此，我们的目标是真正发布一些效果非常好甚至记录可能最好的东西。因此，我们的提示指南包含我们发现效果很好的 diff 格式。我们还希望它能够开箱即用地为不会阅读我们文档的开发人员工作，我承认大多数人都是这样。即使您没有使用最好的，也希望它能够正常工作。因此，我们非常关注

关于一般的提示和一般能力。这样我们就不会，你知道，在模型中刻录特定的一个。

是的，虽然“继续”也是对我们内部团队说的一个很好的事情。所以，你知道，它确实在各个方面都有帮助。你显然已经提到评估是像最复杂的公司一样做得好的事情之一。我很想知道你是否，你知道，也许是一些 OpenAI 产品或一些技术，只有少数几家公司使用得很好，你就像，“上帝，我希望成千上万的公司都在使用这个或以这种方式思考事情”。是的，我认为我最喜欢的与之合作的开发人员是那些非常了解自己问题的人。

非常了解，并且实际上对整个问题都有评估，但可以将其分解成具体的子组件。因此，他们可以告诉我诸如“模型在选择正确的 SQL 表方面提高了这个百分比，但在选择正确的列方面却变差了这个百分比”之类的事情。这就像，“哇，这种粒度水平真的可以帮助你理清，比如，

什么有效，什么无效。然后，你知道，他们可以调整这方面的特定部分。所以我想，让你的系统模块化并易于插入不同的解决方案，我认为……

这需要前期一些时间，但从长远来看会让你更快地行动。我想人们一直在问的一个问题是，领先的 AI 应用公司需要多少 AI 专业知识，而不是仅仅是优秀的工程师，他们可以将你的模型从货架上拿下来并了解他们的最终客户？你认为从长远来看，能够了解在微调或调整你的评估时要应用哪些数据

这最终是否会成为应用玩家非常重要的技能？还是真的像，“不，他们可以将模型大部分从货架上拿下来，或者进行基本的微调，而核心 AI 研究能力可能不那么重要”？是的，我真的很长远地看待通才。所以我认为那些了解产品的人是真正精明能干的工程师，他们可以做任何事情。

老实说，我认为将来你不需要那么多专业知识来组合这些模型和这些解决方案。所以是的，当我听到一群精明能干的黑客而不是一群只有研究出版物在身的博士时，我绝对更加乐观。有很多令人兴奋的领域可以继续推动这些模型向前发展。你最期待哪些未来的研究领域来改进这些模型？

我真的很兴奋能够利用我们的模型来改进模型。这在强化学习中特别有用，当我们可以使用来自模型的信号来确定模型是否走在正确的轨道上时。是的，我也很兴奋。这更像是一个更普遍的研究领域，但我们正在努力改进我们的模型

迭代速度。你可以做的实验越多，研究就越多。因此，现在的一个真正重点是确保，你知道，我们可以用最少的 GPU 来运行我们的实验，并获得，你知道，你基本上想启动一个工作，并在早上醒来时知道这件事是否有效。这仅仅是一个纯粹的基础设施问题，还是像，你知道，像后者一样？不是的。你还需要确保你正在训练的东西是

规模足够大，以便能够获得关于你正在实验的确切内容的信号。因此，那里也有一些有趣的机器学习问题。是的。然后，在使用模型改进模型和关于你是否走在正轨上的信号方面，我们现在处于什么阶段？这有效吗？或者我们仍然处于这个阶段的早期阶段？是的，它非常有效。我认为……

合成数据一直是一个非常强大的趋势。所以是的，我很高兴进一步推动这一点，但是每个更强大的模型都使得将来更容易改进我们的模型。你们也发布了一些非常有趣的代理。我认为 Deep Research 可能最著名的是我一直在使用的一个产品。基本上，据我了解，它是在工具或一组工具上使用强化学习，直到模型在使用它方面变得非常熟练

你如何想象这种方法大规模扩展代理？我想这有点像我们之前讨论过的关于为最终用户构建这些特定模型或专门对工具进行强化学习与这里的 G 泛化的问题的一个子变体。是的。所以我想……

深度研究就像从零到一，或者深度研究和操作员就像从零到一或二，你想深入训练模型来做这个特定的事情。但是我认为我们从 O3 中看到的是，我们可以训练模型来擅长各种工具。实际上，学习使用一组工具会使它在其他工具组中表现更好。所以我并不期望将来会有太多只针对一种工具的训练。

我们已经证明了这一点，现在我们可以广泛地整合这些能力。实际上，这是人们非常喜欢 O3 的一件事，因为它可以做很多深度研究，很多这些能力，但更快，而且

你知道，你可以真正进行深度研究，当你想要绝对最好的报告时。但如果你想要一些介于两者之间的东西，那么 O3 非常适合。是的。随着通用模型越来越擅长使用工具，并且，你知道，并且完成一些这些任务，你知道，

你认为哪些领域会更容易或更难？我的意思是，你们显然公开表示你们将拥有一个编码代理。我不知道是否，就像人们在思考一样，再次，像，什么能力是早于晚于的。任何你使用的思维模型，比如，是的，我认为这些事情会在下一组事情之前出现。是的，我认为，我的意思是，是的，编码显然即将到来，鉴于……

像，SWE 基准数字已经超过了很多人在那里所能达到的水平。所以我认为监督这些长时间运行的能力是存在的。至于其他方面，我认为，比如，长时间的工作流程。O3 已经有趣的一点是，当它调用开发人员指定的工具时，它们已经是模型思维链的一部分。所以模型可以……

你知道，使用之前的工具调用和输出的思想，并进一步思考该做什么。所以我认为，正因为如此，代理，比如客户支持或其他类型的功能，我认为很重要。

我认为就个人而言，它们已经存在，只需要与所有东西连接起来才能形成一个有凝聚力的产品。是的，我的意思是，在许多方面，这些模型的能力似乎超过了实际的细枝末节，就像，是的，将它们连接到事物上，让企业以某种方式准备好使用它们。但就像，你知道，我认为总是有一个很大的争论，如果你停止了，如果你现在完全停止了模型的进展，那么是否像，

从这些模型中提取的价值只有数万亿美元。而且你似乎非常赞同这一点。是的。我的意思是，我认为如果你考虑互联网的能力过剩，我们仍然没有饱和。

事情仍在上线。互联网仍在吞噬世界。我认为对于人工智能来说，我们甚至还没有饱和 3.5 Turbo 的能力。我仍然认为，只需要这种能力水平的企业就有数十亿美元的规模。因此，现在有了 4.1 和这些推理模型，我认为我们有……

如果我们现在真的停下来，我认为我们至少还有 10 年的时间来建设。Sam 显然已经谈到将模型家族组合成这个 GPT-5，这可能会结束真正有趣的这一点和那一点以及所有这些。但是实际上需要做什么才能将这些组合成一个单一模型？这回到了模型适合做什么的问题。现在，4.0 系列非常适合聊天。世界上大多数用户都使用 4.0。

他们喜欢它匹配语气和风格偏好的方式。它是一个很棒的对话者。它擅长与人们进行深入的对话。它是一种很好的发声板。但是 O3 有一套非常不同的技能。它可以非常认真地思考问题。当你打招呼时，你并不真的希望模型思考五分钟。

所以我认为在后期训练和更广泛的研究中面临的真正挑战是结合这些能力。

因此，训练模型成为一个真正令人愉快的闲聊伙伴，但也知道何时进行推理。这有点像 4.1 一样。我提到我们降低了一些聊天数据的权重，并提高了编码的权重以使编码更好。从某种意义上说，有一些零和博弈的决定，你必须弄清楚你究竟是在为模型调整什么。所以 GPT-5 的真正挑战在于，

我们如何才能取得这种正确的平衡？是的。我的意思是，这太有趣了，因为我觉得有些人过去被吸引到不同的模型的原因是基于强烈的个性。我喜欢这个模型的个性或氛围。我被震惊了，我的意思是，从某种意义上说，把它组合成一个模型，你会得到一个中等的个性。回到之前关于我是否想知道的问题，你知道，从长远来看，人们是否会想要，你知道，也许他们通过提示来实现这一点，或者像，你知道，通过了解你。然后模型本身在其中拥有所有这些个性，并且可以出现。对此有何想法？

是的，我已经认为我们正在通过增强记忆的方式朝着这个方向发展。所以我认为我的 ChatGPT 与我妈妈或我丈夫的非常不同。所以我认为我们已经朝着这个方向发展了。它了解你的信息越多，它就变得越有用。但它了解你的信息越多，它就越能适应你喜欢的东西。

所以我认为这实际上将成为未来个性化的一个非常强大的杠杆。但我们也将使其更易于控制。因此，您已经可以使用自定义指令并告诉模型，“嘿，我不喜欢大写字母，或者请不要再问后续问题了。我不喜欢那样。”所以我认为我们将更多地关注可控性。我认为每个人都能够调整他们想要的个性。但我很好奇，比如，是什么……

你想要什么样的个性？这有点像我还在发现中，对吧？好吧，我喜欢这种玩笑很有趣，对吧？就像有点像，你知道，有点像和你一起玩耍的那种有趣和古怪，并且，你知道，有点像有时会冒险，并且像他们说的那种朋友。我觉得我一直很喜欢。我想我也很好奇，只是想谈谈你在 OpenAI 的个人旅程。显然，你在 OpenAI 担任过很多不同的角色。你也有

该公司在你任职期间经历了可能数百万个不同的增长和经验子章节。也许只是谈谈你在那里的个人旅程。此外，它是什么样的，在您加入的早期与现在领导这个大型团队相比，感觉相似和不同的地方是什么？

是的。所以是的，我已经在这里两年半了，我加入了 API 团队的工程方面。实际上，我的背景更多的是工程。我在 Coinbase 等其他公司工作，构建他们的高频低延迟交易系统。所以更多地关注后端分布式系统。

但我确实在大学里学习过人工智能，并且在那里与一些教授一起从事研究项目，我实际上记得当时使用过 OpenAI Gym，这非常酷。但是是的，我在这里工作了一年半，从事工程工作，然后似乎将重点更多地放在 API 的模型方面是有意义的。

对于开发人员来说，并没有足够重视改进模型。我不断听到人们想要像结构化输出这样的东西。这就是我第一次在这里进行研究。这就像训练模型来做到这一点并构建工程系统。在那之后，我组建了这个团队，然后转到研究部门。实际上最近对我的团队进行了重新品牌推广。我们现在专注于高级用户。所以它是高级用户研究团队。而且

重新品牌推广的原因是我们不仅仅关注 API。显然，开发人员是我们最挑剔的高级用户中的一部分。他们使用其他用户不知道的功能。他们最了解如何提示我们的模型。他们最了解这些功能。但 ChatGPT 中也有高级用户。免费版中有一些。Plus 和 Pro 中有很多。我有点生气我没有被邀请成为 ChatGPT 的高级用户。我以为我可能已经达到了门槛，但我猜可能有更多的人使用得更多。是的。

我的意思是，是的，我们从以这种方式使用我们模型的人那里获得了很多信号。但同样，关注高级用户的原因很有趣，因为高级用户今天正在做的事情将是普通用户一年后正在做的事情。

因此，我们从处于前沿并弄清楚我们可以做些什么来改进他们的模型中学到了很多东西。我想，比如，这两年来是什么样的？我觉得这个组织在规模和工作范围上都发生了很大的变化。比如，什么感觉仍然一样，什么真的不一样，你知道，这些天？是的，我认为发布的节奏是一样的。这实际上令人惊叹，像这样规模的组织可以如此快速地行动。是的。

我认为有些事情是不同的，你肯定不能再了解公司发生的一切了。这就像……

过去，对所有正在进行的酷项目都有相当好的了解，阅读所有他们的研究更新并非常熟悉是可能的，但现在你必须容忍它。你不能再知道所有正在发生的事情了。完全正确。好吧，我们总是喜欢在我们的采访结束时进行快速问答环节，在那里我们可以了解您对一些过于宽泛的结束问题的看法。所以也许首先，我们很想了解您对当今人工智能领域中被过度炒作的一件事和被低估的一件事的看法。所以是的，被过度炒作的，我认为……

就像我提到的那样，许多代理都被饱和了，或者人们发布了他们获得的绝对最佳数字，但实际数字是不同的。然后被低估的，我的意思是，这与你的评估相对应。因此，使用你的实际使用数据来找出什么有效，被低估了。

太棒了。在过去的一年中，你在人工智能领域改变了哪些想法？是的，这回到了微调，但我实际上过去更像是一个微调的反对者，因为它有点像，你知道，这是几个月的套利，但它真的值得花时间吗？但我实际上认为 RFT 对于你需要突破前沿的特定领域是值得花时间的。是的。是哪个特定的微调说服了你，还是随着时间的推移看到了这一点？我认为现在很酷的是……

我们之前的后期训练堆栈或 4.1 堆栈不仅仅是 SFT。我们没有发布我们如何训练模型。但对于 RFT 来说，它基本上与我们的强化学习算法类似。这就是为什么我认为这是一个巨大的转变，你实际上可以获得我们自己可以引出的能力。你认为今年的模型进展会与去年相同还是不同？

我认为它会大致相同。我认为我们并没有放缓速度。我认为我们目前并没有处于快速起飞的状态，但它将继续保持快速发展。

而且会有很多模型。我意识到我不能让你选择一个最喜欢的，但我很好奇，比如，你知道，你提到了这类更难解决的问题，你知道，也许，你知道，超越企业应用程序，比如你最兴奋的任何类型的消费产品或事情，除了 OpenAI 之外，或者你在你的日常生活中使用的任何东西？是的，我使用了许多基于人工智能的东西。最近我一直在使用 Levels，他们就像，

像有一个非常酷的，呃，人工智能的重点在那里。我认为 Whoop 也有一些非常酷的健康见解。是的。是的。我认为将人工智能从数字世界中移除非常酷。好吧，这是一个引人入胜的对话。我想确保最后一句话留给你。嗯，人们可以在哪里了解更多关于你自己的信息，呃，任何你想指引我们的听众的东西，呃，地板是，呃，地板是你的。是的，完全正确。谢谢。嗯，

所以是的，如果你想了解更多信息，我们为 4.1 发布了一篇博文。我也在 Twitter 上，我喜欢听取用户的反馈，比如开发人员、高级用户。因此，如果我们的模型中有什么东西不起作用，并且您有一个可以显示它的提示，请给我发电子邮件。我的邮箱是 [email protected]，我喜欢获得反馈，以便我们可以改进模型。我们必须再次邀请你谈谈你从我们这里收到的关于模糊用例提示的最奇怪的电子邮件。是的，我已经收到了一些不错的邮件。是的。

是的。米歇尔，非常感谢你。这太有趣了。是的。非常感谢你邀请我。

Ep 64: GPT 4.1 Lead at OpenAI Michelle Pokrass: RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today 47:12 Share

Unsupervised Learning

Deep Dive

Shownotes Transcript

Ep 64: GPT 4.1 Lead at OpenAI Michelle Pokrass: RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today