We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steven Heidel on OpenAI’s New Agent Development Tools

2025/3/25

Unsupervised Learning

AI Deep Dive AI Chapters Transcript

People

Francesc Campoy

Mark Mandel

Nikunj Handa

Steven Heidel

Topics

Nikunj Handa: 我认为，未来几年，AI代理将越来越深入地融入我们日常使用的产品中，而不是仅仅存在于像ChatGPT这样的特定服务中。这将改变我们与技术的交互方式，使AI代理成为我们日常生活中不可或缺的一部分。我们对API平台充满期待，因为它能够将AI代理技术普及到各个领域，让开发者充分发挥创造力，开发出各种各样的应用。我们已经看到AI代理访问网络信息的方式正在发生转变，从单次检索进化到多次迭代、并行处理等更复杂的策略。这将使AI代理能够更有效地获取和处理信息，从而做出更准确的决策。企业应该优先在内部构建AI代理来解决实际问题，之后再考虑将其与互联网连接。这将有助于企业更好地理解AI代理技术的应用价值，并逐步将其应用于更广泛的领域。 Steven Heidel: API的优势在于，我们无法预知开发者会用它构建什么，这将使AI代理在各个垂直领域得到广泛应用。这将推动AI代理技术的创新和发展，并为各行各业带来新的机遇。强化微调技术能够帮助开发者训练模型，使其能够更好地理解特定领域的思维方式，从而构建更可靠、更高效的代理。这将使AI代理能够更好地适应不同的应用场景，并提供更个性化的服务。计算机视觉技术在处理缺乏API的遗留应用程序和需要视觉和文本输入的场景中表现出色。这将使AI代理能够处理更广泛的数据类型，并为更多应用场景提供支持。高级用户通常会将模型和工具结合使用，并通过迭代调整来实现目标，这表明将模型集成到工作流程中非常重要。将任务分解到多个代理中可以简化调试过程，并提高效率。

Deep Dive

Shownotes Transcript

Nikunj Honda和Steven Heidel是OpenAI构建代理的新工具的产品和工程负责人。我是Jacob Efron，今天在Unsupervised Learning上，我们进行了一次非常广泛的讨论。

我们讨论了开发人员应该如何考虑这些代理的有效性和局限性，以及计算机使用模型及其使用方法。我们讨论了企业应该如何为这种代理未来而构建，以及什么将使构建在这些模型之上的应用程序构建者与众不同。我们还讨论了人工智能基础设施、开发人员仍然存在的需求以及初创企业仍然可以竞争的空间。在OpenAI发布引人注目的版本之后立即进行这次讨论非常有趣。我认为大家会非常喜欢这一集。事不宜迟，这是我们的节目。

非常感谢你们两位来到播客。非常感谢。很高兴来到这里。很高兴来到这里。是的。我的意思是，恭喜。OpenAI从不乏味，但我觉得上个月按照你们的标准来说，甚至更加疯狂，你们发布的量很大。是的。是的。这确实是一段旅程，不是吗？这真是太艰难了。

- 我当然可以想象。我觉得有很多事情我们想深入探讨你们最近发布的所有内容，但也许首先从最高层面开始，我很想听听你们对我们作为消费者如何在未来五到十年与代理互动的长期愿景。- 是的，我的意思是，现在我们看到这一切都发生在

像ChatGPT这样的服务中，你进行了深入的研究，你操作着，人们专门来到这个地方。我认为发布构成这些代理产品的模型和API最令人兴奋的事情是，我们将看到它们在网络上越来越多的产品中出现。因此，计算机使用会出现在您喜欢使用的浏览器中，或者操作员会自动执行您每天在工作中执行的任务。

并为您完成所有点击、填写表格和所有研究工作。我认为它将越来越深入地嵌入到您今天每天使用的产品中。至少在API平台上，这是我们最兴奋的事情，就像分散这个东西并让它无处不在一样。

是的，我认为在API平台上工作的一件很酷的事情是，你实际上不知道人们想要构建什么。它是垂直化的，对吧？例如，在ChatGPTU第一方，我们对人们想要做什么有一定的了解。但在API中，人们比我们更了解他们的领域，对吧？因此，看看这些产品和这些模型功能如何进入垂直领域将会非常有趣。你有没有特别期待的代理？你就像，“天哪，我太想拥有它了。”每个人似乎都喜欢旅行代理。我不知道是否……

你们心中有一个。我最想拥有的是一个API设计代理。史蒂夫和我花费的时间——我们会来回讨论。是的，我们只是在浏览我们可以想到的每一个参数名称。应该是param config还是config param？

是的，那将是令人惊叹的。我们可以有一些像深度研究一样的东西，它会查看最佳的API设计内容并变得非常好。是的，我们可以根据我们真正喜欢的所有API对其进行微调。这实际上是一个非常好的主意。是的，我希望有人采用你的API，然后给你一个产品作为回报。那将是很棒的。那将是梦想，对吧？是的，就是这样。我想很多人都在问的一个问题是，我们显然正处于这些代理的早期阶段，它们正在以针对先前范例构建的方式访问网络并相互通信。

人们对这些代理访问网络和相互通信的方式有很多未来主义的想法。甚至还有一个病毒式的YC演示，其中代理意识到与代理交谈，然后他们切换到更容易交换信息的东西。你们是如何看待这种演变的？显然，我相信开发人员会带你走向各个方向，但对这种运作方式有任何初步的想法吗？是的，当然。我认为关于代理通信或从网络获取信息，我们已经看到了很大的变化。我们已经从代理会进行单次转换的世界转变

决定是否要搜索网络，从网络获取信息并合成响应。我认为那是2024年的情况。2025年已经涉及到像深度研究这样的产品，其中模型正在从网络获取信息，思考它得到了什么，重新考虑它的立场，

从网络获取其他信息，并行打开多个网页以节省时间。这种整个链式思维工具调用或在推理过程中调用工具是关于代理如何从网络访问信息方面的一个重大转变。

而且你完全可以想象，在不久的将来，这些网页提取细节会被其他代理所取代。我甚至不知道这个代理是否需要知道它正在与另一端的AI代理交谈。它只是一个它调用的端点，它就像，“哦，它得到了一些非常有用的信息，它用来做出决定、回溯或做一些完全不同的事情。”

是的，我认为这一切都将非常无缝地嵌入到这个链式思维过程中，其中工具调用只是发生在互联网、你的私人数据和你的私人代理之间。这就是我认为它将走向的方向，就像

在接下来的几个月里。- 你认为公司应该这样做吗？因为显然世界的一个版本是他们可以等待代理开始访问他们的网站。另一个版本是他们应该积极地为此而构建并创建他们自己的代理，以便更容易让消费者代理访问它。运行这些产品的公司应该如何考虑这个问题？- 我认为，

开发人员已经在这样做了。我们发布代理SDK正是出于这个原因，因为人们正在创建这些多代理群来解决这些业务问题。如果你看一下客户支持自动化问题，你有一个代理负责你的退款，另一个负责账单和运输信息，另一个负责决定是否提取常见问题解答或升级给人工。

我们已经看到这种多代理架构非常流行，我们希望使开发人员更容易在其上构建，这就是我们构建代理SDK的原因。现在，你何时开始将这些代理公开到公共互联网以及这如何变得有用将非常有趣。我认为我们还没有看到太多这样的情况，但这在某种程度上是有意义的。

我对公司和产品的建议是，只需构建这些内部AI代理来解决贵公司今天面临的实际问题。每当很明显将此公开到互联网以供其他人与您沟通是有意义的时候，这种情况就会发生。我

认为我们离它不远了，但是是的，我认为这将在接下来的几个月内发生。是的，完全正确。我认为真正有趣的是，在此之前，我们看到的大多数模型看到的数据都是你自己的数据、聊天记录、文件搜索。我认为真正有趣的是，特别是对于这些与网络连接更紧密的工具，我们将看到更多

模型，更多来自网络的数据进入模型，而不仅仅是你提供的数据，这非常有趣。当开发人员考虑整合和使用这些API时，你们使用什么启发式方法来判断代理在今天哪些地方有效，哪些地方无效？以及你将如何建议大家？让我们退一步，稍微退一步。因此，在2024年，大多数代理产品看起来是一个定义非常明确的工作流程，工具少于10个。

最多大约有十几个工具。这就像一个非常精心策划的从这里到那里，再到那里，再到那里的过程。这就是许多公司构建大量非常酷的编码代理、构建大量非常酷的客户支持自动化项目、深度研究项目等的方式。在2025年，我们已经转向了这种模型，其中所有事情都发生在这个链式思维中。这就像模型在其推理过程中足够聪明，可以弄清楚

它应该调用哪些工具，然后弄清楚它走错了路，掉头再尝试其他方法。我认为你已经摆脱了整个确定性工作流程构建过程。OpenAI一直在研究强化微调等工具，以使开发人员自己可以使用它。

我认为此后的下一步将是如何摆脱你拥有的10到15个工具的限制？你如何才能将这个东西公开给数百个工具，让它弄清楚哪个是正确的工具，然后利用

利用这些工具。我认为这确实是下一个突破。然后这个东西就变得像，它拥有它需要的所有超能力。它拥有计算能力。它拥有关于不同工具轨迹的推理方法。它可以访问许多工具。所以我对未来几个月真正感到兴奋的是取消工具数量的限制。嗯哼。

但是是的，用今天的模型很难做到这一点，但我认为这将会改变。是的。我认为还包括增加这些模型可以用来完成它们需要做的事情的可用运行时间。我的意思是，如果你是一个人，你可以花一天时间去做某事，并使用尽可能多的工具来完成工作。我认为现在我们已经看到了模型的运行时间，特别是深度研究，是在几分钟内。但是

能够让这些事情持续数小时甚至数天将会产生一些非常强大的结果。去年，你必须设置如此具体的防护措施并将事情紧密地联系在一起，因为你不能让事情偏离轨道。现在看来，你甚至可以更灵活地允许你做什么。然后显然梦想就是，是的，去那里。这就像你可以跨所有任务使用的数百个工具。去弄清楚。是的，就是这样。完全正确。我认为这不是……让我们看看下一代模型……

概括了开发人员将拥有的所有用例。还有一种强化微调技术，你可以在其中创建这些任务和评分者。如果开发人员可以创建他们自己的任务和评分者，并让模型找到解决特定问题（该问题非常独特于该开发人员的领域）的正确路径、正确的工具调用路径，

那将是令人惊叹的。所以我对即将推出的下一系列模型以及我们从强化微调中获得的早期结果感到非常兴奋。所有这些结合在一起，可以创建真正有用且可靠的代理。真正很酷的事情是，你真的在引导模型的链式思维，你正在教它如何思考你的领域，这是一种非常强大的

思维模型。你就像，“好吧，我该如何思考，就像，你基本上是如何训练一个模型成为一名法律学者，或者训练它成为一名医生或类似的人？”你真的像训练它的思维方式一样，就像四年大学会训练你以特定方式思考一样。因此，我认为强化微调是一个很好的例子，说明你将在哪里看到这些模型的真正有趣的垂直化。是的。为此，我的意思是，你如何考虑，我觉得人们谈论的一个经典问题是，你知道，你可以提供，像

我相信人们想要一些现成的工具，使评分和评估变得容易。与此同时，其中一些领域在其自身的问题上是如此的特定。你如何考虑基础设施层面，为正在进行该领域微调的人员提供合适的工具级别，例如法律或医疗保健？我会说这仍在进行中。我们像

我认为现在我们公开的东西基本上是，我们允许，我们正在提供一种方法让开发人员构建他们自己的评分者。例如，如果你，如果你有一个评估，你展示在医疗任务上达到50% 的效果，对吧，你可以构建这些评分者。假设可以根据某种类似于

已知的事实，例如医学教科书等，交叉引用模型的链式思维或其他输出内容。对吧。因此，在微调过程中，你可以对模型进行排序，以便能够产生越来越好的输出，并且只是，是的，只是能够以这种方式引导它。因此，我们正在提供基本的构建块，嗯，主要只是这些非常灵活的评分者，允许你

获取模型输出，然后根据某种事实对其进行评分，或执行某种代码来证明，“是的，这是数学上正确的。”我们不仅仅是检查这个字符串是否等于这个字符串，对吧？实际上它有一些数学上的正确性。是的。我的意思是，我觉得现在人工智能领域最大的问题是在许多方面，什么实际上是可以评分的。我的意思是，我觉得这是测试时间计算和你可以扩展的内容中的一个大问题。显然，我认为如果你以医疗保健和法律为例，

你知道，对这些评估的一些批评是，“好吧，很酷，你知道，成为一名律师并不是通过律师资格考试。成为一名医生并不是通过这些医学考试。任何事情，你看到现场的人在做的事情，你觉得是创造性地利用这种方法的最佳方式吗？老实说，在与那些在内部构建了围绕操作员和深度研究的事物的人交谈之后，就像，

现在这样做非常具有挑战性，需要大量的迭代。我认为我还没有看到任何像产品化一样的东西

以一种适合你领域的方式进行评分和任务生成。我认为这是今年要解决的最大问题，如果不是，它甚至可能会持续到明年。这项技术将会出现，但是你将如何真正构建真正好的任务和评分者将是一件非常具有挑战性的事情。

是的，我知道现在这是可能的。这些产品存在。所以你知道构建像深度研究这样的东西是可能的。互联网上也有一些对此的复制。所以你在这里有足够的证据。只是关于你如何将其产品化，以便几乎任何人都可以使用它。这将是困难的。

计算机使用呢？你今天如何为开发人员分类他们应该如何考虑使用它，它在哪些地方有效，哪些地方无效？计算机使用出人意料地有很多很酷的用例。最初，我们认为许多计算机使用用例将围绕没有API的遗留应用程序。

而且人们多年来一直在尝试自动化这件事，但他们一直没有成功。情况确实如此。我们确实有一些客户在医疗领域尝试过它，他们在那里有一些超级手动任务，人们只是在三个或四个不同的应用程序中点击来完成事情。

而且效果非常好。但我们也看到了一些公司使用它来研究谷歌地图的例子。所以我认为Unify GTM是我们在alpha阶段早期使用过它的公司之一。他们基本上，他们会让气候技术

初创公司提出诸如“这家公司是否扩大了其充电网络？”之类的问题。因此，代理会做的是打开谷歌地图，打开街景视图，然后去各个地方查看是否有更多充电器。这真的很酷。我不知道。这真的很酷。这真的很酷。我就像，“好吧，谷歌地图确实有API。我实际上不知道街景是否有API，但弄清楚确切的位置和查看的方向可能非常困难。”

因此，所有这些，就像，你几乎可以自动化任何事情。这很酷，对吧？所以你可以从那里开始，然后你之后可以考虑API方法。完全正确。我的意思是，有一个整体，像，很多，很多领域，像，不映射到JSON，对吧？就像，你不能在纯文本中通过网络提供它们。所以，像，你需要某种组合的这些用例，像，

视觉和文本摄取，我认为非常适合Kua。是的，这是一个非常有趣的例子。我不知道发生了什么。是的，Unify的用例令人着迷。这真的很酷。我被震惊了，显然，你有很多alpha测试人员等等。所以你发布了这个。然后第二天，我觉得每家大公司都表示，这是我们使用这个API构建的令人惊叹的东西。任何特别的收藏，即使是在发布后的短短一周左右，你没有预料到的任何特别的收藏，或者人们使用这些方法的任何很酷的方式？哦，这是一个好问题。alpha之后，让我们想想。

好吧，计算机使用的是最酷的。我认为你拥有……我对计算机使用的平台参与者也感到非常兴奋。就像如果你考虑……

我们拥有的其他工具。所以我们有网络搜索、文件搜索和计算机使用。网络搜索，你有很多公司提供API，让人们能够从网络获取数据，将其放入模型的上下文中。文件搜索非常成熟，老实说。你拥有向量数据库行业。对于计算机使用，我认为事情还处于早期阶段。人们或企业想要做的主要事情是获取这些

云中的Docker容器或这些虚拟机，然后将他们的软件放入其中，将他们的身份验证放入其中，以便他们可以去自动化事情。有一些非常酷的。有一个提供此服务的Browserbase。有一家名为Scrappybara的YC初创公司，我认为它在使计算机使用模型与托管虚拟机很好地协同工作方面拥有更好的开发人员体验。

而我是一个开发平台人员。所以对我来说，就像查看那些平台游戏一样，好吧，人们将在其之上构建的东西是什么，这非常令人兴奋。所以，是的，我会说这是我的前两名基于浏览器的和scrappy bar。我很高兴看到他们会做什么。是的，我认为Arc也在做一些很酷的事情。他们基本上是在构建一个

工具，他们基本上会让你打开一个标签并给它一个指令，然后它会在后台做一些事情。我认为这非常类似于操作员用例，但它确实烘焙到产品中。我的意思是，它只是一个网络浏览器。你正在使用它，对吧。它不像

不一定烘焙到你的网络浏览器中的标签中。它实际上只是浏览器本身的一部分。我认为这种本地集成非常酷。是的。我认为他们称之为DIA或其他什么。那是存在的。那超级酷。太棒了。你有没有注意到到目前为止，一些最老练的用户是如何使用这些API的，你就像，“天哪，我希望我们能够更广泛地传播这一点。”如果我们只是在播客上，我们可以告诉全世界这是一种使用这些东西的好方法。你有没有注意到，一些最老练的人正在使用的一些模式？

对于工具来说，它仍然感觉很早。我认为在alpha阶段，我们确实发现了一些人，你知道，他们试图让模型和工具做他们试图让它做的事情。如果那不起作用，他们会尝试很多提示工程。如果那不起作用，他们会将此作为工作流程中的一个步骤。我认为，像，

通过这些步骤，他们通常会得到他们想要的东西。这就像，“嘿，网络搜索，这个工具没有给我我需要的东西，但我能否将其作为我的工作流程的一部分，其中这只是从网络获取信息的一个步骤，然后我将其传递给其他东西，无论是确定性的还是另一个LLM步骤。”但是

总的来说，我会说现在还为时过早。我们将在接下来的几周内发现很多这样的事情。是的。我认为一个，为了稍微反转一下这个问题，我很高兴我们能够发布的一件事是在代理SDK中，这个想法是我们将把你的工作或你的任务的关注点分散到许多不同的代理中。这非常类似于单处理器计算机与多处理器计算机。你只是允许每个代理专注于一项任务，然后你给它所有上下文，然后

你在这些任务上的效率就会大大提高，对吧？因为你不会试图提示一个代理来做一百件不同的事情，对吧？你只是像把它分散开来。所以我真的很高兴看到我们，我不确定我们是否发明了这个范例，我假设我们没有，但只是像将它作为一个真正的一流模式，我很高兴，我认为那真的很酷。是的。不，这太有趣了，因为我觉得你暗示了这样一个事实，就像，“嘿，如果它不起作用，你可以把它作为一个步骤添加进去。”我觉得我们投资方面的一个有趣的问题是，就像，

很多人，无论模型的当前能力如何，他们都会构建他们需要的任何脚手架来使它们工作。有时你会想，“好吧，这让你现在就能将产品推向市场，并提供有价值的产品。”与此同时，如果你去海滩等待三个月或六个月让模型变得更好，他们可能只需要用你的100个工具做一件事情，而不是将步骤链接在一起。所以我很好奇你如何看待人们围绕模型构建的步骤。随着时间的推移，这一切都会被淘汰吗？还是其中一些有用？

我认为这是最重要的，就像代理或代理和工具编排一样，因为

我的观点是，模型比大多数人工智能应用程序正在使用的模型要先进得多。从这些模型中可以提取如此多的价值，以至于围绕模型构建东西以使其真正有效是一件极其重要的事情，人工智能初创公司应该这样做，人工智能产品也应该这样做。这就像看到……

一次又一次地，即使在客户支持自动化方面，这作为一个概念已经存在一段时间了，我们在2023年末和2024年初看到几家公司真正做到了这一点。采用速度一直比较慢。你没有看到那么多公司像前10、15、20家公司那样快速行动。

这仅仅表明，擅长编排、仔细查看你的跟踪、弄清楚如何进行提示工程、拥有一个评估集，以便你的提示不会降低其他东西的重要性。这在今天非常困难。这太难了。所以我告诉人们，这正是应该关注的事情，是如何让这些模型真正有效。是的，100%。我认为，同样，像，

你知道，将你的任务分解成许多不同的代理的想法就像，只是使调试整个工作流程变得更容易，对吧？因为如果你有一个非常强大的模型，它有100条指令，你改变几个标记，对吧，它可能会极大地改变你的评估结果，对吧？但是如果你只有一个

你知道，移交代理，你有一个分类代理，你有一个，像调整每一个都变得更加孤立，你不会，你知道，爆炸半径会更小，因为你正在对你的评估进行爬山。我认为当你在潜在空间时，你提到你喜欢，你知道，随着时间的推移，你想添加更多旋钮来使，你知道，为开发人员提供更多可定制的东西。你认为随着时间的推移这会是什么样子？而且，你知道，你如何看待提供相对易于使用的开箱即用型产品与最终的可定制性之间的这种张力？是的。

是的，完全正确。我的意思是，这种像API作为阶梯的想法是我们设计响应API时从第一性原理中获得的。我认为它实际上归结为几件事，对吧？就像你想开箱即用地提供很多权力。你想让简单的事情变得非常容易。

然后你希望人们能够为他们付出的每一份努力获得更多回报。因此，对我们来说，我认为这是一个很好的例子，实际上是文件搜索，它实际上非常易于开箱即用。你上传一些文档。你甚至不必在API中这样做。你可以在另一个网站上做到这一点。你输入你的向量存储ID。

它就能工作。现在假设，好吧，这对于我的用例来说并不完全适用。好吧，现在我实际上有旋钮可以进去调整块大小。默认值为 400。也许我想将其设置为 200。也许我想将其设置为 1000。所以我有了这些旋钮。它们有合理的默认值。因此，我可以深入一点，为我投入的一切获得更多回报。

而且，你知道，在文件搜索示例中，它比这要深入得多，对吧？您可以进行元数据过滤，您可以自定义重新排序器，对吧？但是这些东西并不是，我们不会强迫你在一开始就设置所有这些东西，对吧？我们更喜欢把这些东西给你，并向你展示它们。它们在文档中，你可以找到它们。但是如果你只是在试用 API，你不想考虑

你会想，什么鬼是重新排序器，对吧？所以是的，这就是我们考虑它的方式，使其尽可能简单。我认为我们实际上花了相当长的时间试图将调用 API 的快速入门减少到四行 curl 代码。我们真的对此很痴迷。它应该这么简单。但是如果你想的话，你还可以设置 50 多个参数。它们将具有合理的默认值。随着时间的推移，您可能还想添加哪些其他旋钮？嗯。

这是一个好问题。哦，是的。我的意思是，对于像网络搜索这样的工具，你基本上想添加网站过滤。现在这是一个很大的要求。你只需要搜索整个互联网，或者你可以提示你的方式进入它。特定位置，也在网络搜索中。现在您可以设置城市，您可以设置国家/地区，但实际上可以设置到街区甚至法院。

这对于天气、事件类型查询非常重要。尤其是旧金山的小气候，对吧？是的，说真的。实际上，我们非常期待使用 Responses API 做的一件事是将我们在 Assistance API 中拥有的所有功能都构建到其中，但不会强迫用户使用它。我认为我们在 2023 年 11 月发布了 Assistance API。它具有完整的概念，即存储您的对话、存储您的……

辅助对象中的模型配置等。我们发现开始攀登这座山非常困难。对于响应，我们采取了另一种方法，您从单个 API 调用和单个端点开始，只有一个概念需要学习。然后，也许您想将您的对话存储在我们这里，以便您可以选择使用线程对象的等效项。也许您想将您的模型配置存储在我们这里，以便您

您可以选择一种辅助程序类型的对象。您可以插入这些内容。您只需配置一个参数。这是一个旋钮，您必须让 OpenAI 为您托管该内容。

所以是的，我认为这是我们短期内真正想要实现的另一组旋钮。是的，完全正确。回顾您之前发布的一些 API，显然这些 API 主要旨在取代这些 API。就像任何教训或类似的东西一样，嘿，我们做得很对。或者实际上我们有点错过了目标，我们在当前迭代中已经修复了它。是的。

马克·曼德尔：完全正确。我的意思是，我认为我们用 Assistance API 做得很对的一件事，尤其是工具的使用。这就是我们真正弄清楚的地方——我们看到了大量的使用，尤其是在文件搜索工具方面。这就是 API 真正找到市场契合点的地方，对吧？人们想要将自己的数据带到 API 并让模型在其上进行搜索。

但是我们做错的是 Nekunj 说的大多数事情。它太难用了。你无法选择退出上下文存储。很多人不喜欢上下文存储。他们想要更多类似于聊天完成的界面，这样他们就可以在模型的每一轮中提供自己的上下文。但是，聊天完成界面也相当有限。API 只能输出一个东西，而模型可以做很多事情。因此，您希望它能够在后台执行大量操作，然后为您提供其所有思考和所有操作的结果。

我们真的试图将 Assistance API 的最佳部分（工具使用和多个输出等）以及聊天完成的易用性结合起来。很有道理。开发人员现在应该如何看待这套开发人员工具和 MCP 环境？是的，我认为他们可能正在解决不同的问题。

Responses API 侧重于使与模型的这些多轮交互真正出色。因此，模型应该能够……我们正在为模型提供一个基础，使其能够多次调用自身，因此具有多个模型轮次，并多次调用工具，因此具有多个工具轮次才能得到最终答案。所以这就像……

我们已经设置了构建块，即 Responses API。MCP 是您如何使用工具并将工具带给模型。我认为这些东西在某种意义上是相当互补的。我们必须弄清楚我们在工具注册表和工具生态系统方面做了什么，但 MCP 非常酷。那是

这是我们在如何将其带入我们的生态系统方面必须弄清楚的事情。让我印象深刻的一件事是，显然，我觉得在 ChatGPT 发布后的第一年，出现了许多人工智能基础设施公司，他们试图做您现在发布的方面，例如代理编排和向量数据库。您如何看待独立人工智能基础设施公司的机会以及现在哪些地方有意义？

在你们正在构建的基础之上，以及哪些地方可能没有那么有意义。是的，我认为在我们这边，我们正在与我们的用户合作并倾听他们的要求。他们想要一个一站式商店来满足他们希望 LLM 做的事情。他们希望它能够搜索他们的数据和互联网。因此，我们朝着这个方向迈出了一步。话虽如此，我觉得人工智能基础设施公司正在构建……

低级、功能强大的 API，具有无限的灵活性。这种东西总会有很大的市场。我认为我们只需要构建用户要求的东西，那就是这些更开箱即用的工具。我们对整个领域采取了不同的方法。但是会有垂直的、特定的人工智能基础设施公司。我认为

有些公司专门为那里的编码人工智能初创公司构建虚拟机，以便他们可以测试代码并尽快关闭虚拟机。我认为它们被称为 RunLoop 或类似的东西。我听说过它们。是的，完全正确。因此，将会有垂直化的人工智能基础设施，这……

就像，继续这样做似乎很有意义。完全正确，是的。这就像，我们并不总是想参与其中的事情，对吧？是的。我认为，还有，就像，一整类，就像，LLM 运维公司，他们正在做一些，就像，非常有趣的事情，就像，帮助你，就像，管理你的提示，帮助你，就像，管理你的账单，并了解，就像，你的使用情况在哪里。我认为那种东西，就像……

也很酷。它不一定是低级基础设施，但它仍然是开发人员关心的东西。是的，以多模型的方式，多提供商等等。完全正确，是的，就像开放路由器之类的东西。是的。是的。显然，你们每天的大部分时间都在与开发人员交谈并了解他们的愿望清单。听起来你们已经将很多内容纳入了当前一代的 API，但我相信总有更多的事情要做。您如何看待——您之前谈到评估是问题所在，但您如何看待仍然存在的堆栈范围问题？

这使得今天开发人员使用这些模型变得痛苦，以及一些最需要解决的重要问题。是的，我认为工具绝对是我们需要解决的一件大事。我们有基础构建块。我们需要在其之上构建工具生态系统。显然，MCP 方面的工作非常出色，我们最关心的是弄清楚我们在该方面做了什么。我们还有……

你知道，像计算机使用虚拟机空间还处于早期阶段。我认为这也是另一个重要的方面。例如，您如何让企业安全可靠地在自己的基础设施中部署这些虚拟机并观察它们以及计算机使用模型在其之上所做的一切？我觉得

这些模型，这些计算机使用模型将很快变得如此出色，因为我们只是处于该范例的 GPD 1 或 2 阶段。这件事将非常有用。所以我非常好奇地想看看这方面的基础设施如何发展。完全正确。我的意思是，我认为在 alpha 期间真正让我感兴趣的一件事是人们想要尝试计算机使用工具的所有不同环境。就像我们看到的人……

该模型在浏览器环境中效果最佳。这正是我接受训练的内容。但是人们试图将其与 iPhone 屏幕截图和 Android 一起使用。我想，哇，这太有趣了。我甚至没有想过这样做。所以我认为天空将是人们想要的极限？例如，是否会有一家公司只做某种类似 iPhone 虚拟机或某种类似的东西，你知道，就像曾经有一家公司只做 iOS 的测试框架之类的东西。但现在是针对人工智能模型，就像非常有趣的东西。

因为不同的 Ubuntu 版本，所有这些东西，它实际上只是大量的碎片化。因此，看看社区如何挺身而出填补这些空白将非常有趣。是的。是的。我们还看到人们做所有的事情——我认为有一家初创公司试图进行网络安全工作。因此，尝试使用计算机使用来查找其他站点和界面的漏洞。你只需要四处摸索 30 分钟。是的。这非常有趣。是的。

马克·曼德尔：这真的很令人感兴趣。我的意思是，我想很明显，你工作中有趣的部分之一一定是你们显然与研究团队紧密合作，看到模型的出现。就像，你在模型方面关注的任何事情一样？就像，我相信你们有下一个计算机使用模型或用于代理的下一个模型。就像，任何你喜欢的里程碑或能力一样，上帝，当我们可以做 x 时——就像，每次我得到新模型时，我都尝试 x。如果我们可以做到这一点，那将改变我们开发人员的游戏规则。弗朗切斯科·坎波伊：是的，这是一个有趣的问题。我实际上从许多 YC 初创公司那里获得了很多提示

我从许多 YC 初创公司那里获得了很多提示。他们总是说，这件事永远不会奏效。我实际上将它们保存为我们在开放式仪表板中所谓的预设或提示。每次出现新内容时，我都会尝试其中三到四个。它们几乎都集中在代理工具的使用上。有六七种不同的

工具非常简单。我只是在寻找他们从一轮到下一轮的可靠执行。我对我们下一系列的模型非常乐观，但有些模型它就是做不到。

我还非常热衷于寻找更小、更快的模型，肯定比 Foro Mini 更快，这些模型非常擅长这些工具的使用。因此，如果您考虑一下 O1 周围的工作模型或支持模型，这些模型可以进行这些非常快速的分类和防护，我认为还有很大的改进空间。是的。

关于这些类型的事情。是的，只是最快、最小的分类器将非常酷。完全正确，尤其是因为它们非常易于微调。是的。对吧？您可以根据特定用例真正定制这些内容。所以是的，拥有这样的一组将非常酷。对我来说，它是差异。

我只是希望模型能够吐出一个差异，它可以干净地应用到我的代码中，它就能工作，我不必修改它才能……这将是巨大的。这将是真正意义上的巨大。模型并不真正喜欢理解——它们并不真正理解行号。马克·曼德尔：你的反应是什么？显然，最近中国出现了一些非常

令人印象深刻的代理工作。我认为，你知道，它总是似乎最尖端的代理将与最尖端的模型一起出现，但显然，我的意思是，你知道，我认为他们正在使用 Anthropic 模型等等，但我感觉它可能有点挑战了这种范例。所以我很好奇你对其中一些演示的反应。是的。

我的反应是，这就是我们在内部一直在说的，模型中存在这些能力，但很少有人能够利用它。我认为这太疯狂了，仍然是这样。我们需要让开发人员和每个人都能够使用模型构建更强大的东西，而无需成为优秀的人工智能和机器学习人员。所以

我只是觉得它证实了这样一个事实，即为人们提供合适的工具，为人们提供合适的模型，帮助他们将这些工具与代理 SDK 等结合起来，使这些东西可观察，以便越来越多的人能够构建像我们从中国看到的东西一样的东西。是的，这就是我的看法。我认为只是让飞轮从评估到生产再到微调，然后再回到评估，这个循环更快，这是一个如此强大的循环，我们只需要让它更快。

非常简单。是的。你认为哪些关键因素可以使它更简单？老实说，这是最重要的事情。我不知道我们是否有好的答案。我的意思是，OpenAI 的研究团队一直都在这样做。该模型在聊天方面越来越好。它在进行所有深入研究方面越来越好。下一个运算符模型将更强大地执行计算机使用任务。

你如何将它产品化是我们需要弄清楚的事情。显然，通过大量的辛劳以及密切观察您的跟踪、创建正确的评估和评分器，它肯定有效。我们只需要将它产品化，我们需要弄清楚如何使它变得容易。

它需要比现在容易 10 倍。这绝对是可行的。您可以创建一个评估，但创建评估需要大量工作。所以我认为对我来说，这是最重要的事情。这就像，我们如何使评估您的任务、您的工作流程的过程更容易？不，我的意思是，这很有趣。我被它震惊了。感觉我们有一个新模型，人们花了六到九个月的时间试图发现用例。他们可能发现了这些模型实际可以做到的 1%，然后就转向下一个模型。

所以这很疯狂。我的意思是，显然，你知道，我认为我们都觉得我们正处于这种超级巨大变化的边缘。而且，你知道，感觉就像，你知道，我们正在，你知道，尤其是在你使这些工具更容易使用的情况下，代理将越来越普遍。如果我只是一个普通的企业或消费者 CEO，而我还没有过多地考虑这个问题，那么我会在那些人的位置上做什么？如果你经营一家公司，你知道，在这个代理未来中，它与这些模型有一些互动方式？是的。

它将开始探索这些前沿模型，开始探索计算机使用模型，在内部采用一些工作流程，并尝试了解构建这些多代理架构以端到端地自动化事物。

我觉得这是你现在可以做的最实际和实际的事情。在工具方面，找出您的哪些手动工作流程需要工具界面并开始这样做。我觉得……

在云时代曾经流行的整个数字化转型和自动化正在卷土重来。有时我与用户交谈时，他们会说，我们想自动化整个过程，但要完成 90% 的工作是弄清楚如何获得对您正在使用的某些工具的编程访问权限。LLM 部分只是中间的一小部分，我想……

这对我们来说是一个非常不同的问题。是的，您现在可以使用计算机使用来解决它并尝试将其投入生产。但实际上只是找到自动化应用程序的方法，尝试前沿模型可能是我推荐的主要事情。是的。我认为在这个时代成为一名开发人员非常有趣，因为长期以来，我们作为开发人员一直在不断地自动化我们工作中最低的 20%，无论是通过更好的框架、更好的编程语言还是其他什么。所以我认为，对我来说，如果我经营一家公司，我会问我的员工，你每天最不喜欢做的事情是什么？让我们尝试找出自动化它的方法。这将使每个人都感到快乐。当然，它会提高生产力。所以，是的，这就是我考虑的方式。是的。你们做过吗？

不，我没有。他们太忙了。不幸的是，我必须寄出我的工资等级。我喜欢这个。我的意思是，看，这是一个引人入胜的对话。我们总是喜欢以快速问答环节结束，我们在最后五分钟塞进了一堆过于宽泛的问题。所以也许首先，我很想知道你对当今人工智能领域中被过度炒作的一件事和被低估的一件事的看法。是的。

我的答案是，代理既被过度炒作又被低估。我们已经讨论代理几年了。我们经历了两个完整的炒作周期。是的，我知道。与此同时，被低估是因为，嘿，那些真正弄清楚并构建深度研究型事物或完全自动化一些真正手动任务的公司能够做到如此之多。所以，是的，这就是我的看法。是的。

我的意思是，你们显然非常接近前沿。我很想知道，就像你在过去一年中改变了对人工智能领域中的一件事的看法一样？

对我来说，这绝对是这些推理模型的力量……我们一直都知道这种推理即将到来。我没有意识到这与工具的使用相结合将如何创造像运算符和深度研究这样的东西。只是看到有可能摆脱这种工作流程……

每家公司都在做这件事，转向完全代理的产品，它能够在它的思维链中找出使用方法，并真正提供非常强大的结果。这对我来说是最大的转变。然后像看到我们强化微调 alpha 的早期结果，那些是，你知道，那，

这对我来说是最大的转变。这就是它如何做到这一点。是的，对我来说，这只是广泛的微调。我只是喜欢能够——我曾经认为，当模型从 GPU 上脱颖而出时，你可以放入模型的所有知识都已经被烘焙进去了。但是能够真正添加大量您自己的自定义信息，并看到这对于特定任务的影响有多大，这令人印象深刻。

你认为长期来看，应用程序构建者的最大区别是什么？我认为这是风险投资中的一个问题。是深入了解模型以及如何真正构建这些代理？只是非常了解一个领域，所以你知道要构建什么？你们对此有何看法？我认为这是一种结合。然后还有这样的想法，就像，

如果你拥有任何特殊的秘诀，能够真正从我们认为存在的模型中提取 AGI，我不知道那是什么。如果它是提示工程、工作流程编排或其他什么，我认为这将是一个巨大的区别。对我来说，它非常擅长编排。我觉得这将是最大的。你到底是什么意思？将您的工具和数据与 AGI 结合起来。

一堆模型调用与一堆模型，无论是以强化微调和在思维链中调用这些工具的形式，还是以将多个 LLM 链接在一起并非常擅长快速执行、评估和改进它的形式。我认为这是最大的挑战

在未来一两年内推动人们前进的技能。太棒了。你认为当今这些模型最未被探索的应用是什么？我没有在科学研究方面看到任何疯狂的事情。当 O 系列模型开始时，主要的希望和预期是，在科学研究进行的速度方面将会有一个质的飞跃。我认为我们已经看到了一些关于这方面的早期报告，但是

我非常好奇地想看看这将如何改变。我认为，对整个 AI 行业的批评如此之多，是因为界面还不够完善。我认为尤其对于……

像学术界这样的领域，你知道，一切都是和以前一样的方式。我认为找到合适的界面将非常关键，并将推动那里的广泛采用。是的。机器人技术也可能。是的。这就像，可能是时候发生一些大事了。是的。开放的起源。是的。古老的 Ruby scoop。你认为今年的模型进展会比去年多还是少，还是一样？

哦，它会更多。我认为它必须更多。是的。尤其像，我的意思是，这是一个反馈循环，对吧？尤其像我们一样，模型正在教我们如何改进它们，使用更好的数据等等。这就像我们在研究方面经常做的事情。你最兴奋的人工智能初创公司或类别是什么？就像 OpenAI 之外？

我来自旅游行业。在我加入 OpenAI 之前，我做的是一家旅游公司。所以我真的很兴奋地看到有人真正破解了它。我认为旅游业根深蒂固，只有少数几家大型参与者。所以我真的很兴奋地看到谁会建立真正的人工智能旅行代理。每个人最喜欢的代理演示。完全正确。但是像没有人一样，它不像一个，没有一个产品供人们使用。所以我真的很兴奋。为什么它还不工作？我不知道。我会在之后弄清楚。是的。

我经常使用 Granola。你听说过吗？是的，当然。是的。这是我最近最喜欢的 AI 工具。在每次会议中，我都担任非常繁重的角色，所以它很有帮助。是的。是的。好产品。好吧，我认为有很多有趣的线索供大家关注。显然，你们最近发布了很多很棒的东西。我想把最后一句话留给你。我们的听众可以去哪里了解更多关于 API 的信息，关于你想要指向他们的任何地方？轮到你了。

是的。我们的文档，platform.openai.com/docs。还有 Twitter 上的 OpenAI Devs 频道或帐户。社区论坛始终是一个很棒的地方。我不知道它的域名。是 forum.openai 吗？community.openai.com。在找到它之前，只需搜索 OpenAI 社区论坛即可。是的。或者向 ChatGPT 询问它。或者向 ChatGPT 询问。太棒了。非常感谢你们两位。这太有趣了。酷。太棒了。非常感谢。非常感谢。

你

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steven Heidel on OpenAI’s New Agent Development Tools 44:42 Share

Unsupervised Learning

Deep Dive

Shownotes Transcript

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steven Heidel on OpenAI’s New Agent Development Tools