We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steve Coffey on OpenAI’s New Agent Development Tools

2025/3/25

Unsupervised Learning

AI Deep Dive AI Chapters Transcript

People

Francesc Campoy

Mark Mandel

Nikunj Handa

Seth Vargo

Steve Coffey

Topics

Nikunj Handa: 我认为未来消费者与智能体的交互将更加无缝地融入日常使用的各种产品中，不再局限于像ChatGPT这样的特定平台。智能体API的应用将呈现高度垂直化的趋势，开发者将充分发挥其在特定领域的专业知识，创造出我们目前难以预测的各种应用形式。智能体获取网络信息的方式也在不断演变，从简单的单次搜索转向更复杂的迭代式信息获取、链式思考和并行处理，这将极大地提升信息处理效率和决策能力。企业应该优先构建内部多智能体系统来解决实际业务问题，并在时机成熟时再考虑将其公开到互联网。2024年，智能体应用的流程相对简单，工具数量有限；而2025年，链式思考模式将成为主流，模型能够自主选择和调用多个工具，并根据情况调整策略。未来智能体应用的关键在于去除工具数量的限制，允许模型访问和使用数百个工具，从而充分发挥其潜力。强化微调技术将赋能开发者创建自定义的任务和评分器，从而训练模型更好地解决特定领域的问题。目前，我们提供的是构建自定义评分器的基本模块，未来需要解决的是如何更便捷地创建高质量的任务和评分器。计算机视觉技术与文本输入相结合，可以应用于处理缺乏API的遗留应用程序以及需要视觉信息的任务。计算机视觉模型的平台化应用前景广阔，例如Browserbase和Scrappybara等公司提供的服务。目前开发者使用智能体API的策略主要包括：尝试让模型和工具直接完成任务，进行提示工程，以及将模型和工具作为工作流程中的一个步骤。将任务分解给多个智能体可以提高效率并简化调试过程。模型能力远超大多数AI应用的利用程度，因此构建辅助模型运作的工具和流程至关重要。在设计Responses API时，我们遵循了“API如同阶梯”的原则，即提供易于使用的默认设置，同时允许开发者进行更深入的自定义。Responses API和MCP解决的是不同的问题，两者可以互补。OpenAI致力于提供一站式服务，但独立的AI基础设施公司仍然有其存在的价值，尤其是在构建高度灵活的底层API方面。目前需要解决的挑战包括构建工具生态系统、完善计算机视觉虚拟机基础设施以及简化模型评估流程。未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。中国近期出现的先进智能体案例证明了模型本身具备强大的能力，关键在于提供更便捷的开发工具和流程，让更多人能够利用这些能力。企业应该探索前沿模型和计算机视觉模型，并尝试构建多智能体架构来自动化内部流程。企业应该关注员工日常工作中最不喜欢的任务，并尝试利用AI技术进行自动化。智能体技术既被高估也低估了，虽然已经经历了多个炒作周期，但真正能够有效利用智能体技术来解决实际问题的公司仍然很少。过去一年中，我对推理模型与工具使用的结合力量有了新的认识，这使得构建真正强大的智能体应用成为可能。过去一年中，我对微调技术的强大力量有了新的认识，这使得能够在特定任务上显著提升模型性能。长期来看，应用构建者的核心竞争力在于能够有效地整合工具、数据和模型，并进行持续的评估和改进。有效地协调工具、数据和模型调用是未来应用构建者的核心竞争力。目前科学研究领域对AI模型的应用仍有很大潜力。未来一年模型的进步速度将超过过去一年。我最期待看到的是能够有效解决旅行规划问题的AI应用。 Steve Coffey: 智能体API的应用将非常垂直化，开发者比OpenAI更了解各自领域的应用场景，所以未来应用形式难以预测。2024年智能体应用流程清晰，工具数量有限；2025年则转向链式思考，模型能自主选择和调用多个工具。未来智能体应用的关键在于去除工具数量限制，允许模型访问和利用数百个工具。强化微调技术允许开发者创建自定义任务和评分器，从而训练模型更好地解决特定领域的问题。目前OpenAI提供的是构建自定义评分器的基本模块，未来需要解决如何更便捷地创建高质量任务和评分器的问题。计算机视觉技术与文本输入相结合，可以应用于处理缺乏API的遗留应用程序以及需要视觉信息的任务。计算机视觉模型的平台化应用前景广阔，例如Browserbase和Scrappybara等公司提供的服务。目前开发者使用智能体API的策略主要包括：尝试让模型和工具直接完成任务，进行提示工程，以及将模型和工具作为工作流程中的一个步骤。将任务分解给多个智能体可以提高效率并简化调试过程。模型能力远超大多数AI应用的利用程度，因此构建辅助模型运作的工具和流程至关重要。Assistance API在工具使用方面做得很好，但易用性方面存在不足。Responses API和MCP解决的是不同的问题，两者可以互补。OpenAI致力于提供一站式服务，但独立的AI基础设施公司仍然有其存在的价值，尤其是在构建高度灵活的底层API方面。目前需要解决的挑战包括构建工具生态系统、完善计算机视觉虚拟机基础设施以及简化模型评估流程。未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。过去一年中，我对微调技术的强大力量有了新的认识，这使得能够在特定任务上显著提升模型性能。长期来看，应用构建者的核心竞争力在于能够有效地整合工具、数据和模型，并进行持续的评估和改进。有效地协调工具、数据和模型调用是未来应用构建者的核心竞争力。 Mark Mandel: Assistance API在工具使用方面做得很好，但易用性方面存在不足。 Seth Vargo: Responses API和MCP解决的是不同的问题，两者可以互补。 Francesc Campoy: 未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。

Deep Dive

Shownotes Transcript

我是雅各布·埃弗隆，今天在《无监督学习》中，我们进行了一次非常广泛的讨论。

我们讨论了开发人员应该如何考虑这些代理在哪些地方有效，在哪些地方无效，以及计算机使用模型以及这些模型是如何使用的。我们讨论了企业应该如何为这种基因特征构建，以及什么将使构建在这些模型之上的应用程序构建者与众不同。我们还谈到了人工智能基础设施，开发人员仍然需要什么，以及初创企业仍然有哪些竞争空间。在 OpenAI 发布了一个非常引人注目的版本之后，我们立即进行了这项工作，这非常有趣。我认为大家会非常喜欢这一集。事不宜迟，这是我们的节目。

嗯，非常感谢你们两位来到播客。非常感谢。是的。很高兴来到这里。很高兴来到这里。是的。我的意思是，恭喜。OpenAI 从来没有沉闷的时刻，但我觉得上个月就像按照你们的标准来说，你们发布的数量甚至更加疯狂。是的。是的。这确实是一段旅程，不是吗？这很紧张。是的。

我当然可以想象。好吧，我觉得有很多事情我们想深入探讨一下你们最近发布的所有内容。但也许首先从最高层面开始，我很想听听你们对未来五到十年消费者如何与代理互动这种长远愿景。是的，我的意思是，现在我们看到这一切都发生在网上。

在 ChatGPT 等服务中，您有深入的研究，您有操作员，人们会专门去这个地方。我认为发布这些代理产品的底层模型和 API 最令人兴奋的事情

是我们将看到它们出现在越来越多的网络产品中。因此，计算机使用将来到您想使用的浏览器，或者操作员自动化您每天在工作中执行的任务，以及为您完成所有点击、填写表格和所有研究工作，

我认为它只会越来越深入地嵌入到您今天每天使用的产品中。至少在 API 平台上，这是我们最兴奋的事情，就是将这个东西分散开来，让它无处不在。是的，我认为在 API 平台上工作的一件很酷的事情是，你实际上不知道人们想要构建什么。它是垂直化的，对吧？所以在 ChatGPTU 第一方，我们对人们想要做什么有一定的了解。但在 API 中，它就像，

人们比我们更了解他们的领域。对。因此，看看这些产品以及这些模型功能如何进入垂直领域将会非常有趣。是的，他们特别喜欢这样的代理，你会觉得你像是在等待你一样，天哪，我迫不及待地想要拥有，你知道，每个人总是喜欢旅行社，出于某种原因。我不知道你们是否有一个最令人印象深刻的。

我最喜欢的是一个 API 设计代理。史蒂夫和我花费的时间——我们会来回讨论。是的，我们只是在考虑每一个参数名称。应该是 param config 还是 config param？是的。

是的，那将是惊人的。我们可以有一些像深度研究一样的东西，它会查看最佳的 API 设计内容并变得非常好。是的，我们可以根据我们真正喜欢的所有 API 对其进行微调。这实际上是一个非常好的主意。是的，我希望有人采用你的 API，然后给你一个显然会做到这一点的产品。那将是很棒的。那将是梦想，对吧？是的，就是这样。我想很多人都在问的一个问题是，我们显然正处于这些代理的早期阶段，它们正在以针对先前范式构建的方式访问网络并相互通信。

人们对这些代理访问网络和相互通信的方式有很多未来主义的想法。甚至还有一个病毒式的 YC 演示，其中代理意识到与代理交谈，然后他们切换到更容易交换信息的东西。你们如何看待这种演变？显然，我确定开发人员会带你走各种方向，但对这种运作方式有任何初步的想法吗？是的，当然。我认为关于代理通信或从网络获取信息，我们已经看到了很大的变化。我们已经从这样一个世界转变过来，在这个世界中，一个代理会进行单轮

决定是否要搜索网络，从网络获取信息并合成响应。我认为这就是 2024 年的主题。2025 年已经涉及到像深度研究这样的产品，其中模型正在从网络获取信息，思考它得到了什么，重新考虑它的立场，

从网络获取其他信息，并行打开多个网页以节省时间。这种整个思维链、工具调用或在推理过程中调用工具是关于代理如何从网络访问信息方面的一个重大转变。

而且你完全可以想象，在不久的将来，这些网页提取细节会被其他代理所取代。我甚至不知道这个代理是否需要知道它正在与另一端的 AI 代理交谈。它只是一个它调用的端点，它就像，哦，它得到了一些非常有用的信息，它用来做出决定、回溯或做一些完全不同的事情。

是的，我认为这一切都将非常无缝地嵌入到这个思维链过程中，其中工具调用只是发生在互联网、您的私人数据和您的私人代理之间。这就是我认为它将走向的方向，就像

在接下来的几个月里。——你认为公司应该这样做吗？因为显然，世界的一个版本是他们可以等待代理开始访问他们的网站。另一个版本是他们应该积极地为此而构建并创建他们自己的代理，以便更容易让消费者代理访问它。运行这些产品的公司应该如何考虑这个问题？——我认为，

开发人员已经在这样做了。我们发布了代理 SDK 正是为了这个原因，因为人们正在创建这些多代理群来解决这些业务问题。如果您查看客户支持自动化问题，您将有一个代理负责您的退款，另一个负责账单和运输信息，另一个负责决定是否提取常见问题解答或升级给人工。所以

我们已经看到这种多代理架构非常流行，我们希望使开发人员更容易在其上构建，这就是我们构建代理 SDK 的原因。现在，您何时开始将这些代理公开到公共互联网以及这如何变得有用将非常有趣。我认为我们还没有看到太多这样的情况，但这在某种程度上是有道理的。

我对公司和产品的建议是，只需构建这些内部 AI 代理来解决贵公司今天面临的实际问题。每当很明显将此公开到互联网以供其他人与您沟通是有意义的时候，这种情况就会发生。我认为我们离它不远了，但是，我认为这将在接下来的几个月内发生。是的，完全正确。我认为真正有趣的是，

模型看到的大部分数据都是您自己的数据、聊天记录、文件搜索。我认为真正有趣的是，特别是对于那些与网络连接更紧密的工具，我们将看到更多来自网络的数据进入模型，而不仅仅是您提供的数据，这非常有趣。当开发人员考虑合并和使用这些 API 时，你们使用什么启发式方法来判断代理在今天哪些地方有效，哪些地方无效？你将如何建议大家？

让我们稍微退一步。2024 年，大多数代理产品看起来是一个定义非常明确的工作流程，工具少于 10 个。

最多大约有十几个工具，以及这个精心策划的从这里到那里再到那里的过程。这就是许多公司构建大量非常酷的编码代理、构建大量非常酷的客户支持自动化项目、深度研究项目等的方式。在 2025 年，我们已经转向了这种模型，在这个模型中，一切都在这个思维链中发生。模型在其推理过程中足够聪明，可以弄清楚

它应该如何调用多个工具，然后也弄清楚它走错了路，掉头再尝试其他方法。我认为您已经摆脱了整个确定性工作流程构建过程。OpenAI 一直致力于强化微调等工具，以使开发人员自己可以使用它。

我认为此后的下一步将是，您如何摆脱您拥有的 10-15 个工具的限制？您如何才能将此内容公开给数百个工具，让它找出应该调用的正确工具，然后使用

使用这些工具。我认为这确实是下一个突破。然后这个东西就变成了，它拥有它需要的所有超能力。它拥有计算能力。它拥有关于不同工具轨迹的推理方法。它可以访问许多工具。所以我对未来几个月真正感到兴奋的是取消工具数量的限制。嗯哼。

但是，是的，用今天的模型很难做到这一点，但我认为这将会改变。是的。是的。我认为还包括增加这些模型可以用来完成它们需要完成的工作的可用运行时间。我的意思是，如果你是一个人，你可以花一天时间去做某事，并使用尽可能多的工具来完成工作。我认为现在我们已经看到了模型的运行时间，尤其是深度研究，已经达到了几分钟。

但是能够让这些东西持续数小时甚至数天将会产生一些非常强大的结果。去年，你必须设置如此具体的防护措施并将事情紧密地联系在一起，因为你不能让事情脱轨。现在看来，你甚至可以更灵活地允许你做什么。然后显然梦想就是，是的，去那里。就像你可以跨所有任务使用的数百个工具一样。去弄清楚。是的，就是这样。完全正确。我认为这不是……让我们看看下一代模型……

概括了开发人员将拥有的所有用例。还有一种强化微调技术，您可以在其中创建这些任务和评分者。如果开发人员可以创建他们自己的任务和评分者，并让模型找到解决特定开发人员领域特定问题的正确路径、正确的工具调用路径，

那将是惊人的。所以我对即将推出的下一系列模型以及我们从强化微调中获得的早期结果感到非常兴奋。所有这些都结合在一起，使代理实际上非常有用和可靠。真正很酷的事情是，你真的在引导模型的思维链，你是在教它如何思考你的领域，这只是一个非常强大的……

当你想到它的时候，一种思维模型。你就像，好吧，我该如何思考，就像，你基本上是如何训练一个模型成为一个法律学者，或者训练它成为一个医生或类似的东西？真的，就像训练它的思维方式，就像你知道的，四年的大学会训练你以某种特定的方式思考一样。所以，就像，我认为强化微调是一个很好的例子，就像，你将在那里看到，像，这些模型的真正有趣的垂直化。是的。为此，我的意思是，你如何考虑，我觉得人们谈论的一个经典问题是，你知道，你可以提供……

我相信人们想要一些现成的产品，这使得评分和评估变得容易。与此同时，其中一些领域在其自身的问题上是如此的特定。你如何考虑基础设施层面，为那些在法律或医疗保健等领域进行微调的人提供合适的工具？我会说这仍在进行中。我们就像

我认为现在我们公开的东西基本上是，我们允许，我们正在提供一种方法来让开发人员构建他们自己的评分者。例如，如果您是，如果您有一个评估，您展示在医疗任务上达到 50%，对吧，您可以构建这些评分者。假设可以根据模型的思维链或它基于以下内容输出的其他内容进行交叉引用，例如，

呃，某种像已知真相一样的东西，比如医学教科书或类似的东西。对。所以在微调过程中，你可以对模型进行排序，以便能够产生越来越好的输出，并且只是，是的，只是能够以这种方式引导它。所以我们正在提供基本的构建块，嗯，主要只是这些，这些非常灵活的评分者，允许你像，

获取模型输出，然后根据某种真相对其进行评分，或执行某种代码来证明，是的，这是数学上正确的。我们不仅仅是检查这个字符串是否等于这个字符串，对吧？实际上它有一些数学上的正确性。是的。我的意思是，我觉得现在人工智能领域最大的问题是实际上什么可以被评分。我的意思是，我觉得这是测试时间计算和你可以扩展什么的大问题。显然，我认为如果你以医疗保健和法律为例，

你知道，对这些评估的一些批评是，好吧，很酷，就像，你知道，成为一名律师并不是通过律师资格考试。就像，成为一名医生并不是，就像，通过这些医学考试一样。任何事情，就像，你看到现场的人在做的事情，你觉得是创造性地利用这种方法的最佳方式吗？老实说，在与那些在内部构建了 operator 和深度研究相关事物的人交谈之后，就像，

现在这样做非常具有挑战性，需要大量的迭代。我认为我还没有看到任何像产品化一样的东西

以一种适合你领域的方式进行评分和任务生成。我认为这是今年要解决的最大问题，如果不是，它甚至可能会持续到明年。这项技术将会出现，但是你将如何真正构建非常好的任务和评分者将是一件非常具有挑战性的事情。

是的，我知道现在这是可能的。这些产品存在。所以你知道构建像深度研究这样的东西是可能的。互联网上也有一些对此的复制。所以你在这里有足够的证据。这只是关于你如何将其产品化，以便几乎任何人都可以使用它。这将是困难的。

计算机使用呢？你今天如何为开发人员分类？他们应该如何考虑使用它，它在哪些地方有效，哪些地方无效？计算机使用出人意料地有很多很酷的用例。最初，我们认为很多计算机使用的用例都围绕着没有 API 的遗留应用程序。

而且人们多年来一直在试图自动化这件事，但他们一直没有成功。情况确实如此。我们确实有一些客户在医疗领域尝试过它，在那里人们只是通过三个或四个不同的应用程序点击来完成一些超级手动任务。

而且效果非常好。但是您也看到了，我们还看到了公司使用它在 Google 地图上进行研究的例子。所以我认为 Unify GTM 是在我们 alpha 阶段早期使用过它的公司之一。他们基本上，呃，

他们会让气候技术初创公司提出这样的问题：“这家公司是否扩大了其充电网络？”代理会做的是打开 Google 地图，打开街景视图，然后去各个地方查看是否有更多充电器。这真的很酷。我不知道。

我就像，好吧，Google 地图确实有 API。我实际上不知道街景是否有 API，但弄清楚确切的位置和查看的方向可能非常困难。所以所有这些……

你几乎可以自动化任何事情。这很酷，对吧？所以你可以从那里开始，然后你可以在之后考虑 API 方法。完全正确。我的意思是，有很多像这样的领域，比如不映射到 JSON，对吧？就像你不能在纯文本中通过网络提供它们一样。所以像这些你需要某种组合的用例一样

视觉和文本摄取，我认为非常适合 Kua。是的，这是一个非常有趣的例子。我不知道。是的，Unify 的用例非常吸引人。这真的很酷。我被震惊了，显然，你有很多 alpha 测试者等等。所以你发布了这个。然后第二天，我觉得每家大公司都表示，这是我们使用这个 API 构建的一件很棒的事情。任何特别的收藏，即使是在发布后的短短一周左右，任何你没有预料到的或人们使用这些方法的酷炫方式？哦，这是一个好问题。alpha 之后，让我们想想。

好吧，计算机使用的那些是最酷的。我认为你拥有……我对计算机使用的平台参与者也感到非常兴奋。就像如果你考虑……

我们拥有的其他工具。所以我们有网络搜索、文件搜索和计算机使用。网络搜索，你有很多公司为人们提供 API，以便能够从网络获取数据，将其放入模型的上下文中。文件搜索已经相当成熟了。老实说，你拥有向量数据库行业。对于计算机使用，我认为事情还处于早期阶段。人们或企业想要做的主要事情是获取这些

云中的 Docker 容器或这些虚拟机，然后将他们的软件放入其中，将他们的身份验证放入其中，以便他们可以去自动化事情。而且有一些非常酷的。Browserbase 提供这项服务。有一家名为 Scrappybara 的 YC 初创公司拥有，我认为，围绕使计算机使用模型与托管虚拟机很好地协同工作的更好的开发人员体验。

我是一个开发者平台的人。所以对我来说，就像查看那些平台游戏一样，好吧，人们将在其之上构建的东西是什么，这非常令人兴奋。所以，是的，我会说这是我的前两名基于浏览器的和 scrappy bar。我很高兴看到他们会做什么。是的，我也认为 Arc 做了一些非常酷的事情。就像他们基本上构建了一个，

一个工具，他们将基本上让你只需打开一个标签并给它一个指令，然后它会在后台做一些事情。我认为它非常类似于操作员用例，但它确实内置于产品中。我的意思是，它只是一个网络浏览器。你正在使用它，对吧？它不像

不一定内置在你的网络浏览器中的标签中。它实际上只是浏览器本身的一部分。但是这种本地集成确实很酷。是的。我认为他们称之为 DIA 或其他什么。那是存在的。那超级酷。太棒了。你有没有注意到，到目前为止，一些最老练的用户是如何使用这些 API 的，你就像，天哪，我希望我们能够更广泛地传播这一点？如果我们只是在播客上，我们可以告诉全世界这是一种使用这些东西的好方法。你有没有注意到，一些最老练的人正在使用的模式？

对于工具来说，它仍然感觉很早。我认为在 alpha 阶段，我们确实发现了一些人……他们试图让模型和工具做他们试图让它做的事情。如果那不起作用，他们会尝试很多提示工程。然后如果那不起作用，他们会将此作为工作流程中的一个步骤。我认为……

通过这些步骤，他们通常会得到他们想要的东西。它就像，嘿，网络搜索，这个工具没有给我我需要的东西，但我能不能让它成为我的工作流程的一部分，在这个工作流程中，这只是从网络获取信息的一个步骤，然后我将其传递给其他东西，无论是确定性的还是另一个 LLM 步骤。

总的来说，我会说现在还为时过早。我们将在接下来的几周内发现很多这样的事情。是的。我认为一个，为了稍微反转一下这个问题，就像我真的很高兴我们能够发布的一件事是，在代理 SDK 中，这个想法是我们将把你的工作是什么或你的任务是什么的关注点分解成许多不同的代理。它非常类似于单处理器计算机与多处理器计算机的概念，对吧？就像你只是允许每个代理专注于一项任务，然后你给它所有上下文，然后

你在这些任务上的效率会大大提高，对吧？因为你不会试图提示一个代理来做一百件不同的事情，对吧？你只是把它分散开来。所以我真的很高兴看到我们，我不确定我们是否发明了这个范例，我假设我们没有，但只是像把它作为一个真正的一流模式来发布。我很高兴看到我们，我认为这真的很酷。是的。不，这太有趣了，因为我觉得你暗示了这样一个事实，就像，嘿，如果它不起作用，你可以把它作为一个步骤添加进去。我觉得我们投资方面的一个有趣的问题是，就像，

你知道，很多人，无论模型的当前能力如何，他们都会构建他们需要的任何脚手架来使它们工作。有时你会想，好吧，这让你现在就能将产品推向市场，并给你一个有价值的产品。与此同时，如果你去海滩等待三到六个月让模型变得更好，他们可能就能做到，对吧？有了你的，你知道，100 个工具做一件事，而不是像将步骤链接在一起一样。所以，你知道，我很想知道你如何看待人们围绕模型构建的步骤。就像，随着时间的推移，所有这些都会被消除，还是其中一些有用？是的。

我认为这是最重要的，就像代理或代理和工具编排一样，因为

我的观点是，模型比大多数人工智能应用程序正在使用的模型要先进得多。从这些模型中可以提取出如此多的价值，因此构建围绕模型的东西以使其真正有效是一件极其重要的事情，人工智能初创公司和人工智能产品都应该这样做。它就像……

一次又一次，即使在客户支持自动化方面，这已经作为一个概念存在了一段时间，我们在 2023 年底和 2024 年初有几家公司真正做到了这一点。而且采用速度一直比较慢。你没有看到那么多公司像前 10、15、20 家公司那样快速发展。

这仅仅表明，擅长编排、仔细查看跟踪、弄清楚如何进行提示工程、拥有一个评估集以使您的提示不会降低其他内容的重要性是多么重要。这在今天非常困难。这太难了。所以我告诉人们，这正是应该关注的事情，是如何使这些模型真正有效。是的，100%。我认为，同样，

你知道，将你的任务分解成许多不同的代理的想法就像，只是使调试整个工作流程变得更容易，对吧？因为如果你有一个非常强大的模型，它有 100 条指令，你改变几个标记，对吧，它可能会极大地改变你的评估结果，对吧？但是如果你只有一个

你知道，移交代理，你有一个分类代理，你有一个这个，就像调整每一个代理一样，变得更加孤立，你不会，你知道，爆炸半径会更小，因为你正在对你的评估进行爬山。我认为当你在潜在空间时，你提到你喜欢，你知道，随着时间的推移，你想添加更多旋钮来使，你知道，为开发人员提供更多可定制性。你认为随着时间的推移这会是什么样子？而且，你知道，你如何看待这种提供相对易于使用的开箱即用型产品与最终的可定制性之间的张力？

是的，完全正确。我的意思是，这种 API 作为阶梯的想法是我们设计响应 API 时从第一性原理中获得的。我认为这实际上归结为，你知道，

几件事，对吧？就像你想开箱即用地提供很多权力一样。你想让简单的事情变得非常容易。然后你希望人们能够为他们付出的每一份努力获得更多回报。所以对我们来说，我认为这是一个很好的例子，实际上是文件搜索，它实际上非常易于开箱即用。你上传一些文档。你甚至不必在 API 中这样做。你可以在另一个网站上做到这一点。你输入你的 Vector Store ID。

它就能工作了。现在假设，好吧，这实际上并不完全适合我的用例。好吧，现在我实际上有旋钮可以进去调整块大小。默认值为 400。也许我想将其设置为 200。也许我想将其设置为 1000。所以我有了这些旋钮。它们有合理的默认值。

因此，我可以更深入地了解，并为我投入的一切获得更多回报。而且，你知道，在文件搜索示例中，它比这要深入得多，对吧？您有元数据过滤，您可以自定义重新排序器，对吧？但是这些东西并不是，我们不会强迫你在一开始就设置所有这些东西，对吧？我们更喜欢把这些东西给你，并向你展示它们。它们在文档中，你可以找到它们。但是如果你只是在试用API，你不想考虑

你会想，什么鬼是重新排序器，对吧？所以是的，这就是我们考虑它的方式，使其尽可能简单。我认为我们实际上花了很长时间试图将调用API的快速入门减少到四行curl代码。我们真的对此很痴迷。它应该这么简单。但是如果你想的话，你还可以设置50多个参数，它们会有合理的默认值。随着时间的推移，你可能还想添加哪些其他旋钮？嗯。

这是一个好问题。哦，是的。我的意思是，对于像网络搜索这样的工具，你基本上想添加网站过滤。现在这是一个很大的要求。你只需要搜索整个互联网，或者你可以提示你的方式进入它。具体位置，也在网络搜索上。现在你可以设置城市，你可以设置国家，但实际上可以设置到街区甚至法院。

这对于天气、事件类型的查询非常重要，尤其是在旧金山的微气候中，对吧？是的，说真的。实际上，我们非常兴奋的一件事是使用响应式API将辅助API中的所有功能都构建到其中，但不会强迫用户使用它。我认为我们在2023年11月发布了辅助API。它具有存储对话、存储……

模型配置在助手对象中等等的完整概念。我们发现，开始攀登这座山非常困难。对于响应，我们采取了另一种方法，你从单个API调用和单个端点开始，只有一个概念需要学习。

然后你可能想将你的对话存储在我们这里，这样你就可以选择使用线程对象的等效项。你可能想将你的模型配置存储在我们这里，这样你就可以选择使用助手类型的对象。而这些东西你只需要插入就可以了。你只需要配置一个参数。这是一个旋钮，你必须让我们OpenAI为你托管它。

所以是的，我认为这是我们短期内真正想要实现的另一组旋钮。是的，完全正确。回顾一下你之前发布的一些API，显然这些API主要用于取代那些API。就像任何教训或类似的东西一样，嘿，我们做得非常正确，或者实际上我们有点错过了目标，我们在当前迭代中已经修复了它。是的。

马克·曼德尔：完全正确。我的意思是，我认为我们用辅助API做得非常正确的事情，尤其是工具的使用。这就是我们真正弄清楚的地方——我们看到了大量的使用，尤其是在文件搜索工具方面。这就是API真正找到市场契合点的地方，对吧？人们想要将他们自己的数据带到API中，并让模型在其上进行搜索。

但是我们做错的是尼昆吉所说的许多事情。它太难用了。无法选择退出上下文存储。许多人不喜欢上下文存储。他们想要更多类似于聊天完成的界面，以便他们能够在模型的每一轮中提供自己的上下文。

但是聊天完成界面也相当有限，对吧？API只能输出一个东西，而模型可以做很多事情，对吧？所以你希望它能够在后台做很多事情，然后给你它所有思考和所做事情的结果。所以，你知道，我们真的试图将辅助API的最佳部分，比如工具的使用，以及它们的多重输出等等，以及聊天完成的易用性结合起来。

马克·曼德尔：非常有道理。开发人员现在应该如何看待这种开发工具套件和MCP环境？塞思·瓦尔戈：是的，我认为他们可能正在解决不同的问题。

响应API专注于使与模型的这些多轮交互真正出色。我们为模型能够多次调用自身提供了基础，因此可以进行多次模型轮次，并多次调用工具，因此可以进行多次工具轮次以获得最终答案。所以这就像我们

我们已经设置了构建块，即响应API。MCP有点像你如何使用工具并将工具带给模型。我认为这些东西在某种意义上是相当互补的。我们必须弄清楚我们在工具注册表和工具生态系统方面应该做什么。但是MCP非常酷。那是

我们也必须弄清楚如何在我们的生态系统中引入它。让我印象深刻的一件事是，显然，我觉得在ChatGPT发布后的第一年，出现了许多试图做你目前发布的方面工作的AI基础设施公司，例如代理编排和向量数据库。你如何看待独立AI基础设施公司的机会，以及现在哪些地方有意义？

在你 guys 正在构建的基础之上，以及哪些地方可能没有那么有意义。是的，我认为在我们这边，我们正在与我们的用户合作，倾听他们的要求。他们想要一个一站式商店来满足他们希望LLM做的事情。他们希望它能够搜索他们的数据和互联网。因此，我们朝着这个方向迈出了一步。话虽如此，我觉得AI基础设施公司正在构建……

低级、非常强大的API，具有无限的灵活性。这种东西总会有很大的市场。我认为我们只需要构建用户要求的东西，那就是这些现成的工具。

我们对整个领域采取了不同的方法。但是会有垂直的、特定的AI基础设施公司。我认为有些公司专门为编码AI初创公司构建虚拟机，以便他们……

测试他们的代码并尽快关闭虚拟机。我认为它们被称为RunLoop或类似的东西。我听说过它们。因此，将会有垂直化的AI基础设施，这似乎很有意义。完全正确，是的。这是我们并不总是想参与的事情，对吧？我认为，还有一些LLM运营公司正在做一些非常有趣的事情，例如帮助你管理你的提示，帮助你管理你的账单，并了解你的使用情况。我认为那种东西就像……

它不一定是低级基础设施，但它仍然是开发人员关心的东西。是的，以多模型的方式，多提供商等等。完全正确，是的，就像开放路由器之类的东西。是的。是的。我的意思是，显然，你知道，听起来，你们可能大部分时间都在与开发人员交谈，了解他们的愿望清单。我相信这听起来像是你们已经将很多东西融入到这一代API中，但我相信总有更多的事情要做。就像，你之前谈到评估就像问题一样，但就像，你如何看待仍然没有得到解答的堆栈范围问题？

这使得今天开发人员使用这些模型很痛苦，以及一些最需要解决的重要问题。是的，我认为工具绝对是我们需要解决的一件非常重要的事情。我们有基础构建块。我们需要在其之上构建工具生态系统。显然，MCP方面的工作非常出色，我们最关心的是弄清楚我们在这一方面应该做什么。我们还有……

计算机使用虚拟机空间还处于早期阶段，我认为这是另一个重要的方面。你如何让企业安全可靠地在他们自己的基础设施中部署这些虚拟机，并观察它们以及计算机使用模型在其之上所做的一切？我觉得

这些模型，这些计算机使用模型将很快变得如此出色，因为我们只是处于该范例的GPT-1或2阶段。这件事将非常有用。所以我非常好奇地想看看这方面的基础设施如何发展。我的意思是，我认为在alpha期间真正让我感兴趣的一件事是人们想要尝试计算机使用工具的所有不同环境。就像我们看到的人们……

该模型在浏览器环境中效果最佳，对吧？这有点像它所接受的训练，但人们试图将其与iPhone屏幕截图和Android一起使用。我想，哇，这太有趣了。我甚至没有想过这样做。所以我认为，人们……

人们想要的东西将是无限的，是否会有一家公司只做类似iPhone虚拟机的东西，或者像……嗯……你知道……嗯……曾经有一家公司只做iOS之类的测试框架，但现在是针对AI模型的，就像非常有趣的东西……

因为不同的Ubuntu版本，所有这些东西，它实际上只是大量的碎片化。因此，看看社区如何挺身而出填补这些空白将非常有趣。是的。是的。我们还看到人们正在做——我认为有一家初创公司试图进行网络安全工作，因此试图使用计算机使用来查找其他站点和界面的漏洞。你必须四处摸索30分钟。是的。这非常有趣。是的。

马克·曼德尔：这非常有趣。我的意思是，显然，你工作中有趣的部分之一一定是你们显然与研究团队紧密合作，看到模型的出现。就像，你在模型方面关注的任何事情一样？就像，我相信你们有下一个计算机使用模型或用于代理的下一个模型。就像，任何里程碑或能力，你都像，上帝，当我们可以做x时——就像，每次我得到新模型时，我都尝试x。如果我们可以做到这一点，那将改变我们的开发人员的游戏规则。弗朗切斯科·坎波伊：是的，这是一个有趣的问题。我实际上从许多YC初创公司那里获得了很多提示

我从许多YC初创公司那里获得了很多提示。他们总是说，这件事永远不会奏效。我实际上将它们保存为我们在开放式仪表板中所谓的预设或提示。每次出现新东西时，我都会尝试三四个。它们几乎都集中在代理工具的使用上。有六七种不同的

工具非常简单明了。我只是在寻找它们从一轮到下一轮的可靠执行。我对我们下一系列的模型非常乐观，但有些模型它就是做不到。是的。

我还非常渴望找到更小、更快的模型，肯定比Foro Mini更快，这些模型非常擅长这些工具的使用。如果你考虑一下在世界各地的O1周围存在的做这些非常快速的分类和防护以及所有事情的主力模型或支持模型，我认为还有很大的改进空间。是的。

在这些类型的事情上。是的，只是最快、最小的分类器将非常酷。完全正确，尤其是因为它们非常易于微调。是的。对吧？你可以根据具体的用例真正地定制这些东西。所以是的，这将非常酷。我会有一支这样的舰队。对我来说，它是差异。我只是希望模型能够吐出一个差异，我可以将其干净地应用到我的代码中，它就会起作用，我不必预算来获得它——这将是巨大的。这将是真正、真正巨大的。

模型并不真正理解行号。你的反应是什么？显然，最近中国出现了一些非常令人印象深刻的代理工作。我认为这总是似乎最先进的代理将与最先进的模型一起出现。我认为他们正在使用anthropic模型等等。但我觉得这可能挑战了这种范例。所以我很好奇你对其中一些演示的反应。是的。

我的反应是，这就是我们在内部一直在说的，模型中存在这些能力，但很少有人能够利用它。我认为这太疯狂了，仍然是这样。我们需要让开发人员和每个人都能够使用这些模型构建更强大的东西，而无需成为杰出的AI和ML人员。所以

我只是觉得它证实了这样一个事实：给人们提供合适的工具，给人们提供合适的模型，帮助他们将这些工具与代理SDK等东西结合起来，使这些东西可观察，这样越来越多的人能够构建像我们从中国看到的东西一样的东西。是的，这就是我的看法。我认为只是让飞轮从评估到生产再到微调，然后再回到评估的旋转速度更快，这是一个非常强大的循环，我们只需要让它更快。

我们更简单。是的。你认为哪些关键因素可以使它更简单？老实说，这是最需要解决的事情。我们必须——如果我们有一个好的答案。我的意思是，OpenAI的研究团队一直都在这样做。该模型在聊天方面越来越好。它在做所有深入研究的事情方面越来越好。下一个操作员模型在做计算机使用方面将更加强大。

你如何将它产品化是我们需要弄清楚的事情。显然，通过大量的辛劳，并密切观察你的轨迹，创建正确的评估和评分器，它肯定有效。我们只需要将它产品化，我们需要弄清楚如何使它变得容易。

它需要比现在容易10倍。这绝对是可行的。你可以创建一个评估，但创建一个评估需要大量的工作。所以我认为对我来说，最重要的事情是如何使评估你的任务、你的工作流程的过程更容易？不，我的意思是，这很有趣。我被它震惊了。感觉我们有一个新模型，人们花了六到九个月的时间试图发现用例。他们可能发现了这些模型实际可以做的事情的1%。然后就到了下一个。

所以这很疯狂。我的意思是，显然，你知道，我认为我们都觉得我们正处于这种超级巨大变化的边缘。而且，你知道，感觉就像，你知道，我们正在，你知道，尤其是在你使这些工具更容易使用的情况下，代理将越来越普遍。如果我只是一个普通的企业或消费者CEO，今天我还没有过多地考虑这个问题，那么我会在那些人的位置上做什么？如果你经营一家公司，那么在这个代理未来中，它与这些模型互动的方式？

它将开始探索这些前沿模型，开始探索计算机使用模型，在内部采用一些工作流程，并尝试了解如何构建这些多代理架构以端到端地自动化事物。

我觉得这是你现在在工具方面可以做的最实际和实际的事情，比如弄清楚你的哪些、你的、你的、呃、像手动工作流程需要、呃、

一个工具界面并开始这样做。我觉得在云时代有过其影响的整个数字化转型和自动化的事情现在又回来了。所以有时我和用户交谈时，他们会说，我们想自动化整个事情。但是要完成的工作有90%是弄清楚如何获得对正在使用的某些工具的编程访问权限。而LLM部分只是中间的一小部分。而我就像，

这对我们来说是一个非常不同的问题。是的，你现在可以用计算机使用来解决它，并尝试将其投入生产。但实际上只是找到自动化你的应用程序的方法，尝试前沿模型可能是我推荐的主要事情。是的。我认为在这个时代成为一名开发人员非常有趣，因为长期以来，我们

作为开发人员，一直在不断地自动化我们工作中最低的20%，无论是通过更好的框架、更好的编程语言还是其他什么。所以我认为，对我来说，如果我经营一家公司，我会问我的员工，你每天最不喜欢做的事情是什么？让我们尝试找出自动化它的方法。这将使每个人都感到快乐。当然，它会提高生产力。所以，是的，这就是我的想法。你们做过吗？

不，我没有。我喜欢这个。我的意思是，看，这是一个引人入胜的对话。我们总是喜欢以快速问答环节结束，我们在最后五分钟里塞满了许多过于宽泛的问题。所以也许首先，我很想知道你对当今AI世界中被过度炒作的一件事和被低估的一件事的看法。是的。

我的答案是，代理既被过度炒作又被低估。我们已经讨论代理几年了。我们经历了两个完整的炒作周期。是的，我知道。同时，被低估是因为，嘿，那些真正弄清楚并构建深度研究型事物或完全自动化一些真正手动任务的公司能够做到如此之多。所以，是的，这就是我的看法。是的。

我的意思是，显然你们非常接近前沿。我很想知道，在过去的一年中，你在AI领域改变了哪些想法？

我认为对我来说，这绝对是这些推理模型的力量……我们总是知道这种推理即将到来。我没有意识到这与工具的使用相结合将如何创造像操作员和深度研究这样的东西。只是看到有可能摆脱这种工作流程……

每家公司都在做这件事，转向完全代理的产品，它能够在它的思维链中找出使用方法，并真正提供真正强大的结果。这对我来说是最大的转变。然后像看到我们强化微调alpha的早期结果，那些是，你知道，

这对我来说是最大的转变，因为它有可能做到这一点。是的，对我来说，这只是广泛的微调。我只是喜欢能够——我认为所有你可以放入模型的知识都在它从GPU上下来时被烘焙进去。但是能够真正添加许多你自己的自定义信息，并看到这对于特定任务的影响有多大，这令人印象深刻。

你认为长期来看，应用程序构建者的最大区别是什么？这是风险投资中的问题吗？是对模型的深入了解以及如何真正构建这些代理？只是非常了解一个领域，所以你知道要构建什么？你们对此有何看法？我认为这是一种组合。然后还有这样的想法，比如，

如果你拥有任何特殊的秘诀，能够真正从我们认为存在的模型中提取AGI，我不知道那是什么。如果它是提示工程、工作流程编排或其他什么，我认为这将是一个巨大的区别。对我来说，它非常擅长编排。我觉得这将是最大的。你到底是什么意思？将你的工具和数据与

许多模型调用与许多模型结合在一起，无论是以强化微调的方式并在思维链中调用这些工具，还是以将多个LLM链接在一起的方式，并且非常擅长快速地做到这一点，评估和改进它。我认为这是最大的挑战

在未来一两年内推动人们前进的技能。太棒了。你认为当今这些模型最未被探索的应用是什么？我没有在科学研究方面看到任何疯狂的东西。当O系列模型开始时，主要的希望和预期是，在科学研究的速度方面将会有一个质的飞跃。我认为我们已经看到了一些关于这方面的早期报告，但是

非常好奇地想看看这将如何改变。我认为对整个AI行业的许多批评是，界面还不够完善。我认为尤其对于……

像学术界这样的领域，一切都是长期以来一直以来的方式，我认为找到合适的界面将非常关键，并将推动那里的许多采用。机器人技术也可能如此。也许是时候发生一些大事了。OpenAI的起源。古老的RubySkip。你认为今年的模型进展会比去年多、少还是一样？

哦，它会更多。我认为它必须更多。是的。尤其像，我的意思是，这是一个反馈循环，对吧？尤其像我们一样，模型正在教我们如何改进它们，使用更好的数据等等。这就像我们在研究方面经常做的事情。你最兴奋的AI初创公司或类别是什么？除了OpenAI之外？

我来自旅游行业。在加入OpenAI之前，我做的是一家旅游公司。所以我真的很兴奋看到有人真正破解它。我认为旅游业根深蒂固，只有少数几家大型参与者。所以我真的很兴奋看到谁会建立真正的AI旅游代理。每个人最喜欢的代理演示。完全正确，是的。但是没有人们正在使用的产品。所以我真的很兴奋。是的，为什么它还不奏效？我不知道。我会在之后弄清楚。是的。

我经常使用Granola。你听说过吗？是的，当然。是的。这是我最近最喜欢的AI工具。在每次会议中，我都担任非常繁重的角色，所以它很有帮助。是的。是的。好产品。好吧，我认为有很多有趣的线索供大家关注。显然，你们最近发布了很多很棒的东西。我想把最后一句话留给你。我们的听众可以去哪里了解更多关于API的信息，关于你想要指向他们的任何地方？轮到你了。

是的。我们的文档，platform.openai.com/docs。还有Twitter上的OpenAI Devs频道或帐户。社区论坛总是一个很棒的地方。我将加载它的域名。是forum.openai吗？community.openai.com。只需搜索OpenAI社区论坛即可。你可能会找到它。或者让ChatGPT为你找到它。或者问ChatGPT。太棒了。非常感谢你们两位。这太有趣了。太棒了。非常感谢。

所以

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steve Coffey on OpenAI’s New Agent Development Tools 44:37 Share

Unsupervised Learning

Deep Dive

Shownotes Transcript

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steve Coffey on OpenAI’s New Agent Development Tools