We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steve Coffey on OpenAI’s New Agent Development Tools

Ep 59: OpenAI Product & Eng Leads Nikunj Handa and Steve Coffey on OpenAI’s New Agent Development Tools

2025/3/25
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive AI Chapters Transcript
People
F
Francesc Campoy
M
Mark Mandel
N
Nikunj Handa
S
Seth Vargo
S
Steve Coffey
Topics
Nikunj Handa: 我认为未来消费者与智能体的交互将更加无缝地融入日常使用的各种产品中,不再局限于像ChatGPT这样的特定平台。智能体API的应用将呈现高度垂直化的趋势,开发者将充分发挥其在特定领域的专业知识,创造出我们目前难以预测的各种应用形式。智能体获取网络信息的方式也在不断演变,从简单的单次搜索转向更复杂的迭代式信息获取、链式思考和并行处理,这将极大地提升信息处理效率和决策能力。 企业应该优先构建内部多智能体系统来解决实际业务问题,并在时机成熟时再考虑将其公开到互联网。2024年,智能体应用的流程相对简单,工具数量有限;而2025年,链式思考模式将成为主流,模型能够自主选择和调用多个工具,并根据情况调整策略。未来智能体应用的关键在于去除工具数量的限制,允许模型访问和使用数百个工具,从而充分发挥其潜力。 强化微调技术将赋能开发者创建自定义的任务和评分器,从而训练模型更好地解决特定领域的问题。目前,我们提供的是构建自定义评分器的基本模块,未来需要解决的是如何更便捷地创建高质量的任务和评分器。计算机视觉技术与文本输入相结合,可以应用于处理缺乏API的遗留应用程序以及需要视觉信息的任务。计算机视觉模型的平台化应用前景广阔,例如Browserbase和Scrappybara等公司提供的服务。 目前开发者使用智能体API的策略主要包括:尝试让模型和工具直接完成任务,进行提示工程,以及将模型和工具作为工作流程中的一个步骤。将任务分解给多个智能体可以提高效率并简化调试过程。模型能力远超大多数AI应用的利用程度,因此构建辅助模型运作的工具和流程至关重要。在设计Responses API时,我们遵循了“API如同阶梯”的原则,即提供易于使用的默认设置,同时允许开发者进行更深入的自定义。Responses API和MCP解决的是不同的问题,两者可以互补。OpenAI致力于提供一站式服务,但独立的AI基础设施公司仍然有其存在的价值,尤其是在构建高度灵活的底层API方面。 目前需要解决的挑战包括构建工具生态系统、完善计算机视觉虚拟机基础设施以及简化模型评估流程。未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。中国近期出现的先进智能体案例证明了模型本身具备强大的能力,关键在于提供更便捷的开发工具和流程,让更多人能够利用这些能力。企业应该探索前沿模型和计算机视觉模型,并尝试构建多智能体架构来自动化内部流程。企业应该关注员工日常工作中最不喜欢的任务,并尝试利用AI技术进行自动化。智能体技术既被高估也低估了,虽然已经经历了多个炒作周期,但真正能够有效利用智能体技术来解决实际问题的公司仍然很少。 过去一年中,我对推理模型与工具使用的结合力量有了新的认识,这使得构建真正强大的智能体应用成为可能。过去一年中,我对微调技术的强大力量有了新的认识,这使得能够在特定任务上显著提升模型性能。长期来看,应用构建者的核心竞争力在于能够有效地整合工具、数据和模型,并进行持续的评估和改进。有效地协调工具、数据和模型调用是未来应用构建者的核心竞争力。目前科学研究领域对AI模型的应用仍有很大潜力。未来一年模型的进步速度将超过过去一年。我最期待看到的是能够有效解决旅行规划问题的AI应用。 Steve Coffey: 智能体API的应用将非常垂直化,开发者比OpenAI更了解各自领域的应用场景,所以未来应用形式难以预测。2024年智能体应用流程清晰,工具数量有限;2025年则转向链式思考,模型能自主选择和调用多个工具。未来智能体应用的关键在于去除工具数量限制,允许模型访问和利用数百个工具。强化微调技术允许开发者创建自定义任务和评分器,从而训练模型更好地解决特定领域的问题。目前OpenAI提供的是构建自定义评分器的基本模块,未来需要解决如何更便捷地创建高质量任务和评分器的问题。计算机视觉技术与文本输入相结合,可以应用于处理缺乏API的遗留应用程序以及需要视觉信息的任务。计算机视觉模型的平台化应用前景广阔,例如Browserbase和Scrappybara等公司提供的服务。 目前开发者使用智能体API的策略主要包括:尝试让模型和工具直接完成任务,进行提示工程,以及将模型和工具作为工作流程中的一个步骤。将任务分解给多个智能体可以提高效率并简化调试过程。模型能力远超大多数AI应用的利用程度,因此构建辅助模型运作的工具和流程至关重要。Assistance API在工具使用方面做得很好,但易用性方面存在不足。Responses API和MCP解决的是不同的问题,两者可以互补。OpenAI致力于提供一站式服务,但独立的AI基础设施公司仍然有其存在的价值,尤其是在构建高度灵活的底层API方面。目前需要解决的挑战包括构建工具生态系统、完善计算机视觉虚拟机基础设施以及简化模型评估流程。 未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。过去一年中,我对微调技术的强大力量有了新的认识,这使得能够在特定任务上显著提升模型性能。长期来看,应用构建者的核心竞争力在于能够有效地整合工具、数据和模型,并进行持续的评估和改进。有效地协调工具、数据和模型调用是未来应用构建者的核心竞争力。 Mark Mandel: Assistance API在工具使用方面做得很好,但易用性方面存在不足。 Seth Vargo: Responses API和MCP解决的是不同的问题,两者可以互补。 Francesc Campoy: 未来模型改进方向包括提高工具使用的可靠性、开发更小更快更擅长工具使用的模型以及改进代码生成能力。

Deep Dive

Shownotes Transcript

Two weeks ago, OpenAI released its set of tools to help developers build agentic systems. Today on Unsupervised Learning, Nikunj Handa (Product Lead) and Steve Coffey (Eng Lead) answer some of the biggest questions around how developers should be thinking about building in the agentic paradigm in 2025.

 

[0:00] Intro

[0:53] OpenAI’s Vision for Consumer Interaction

[4:51] Building Multi-Agent Systems for Business Solutions

[6:53] Challenges and Innovations in AI Fine-Tuning

[13:20] Exploring Computer Use Cases and Applications

[17:20] Advanced Use Cases and Developer Insights

[25:29] Challenges with Context Storage and Chat Completions

[26:09] Introducing the Responses API and MCP

[27:16] AI Infrastructure Companies and Their Role

[29:35] Building the Tools Ecosystem

[30:17] Exploring Computer Use Models

[31:47] The Future of AI and Developer Tools

[38:36] Quickfire

 

With your co-hosts: 

@jacobeffron 

  • Partner at Redpoint, Former PM Flatiron Health

 

@patrickachase 

  • Partner at Redpoint, Former ML Engineer LinkedIn

 

@ericabrescia 

  • Former COO Github, Founder Bitnami (acq’d by VMWare)

 

@jordan_segall 

  • Partner at Redpoint