We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode O3 and the Next Leap in Reasoning with OpenAI’s Eric Mitchell and Brandon McKinzie

O3 and the Next Leap in Reasoning with OpenAI’s Eric Mitchell and Brandon McKinzie

2025/5/1
logo of podcast No Priors: Artificial Intelligence | Technology | Startups

No Priors: Artificial Intelligence | Technology | Startups

AI Deep Dive Transcript
People
B
Brandon McKinzie
E
Elad Gil
E
Eric Mitchell
Topics
Eric Mitchell: O3模型是OpenAI最新的O系列模型,它比之前的模型更聪明,能够给出更准确的答案。更重要的是,它能够使用各种工具来增强其能力,例如浏览网页、编写和执行代码等,从而处理更复杂的任务。这使得O3模型能够更好地理解和响应用户的需求,并提供更有效的解决方案。 我个人认为,工具的使用对于O3模型的测试时间缩放至关重要。它能够让模型更有效地利用计算资源,并获得更好的结果。在使用O3模型的过程中,我发现模型思考的时间越长,获得的结果就越好,这与之前的模型有很大的不同。 我认为,模型的统一性非常重要。我们希望用户能够更容易地使用模型,而不是在众多模型中进行选择。因此,我们将努力让模型的使用体验更加直观和便捷。 在未来,我希望模型能够更好地理解自身的不确定性,并根据需要花费相应的时间来给出答案。如果模型已经知道答案,它应该直接给出答案;如果需要花费时间来计算,它也应该能够准确地评估所需的时间。 我认为,模型应该更容易被用户控制和引导,特别是对于API使用场景,需要模型能够快速给出答案。模型应该能够根据用户的具体情况和要求做出正确的选择,即使这需要进行思考。 网络浏览是工具使用的一个重要应用场景,它能够帮助模型处理需要最新信息的任务。强化学习的目标需要根据预期用户和他们的需求进行调整。 我认为,模型在编码和研究方面具有很大的潜力,能够显著提高工作效率。未来模型与用户交互的方式将会更加直观和自然,例如通过语音或更直接的方式进行交互。模型使用工具的方式与人类非常相似,这可能是因为模型学习的数据中包含了大量人类行为的信息。 在大型环境中使用工具进行异步强化学习需要处理大量的基础设施问题,例如如何优雅地处理工具故障。 Brandon McKinzie: O3模型的训练与之前的模型不同,它使用了强化学习,目标是让模型解决更复杂的任务,并根据需要花费更多时间来找到答案。 工具的使用对于O3模型的测试时间缩放至关重要,它能够让模型更有效地利用计算资源,并获得更好的结果。在使用O3模型的过程中,我发现模型思考的时间越长,获得的结果就越好,这与之前的模型有很大的不同。 我认为,模型应该更容易被用户控制和引导,特别是对于API使用场景,需要模型能够快速给出答案。 工具的使用能够显著提高模型的测试时间缩放效果,特别是对于视觉推理任务。工具的使用能够提高模型的计算效率,例如,编写简单的程序来解决问题比让模型自己尝试要高效得多。 我认为,模型在编码和研究方面具有很大的潜力,能够显著提高工作效率。 模型不再是一个封闭的系统,它可以根据需要寻求外部信息来解决问题。 反复发送相同的提示可以帮助用户了解模型的输出分布,从而更好地利用模型。 发送一些超出预期能力的提示可以帮助用户更好地了解模型的能力边界,并发现模型的惊喜之处。

Deep Dive

Shownotes Transcript

This week on No Priors, Elad and Sarah sit down with Eric Mitchell and Brandon McKinzie, two of the minds behind OpenAI’s O3 model. They discuss what makes O3 unique, including its focus on reasoning, the role of reinforcement learning, and how tool use enables more powerful interactions. The conversation explores the unification of model capabilities, what the next generation of human-AI interfaces could look like, and how models will continue to advance in the years ahead.

Sign up) for new podcasts every week. Email feedback to [email protected])

Follow us on Twitter: @NoPriorsPod) | @Saranormous) | @EladGil) | @mckbrando) | )@ericmitchellai)

Show Notes:

0:00 What is o3?

3:21 Reinforcement learning in o3

4:44 Unification of models

8:56 Why tool use helps test time scaling

11:10 Deep research

16:00 Future ways to interact with models

22:03 General purpose vs specialized models

25:30 Simulating AI interacting with the world

29:36 How will models advance?