We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Ep 64: GPT 4.1 Lead at OpenAI Michelle Pokrass: RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today

Ep 64: GPT 4.1 Lead at OpenAI Michelle Pokrass: RFT Launch, How OpenAI Improves Its Models & the State of AI Agents Today

2025/5/8
logo of podcast Unsupervised Learning

Unsupervised Learning

AI Deep Dive Transcript
People
M
Michelle Pokrass
Topics
Michelle Pokrass: 我领导了 OpenAI 的 GPT-4.1 模型的后训练工作,该模型的重点是提升开发者的使用体验,而非仅仅追求基准测试分数。我们收集了大量的用户反馈,并将其转化为可用于模型训练的评估指标。在开发过程中,我们特别关注指令遵循和长文本上下文处理能力。模型评估指标的有效期大约为三个月,因为模型进步速度很快,我们需要持续收集新的评估数据。 当前的 AI 智能体在范围明确的领域表现出色,但在处理模糊和复杂的问题时仍面临挑战。我们正在努力改进模型在处理长文本上下文、遵循复杂指令以及应对模糊情况的能力。在代码生成方面,GPT-4.1 在局部范围内表现出色,但在需要全局上下文和复杂推理的场景下仍有不足。我们正在努力改进模型的全局理解能力,并使其生成的代码更符合代码规范。 我们推出了强化学习微调 (RFT),这是一种数据效率极高的微调方法,尤其适用于拥有独特数据的深度科技领域。RFT 可以帮助突破模型能力的边界。选择合适的微调方法取决于具体需求:对于风格调整,建议使用偏好微调;对于简单错误修正,可以使用监督式微调;对于突破能力边界,则应使用强化学习微调。 未来,OpenAI 的模型家族将朝着更通用化的方向发展,目标是减少模型数量,简化产品选择。我们正在努力将不同模型的能力整合到一个模型中,并在保持其在不同任务上的出色表现的同时,提升其在不同任务间的平衡性。模型的个性化将通过增强记忆和可控性来实现,用户将能够根据自己的偏好调整模型的个性。 我们正在积极探索利用模型来改进模型,特别是利用模型信号来判断模型是否在正确的方向上。我们也在努力提高模型迭代的速度,以便能够更快地进行实验和研究。 Jacob Efron: 作为访谈的主持人,我与 Michelle Pokrass 进行了深入的探讨,涵盖了 GPT-4.1 的开发过程、模型评估方法、AI 智能体的现状、代码生成能力的提升以及未来模型的发展方向等多个方面。我特别关注了模型在实际应用中的表现,以及如何帮助公司利用 AI 技术取得成功。 Patrick Chase, Erica Brescia, Jordan Segall: 作为联合主持人,我们与 Michelle Pokrass 就 AI 领域的一些热点问题进行了简短的讨论,例如模型的过高和过低估计、以及未来模型的发展趋势等。

Deep Dive

Shownotes Transcript

In this episode, I sit down with Michelle Pokrass, who leads post-training at OpenAI and played a key role in the launch of GPT-4.1 and their upcoming RFT offering. We unpack how OpenAI prioritized instruction-following and long context, why evals have a 3-month shelf life, what separates successful AI startups, and how the best teams are fine-tuning to push past the current frontier.

If you’ve ever wondered how OpenAI really decides what to build, and how it affects what you should build, this one’s for you.

 

(0:00) Intro

(1:03) Deep Dive into GPT-4.1 Development

(2:23) User Feedback and Model Evaluation

(4:01) Challenges and Improvements in Model Training

(5:54) Advancements in AI Coding Capabilities

(9:11) Future of AI Models and Fine-Tuning

(20:44) Multimodal Capabilities

(22:59) Deep Tech Applications and Data Efficiency

(24:14) Preference Fine Tuning vs. RFT

(26:29) Choosing the Right Model for Your Needs

(28:18) Prompting Techniques and Model Improvements

(32:10) Future Research and Model Enhancements

(39:14) Power Users and Personalization

(40:22) Personal Journey and Organizational Growth

(43:37) Quickfire

 

With your co-hosts: 

@jacobeffron 

  • Partner at Redpoint, Former PM Flatiron Health

 

@patrickachase 

  • Partner at Redpoint, Former ML Engineer LinkedIn

 

@ericabrescia 

  • Former COO Github, Founder Bitnami (acq’d by VMWare)

 

@jordan_segall 

  • Partner at Redpoint