We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI Chief Research Officer Mark Chen: GPT 4.5 is Live and Scaling Isn’t Dead

OpenAI Chief Research Officer Mark Chen: GPT 4.5 is Live and Scaling Isn’t Dead

2025/2/27
logo of podcast Big Technology Podcast

Big Technology Podcast

AI Deep Dive AI Chapters Transcript
People
M
Mark Chen
Topics
我:GPT-4.5是我们在可预测的扩展范例中的最新里程碑。它代表着比以往模型数量级的提升,这种提升与GPT-3.5到GPT-4的飞跃相当。 至于为什么不是GPT-5,我们的命名决策是基于可预测的扩展趋势。GPT-4.5的性能符合我们对该名称的预期,它反映了模型在计算量、效率等方面的改进。 我们现在有两个可以扩展的维度:无监督学习和推理。GPT-4.5是无监督学习扩展的最新成果,但我们也在大力发展推理模型。GPT-5可能是这两个方向的集大成者,将融合两者优势。 关于扩展的局限性,我的观点是:无监督学习的扩展可以通过增加计算量、算法效率和数据来实现,GPT-4.5就是证明。无监督学习和推理是互补的,需要知识来构建推理。GPT-4.5在日常使用和知识工作方面优于GPT-4和O1,因为它拥有更多世界知识。 GPT-4.5和推理模型(如O1)在响应速度和思考深度上有所不同。GPT-4.5响应迅速,但思考较少;O1思考时间长,但答案更佳。在创意写作、部分编码和特定科学领域,GPT-4.5的表现优于推理模型。 GPT-4.5的规模是我们目前发布过的最大模型,我们观察到在该规模下,增加计算量、数据量仍然能获得与之前相同的回报。开发过程中,我们确实会中途停止、分析和重新启动模型训练,但这并非GPT-4.5独有的情况。 模型的效率提升与核心能力的开发是相对独立的。我们一直在努力提高推理效率,降低服务成本。混合专家技术等架构改进也适用于GPT-4.5以提高效率。 关于大型通用模型与小型专用模型的关系,我们既开发大型基础模型,也提供更小、更经济高效的模型。我们的目标是推动智能前沿,并使这些能力更经济高效地服务于所有人。大型模型的改进会内在地提升产品的性能,例如深度研究。 GPT-4.5在传统基准测试中取得了数量级的提升,同时在情感智能方面也有改进。这并非目标的转移,而是模型新能力的体现。我们希望用户能发现更多GPT-4.5的有趣用例。 最后,关于OpenAI的人才状况,我认为我们仍然是世界一流的AI组织,人才流动是AI领域发展的自然现象。我们内部人才济济,有很多人愿意承担责任。

Deep Dive

Chapters
This chapter explores the release of GPT-4.5, highlighting its significant improvements over previous models and addressing the question of why it's not called GPT-5. The discussion also touches upon the complementary nature of unsupervised learning and reasoning in AI scaling.
  • GPT-4.5 represents a significant advancement in OpenAI's predictable scaling paradigm.
  • The model demonstrates an order of magnitude improvement compared to previous versions.
  • OpenAI's research program explores both unsupervised learning and reasoning as parallel approaches to scaling AI models.
  • GPT-4.5 shows a 60% preference rate in everyday use cases and a 70% preference rate for productivity and knowledge work compared to GPT-4 or O1.

Shownotes Transcript

OpenAI首席研究官Mark Chen来谈谈GPT-4.5的发布,这是该公司迄今为止最大、最好的模型,今天发布。我们稍后就开始深入探讨。

人工智能会改善我们的生活还是灭绝物种?消除贫困需要什么?你吃足够的益生菌了吗?这些是我们最近在《下一个大创意》中探讨的一些问题。我是鲁弗斯·格里斯科姆,每周我都会与世界领先的思想家进行深入的对话,帮助你更聪明地生活、工作和娱乐。无论你在哪里收听播客,都可以关注《下一个大创意》。

欢迎收听《大科技播客》,这是一个关于科技世界及其他领域的冷静、细致的对话节目。今天我们邀请到了OpenAI的首席研究官Mark Chen,他将与我们讨论该公司最新的发布——GPT 4.5。是的,它终于来了,今天就要发布。Mark,很高兴见到你。欢迎来到节目。非常感谢你邀请我。

感谢你的到来。这是我们节目四年半以来第一次采访OpenAI的人。所以希望这是许多次中的第一次。我们感谢你这样跳入水中。而且这是关于GPT 4.5发布的大新闻。

是的。所以GPT-4.5实际上标志着我们可预测的扩展范例的最新里程碑。符合这一范例的先前模型包括GPT-3、3.5、4,而这是最新的成果。它标志着比上一代模型有了数量级的改进,与从3.5到4的飞跃相当。我认为我们大多数听众都会问的问题,当然我们也在过去几个月里在节目中问过的问题是,为什么这不是GPT-5?也就是说,要达到GPT-5需要什么?

是的。好吧,我认为GPT-5,你知道,每当我们做出这些命名决定时,我们都会尝试保持对趋势的感知。因此,同样,当涉及到可预测的扩展时,从3到3.5,你可以预测出,你知道,在训练模型所用的计算量方面,数量级的改进,在效率改进方面会给你带来什么。

我们发现这个模型符合4.5应该是什么样的。所以我们想把它命名为它是什么。

好的。但是关于GPT-5何时发布有很多讨论,如果我错了请纠正我,但我认为GPT-4和4.5之间的时间间隔比GPT-3.5和4之间的时间间隔要长。我不知道,这是不是因为我们在Twitter上看到很多来自OpenAI的人对接下来会发生什么的炒作,或者……

也许这可能是世界上最没有耐心的行业,也是世界上最没有耐心的用户。但在我看来,对GPT-5的期望非常高。所以我很想知道,从你的角度来看,你认为在GPT-5发布时,是否很难满足这些期望?

GPT-5模型发布了吗?好吧,我不这么认为。其中一个根本原因是,我们现在有两个不同的轴可以扩展,对吧?所以GPT-4.5,这是我们在无监督学习轴上的最新扩展实验,但也有推理。当你问到为什么4和4.5之间的发布间隔似乎有点大时,我们主要关注的是开发

推理范例。所以我认为我们的研究计划实际上是一个探索性研究计划。我们正在研究如何扩展模型的所有途径。在过去的一年半到两年里,我们通过推理发现了一个非常令人兴奋的新范例,我们也在扩展这个范例。所以我认为GPT-5实际上可能是许多这些东西融合在一起的最终结果。

好的。所以你谈到了如何做了很多关于推理的工作。当然,我们已经通过a1看到了这一点。关于DeepSeek有很多讨论。现在我们再次谈论的是GPT 4.5,它是一种更传统的扩展大型语言模型。所以这里最大的问题是,我认为在即将发布的版本中,许多人都在关注这个问题,我们认为它将是4.55。无论如何,这并不重要。最大的问题是,

当您向人工智能模型添加更多计算、更多数据和更多能力时,人工智能模型能否继续扩展?似乎你对此有答案。所以我很想知道你对扩展墙的看法,鉴于你对这个模型的开发,以及我们是否会遇到它,我们是否已经开始看到扩展带来的边际收益递减。

是的,我对扩展有不同的看法。所以当涉及到无监督学习时,你想添加更多成分,比如计算算法效率和更多数据。GPT-4.5确实证明了我们可以继续扩展范例。而这个范例也不是推理的对立面,对吧?你需要知识才能在上面建立推理,对吧?模型不能盲目地

从头开始学习推理。所以我们发现这两个范例是相当互补的。我们认为它们之间存在反馈循环。所以是的,GPT-4.5,同样,它与推理模型的智能方式不同,对吧?当你查看今天的模型时,它拥有更多的世界知识。当我们查看

与GPT-4或O的比较时,你会发现,在日常用例中,人们更喜欢它,比例为60%。对于实际的生产力和知识工作,与GPT-4或O相比,偏好率几乎达到70%。所以人们真的对这个模型做出了回应。而这是我们可以为未来的推理模型所利用的知识。

那么,举个例子,就像你说的日常知识工作,你会用GPT 4.5做哪些你更喜欢它而不是推理模型的事情呢?是的,我……

我不会说——它与推理模型的特征不同。对于更大的模型,你所做的是它需要更多时间来处理和思考查询,但它也会立即给你反馈。这与GPT-4为你做的事情非常相似。然而,我认为对于像O1这样的东西,你得到的是一个模型,你给它一个查询,它可以思考几分钟。

我认为这些从根本上来说是不同的权衡,对吧?你有一个模型会立即返回给你,不会做太多思考,但会给出更好的答案;而另一个模型会思考一段时间,然后给出答案。我们发现,在许多领域,比如创意写作,

同样,这是我们希望在未来一两个月内测试的东西。但我们发现,在创意写作等领域,这个模型胜过推理模型。好的,写作,还有其他用例吗?是的,有写作,我认为还有一些编码用例。我们还发现,你知道,在某些特定的科学领域,它在知识量方面表现出色。

好的,我一会儿会回到基准测试,但我希望继续讨论这个扩展问题,因为我认为公众对此有很多讨论,很高兴能与OpenAI的你交谈,以便了解事情的真相。所以首先,人们提出的问题是,

你最终会达到这个规模吗?你没有谈论模型的规模,这是公平的。但它们很大,对吧?这是OpenAI发布的最大的模型GPT 4.5。所以我实际上很好奇,在这个规模下,添加相同数量的计算、相同数量的数据,是否会给你带来与之前相同的回报?或者我们是否已经开始看到添加这些资源的回报下降?

我们看到了相同的回报。我想强调的是,GPT-4.5是无监督学习范例中的下一个点。我们对如何做到这一点非常严格。我们根据之前训练的所有模型对预期性能进行预测。在这种情况下,我们组装了扩展机制,而这就是位于下一个数量级的点。

那么到达这里是什么感觉呢?我的意思是,我们之前谈到过,所以有一段时间比之前的间隔要长。部分原因是专注于推理。但也有一些报道称,OpenAI不得不启动和停止几次才能使它工作。

而且它确实不得不克服一些棘手的问题才能实现你所说的这种阶跃式变化。所以请谈谈这个过程,也许你可以证实或否认我们听到的一些关于不得不启动和停止以及重新训练才能到达这里的事情。实际上,我认为有趣的是,这一点被归因于这个模型,因为实际上在我们开发所有基础模型时,对吧?

它们都是实验,对吧?我认为运行所有基础模型通常都涉及在某些部分停止,分析正在发生的事情,然后重新启动运行。我认为这不是GPT-4.5的特征。这是我们在GPT-4、O系列模型中所做的事情。它们很大程度上是实验,对吧?我们想进去,在中间诊断它们,如果我们想进行一些干预,我们就应该进行干预。但是

我不会把这描述成我们在GPT-4.5上做的事情,而我们对其他模型不做的事情。我们已经谈到了一些关于推理与这些传统的GPT模型之间的区别,但这让我想起了DeepSeq,

我认为你已经对你会使用这些模型中的哪一个以及推理模型给出了一个相当令人信服的答案。但是DeepSeek还做了另一件值得讨论的事情,那就是它们使它们的模型更高效。这很有趣,当我问你关于,好吧,所以你需要数据,你需要计算,你需要能力。你说,是的,你需要模型优化,这是人们经常忽略的东西。回到DeepSeek一会儿,

模型优化,他们从基本上查询整个知识库转变为专家混合,他们能够将查询路由到模型的某些部分,而不是全部点亮,

这被认为有助于提高效率。所以我只想把它交给你,不要评论他们做了什么,或者如果你愿意的话,但我实际上更想知道OpenAI在这方面做了什么。以及你是否对GPT 4.5进行了类似的优化?你是否能够更高效地运行这些大型模型?如果是这样,怎么做?

是的,所以我会说,使模型高效服务的过程,我经常认为它与开发模型的核心能力是相当脱钩的,对吧?我们看到在推理堆栈上做了很多工作,对吧?我认为这是DeepSeq做得非常好的事情。这也是我们大力推动的事情,对吧?我们关心的是以低廉的成本为所有用户提供这些模型。我们在这方面做了很多努力。

所以我认为这与GPT-4或推理模型无关。我们总是施加这种压力,以便能够更便宜地进行推理。我认为随着时间的推移,我们在这方面做得很好。自从我们第一次推出GPT-4以来,成本已经下降了多个数量级。

那么,有没有像,我的意思是,也许告诉我这是否太基本了,但是转向例如专家混合。这更像是一种推理方法,还是你可以在GPT 4.5中应用它?是的,这是大型语言模型的架构元素。我认为今天几乎所有大型语言模型都使用专家混合。它同样适用于语言中的效率提升。

像GPT-4或4.5这样的基础模型,以及推理。所以你基本上也可以在这里使用它?不,我们肯定也探索了专家混合以及GPT中的许多其他架构改进。

好的,太好了。所以我们有一个Discord,其中有一些大科技听众和读者群的成员。而且,你知道,最近出现的一个主题,现在与你谈论一个极其庞大的模型很有趣,因为他们无法停止谈论Discord中的人们的一个主题是,多么小众的模型对他们来说将是,你知道,

潜在地成为未来。“对我来说,未来与工作流程中存在的小众模型非常一致,而不是这些通用的上帝模型。”

所以显然OpenAI在这里有一个不同的论点。我很想知道你对大型模型与小众模型的看法。你认为它们是竞争还是互补?帮助我们思考这个问题。是的,是的。所以我认为一件重要的事情是,我们也提供较小的模型,对吧?就像我们提供我们的旗舰前沿模型一样,我们也提供小型模型,对吧?它们是访问功能或相当接近前沿功能的经济高效的方式。

以更低的成本获得功能,对吧?我们认为这是这个综合投资组合的重要组成部分。然而,从根本上说,OpenAI从事的是推进智能前沿的工作。这包括开发我们所能开发的最好的模型。我认为我们真正被激励的是尽可能地推动这一发展。我们认为在智能前沿总会有用例。

我们认为,从数学的99.9百分位数到世界上最好的数学家,对吧?这种差异对我们来说意味着什么。我认为最优秀的人类科学家能够发现的东西与你我能够发现的东西有明显的不同。所以我们致力于尽可能地推动智能前沿。与此同时,我们希望让这些能力更便宜、更经济高效地为每个人服务。

所以我们不认为小众模型会消失。我们想构建这些基础模型,并找出如何随着时间的推移降低这些能力的成本。这始终是我们的理念。在那些最后的智能中总会有某种动力。是的,让我们谈谈这个,因为我们在节目中经常进行辩论,什么更重要,产品还是模型?我在模型团队。我们周五邀请Ranjan Roy来。他在产品团队。

产品。他基本上就像,只使用你现在拥有的东西并优先考虑它。我说,好吧,你可能可以用更好的模型做得更多,但我必须承认,有时我对从数学的第99百分位数到世界上最好的数学家会带来什么感到不知所措。所以实际上我很想知道你对此的回答。构建世界上最好的模型能做到什么,而你以前做不到?是的,百分之百。我认为,

它标志着一种转变,对吧?就像如果你只是考虑,嘿,你采用当前的模型并为它们构建最佳表面,这当然是你应该始终做的事情,并探索这项工作。我认为三年前,这看起来像聊天,对吧?我们推出了ChatGPT。而今天,当你采用最好的模型和最好的能力时,我认为它看起来更像代理,对吧?我认为推理和代理是紧密相关的,

当你考虑什么构成了一个好的代理时,它是你可以坐下来,让它自己做事情的东西,并且你相当有信心它会带回你想要的东西。我认为推理是驱动它的引擎。你让模型去尝试一些东西,如果它第一次没有成功,它应该能够像,哦,好吧,为什么我没有成功,我有什么更好的方法去做?

我认为能力总是在变化,表面也总是在变化,作为一种回应。我们一直在探索当前能力的最佳表面是什么样的。我在这里加入你的团队。再说一次,为了强调这一点,模型的改进能给你带来什么?你认为它会启用什么?

是的,是的。所以,我的意思是,我认为,我的意思是,各种形式的代理,对吧?例如,当你查看像深度研究这样的东西时,对吧?它使你能够基本上

获得关于你可能感兴趣的任何单个主题的完整报告。我甚至用它来准备长达一小时的演讲。它会去真正地综合所有现有的信息,并真正地组织它,提出教训,让你进行深入的发现。它允许你深入研究你感兴趣的几乎任何主题。所以我觉得……

现在可用的信息和综合量正在迅速发展。

所以基本上,这并不像只是用你现在拥有的模型来改进深度研究的产品那么简单。我是否正确地解读了你在这里表达的意思,即如果你改进模型,那么产品本身就会得到改进,例如深度研究。百分之百,百分之百。是的。而这只有在你拥有某种能力水平的模型时才能实现,无论是在推理方面还是在基础无监督学习方面。

好的。你知道,这很有趣。我想我脑海中一直有一个问题,我再问你一次,只是为了确保我清楚的是我的观点,也许是错误的,那就是我们只是会,或者你的行业只是会从这些大型模型转向具有推理能力的大型模型,但你实际上是在说这里有两条轨道。

是的,是的。所以我认为我们一直在推动前沿,对吧?而且我认为,即使从五六年以前开始,普遍的做法就是提高规模,对吧?所以我们一直在提高无监督学习的规模。我们一直在提高推理的规模。但与此同时,对吧,你关心的是提供小型模型。你关心的是提供经济高效的模型,这些模型可以以更低的成本提供功能。

而这对于许多用例来说通常就足够了,对吧?使命不仅仅是关于推动最大、成本最高的模型。而是拥有它,以及人们可以廉价地为其用例使用的一系列模型。

好的,在我们离开之前,让我们快速谈谈你在4.5中看到的与4相比的升级。所以我很想知道,如果你能快速地向我们介绍一下它与先前模型相比达到的基准,然后我会在这里提出一个双重问题。我已经阅读了你的博客文章,所以我对即将发生的事情有所了解。顺便说一句,我们将在这个新闻发布的同时发布它。所以

你似乎也在某种程度上发表声明,说,是的,我们有传统的基准,但我们也需要衡量这个模型如何与EQ一起工作,而不仅仅是纯粹的智力。所以是的,让我们看看基准改进,然后为什么你认为将这两者结合起来进行考察很重要。所以,我的意思是,在所有传统指标上,比如GPQA、AMI,我们跟踪的传统基准,这确实标志着数量级的改进

大约与从3.5到4的跳跃相同。这里还有一个有趣的重点,我想说的是,更基于氛围的基准。我认为这实际上很重要,因为每次我们发布一个模型时,都会有一个发现过程,即那里将有哪些有趣的用例。我们在这里注意到,它实际上是一个更具情商的模型。你可以在今天的博客文章中看到例子

但是它如何回应,你知道,关于困难情况或特定困难情况下的建议的查询。它回应更具情商。我认为还有,你知道,这可能是一个有点愚蠢的例子,对吧?但是如果你要求以前的任何模型为你创建ASCII艺术,对吧?实际上,它们大多会失败。这个可以做到。

几乎完美无瑕。非常好。所以有很多改进能力的足迹。我认为像创意写作这样的东西会展示这一点。

我认为我从你目前给出的例子中了解到的一件事是,它似乎不需要为每个回应都写一篇论文。就像一个用户说,我很难过。它实际上简洁地写道,就像一个人会做的那样,而不是像传统的,这里是你可以为自己做的三个段落的自我护理程序。是的,是的,是的。这说明了情商,对吧?它不像,哦——

我看到你感觉不好。这里有五种方法可以让你感觉更好,对吧?它感觉不像是一种有根据的富有同情心的回应。在这里,你只会得到一些直接了当的东西,并且真正邀请用户说更多。所以我认为会有批评。我无法,我正在预料到这一点。让我们现在就谈谈这个问题,人们会说,好吧,OpenAI正在谈论这些传统的基准。现在它正在谈论情商。它正在改变目标,并希望我们关注其他事情。你对此有何回应?

好吧,我真的不认为准确的描述是它没有达到我们期望它达到的基准。因此,当你查看从3到3.5到4到4.5的发展时,这确实达到了我们期望的基准。我认为主要的事情是,你知道,每次你发布一个新模型时,都是关于用例发现的。

在许多方面,GPT-4已经非常聪明了,对吧?当我们发布这个时,这种类比有点像当我们发布GPT-4时,对吧?就像我们看到它达到了我们期望的所有正确基准一样,但是用户会对什么产生共鸣呢?这是关键问题。我认为这是我们今天对GPT-4.5提出的问题。我们邀请人们说,嘿,你知道,我们做了一些早期的探索。我们看到它更具情商。你知道,我们看到它是一个更好的创意作家。但是你在这里看到了什么?

是的。好的,Mark。所以我一直看到你,我们之前录制时提到过。我一直看到你在OpenAI关于每次发布的视频中。首先,很高兴能和你现场交谈。但是,

在过去的一年中,我们看到很多人离开了OpenAI。也许媒体夸大了这一点。我们可能也做到了。但我确实很好奇在OpenAI工作是什么样的,以及你如何看待公司内部的人才储备。你几个月前刚刚成为首席研究官。现在,看,我们有一个新的基础模型。所以让我们了解一下政府组织内部的人才状况。老实说,它仍然是,我认为,世界上最一流的人工智能组织。我……

会说OpenAI的人才标准与其他任何公司都有区别。当涉及到人们离开时,你知道,人工智能领域变化很大。

很多。可能比其他任何领域都要多。三个月前的领域与三个月之前的领域看起来不同。我认为在人工智能的发展中,有些人会对他们自己的论点有自己的看法,这就是我想要开发人工智能的方式,并以他们自己的方式尝试。我认为这是健康的,它也给了内部人员一个脱颖而出的机会。而且

我们从未缺乏愿意挺身而出的内部人员,我们已经看到了很多。我真的很喜欢我们这里的人才储备。非常酷。好的,各位,GPT 4.5今天面向OpenAI专业用户发布,下周面向Plus、团队、企业和教育用户发布。

Mark,很高兴见到你。再次感谢你抽出时间。你即将进行直播。所以我很感激你今天花时间和我在一起。我也非常感谢你的时间。感谢你的邀请。我们很快再见。各位,我们提到了Ranjan和我之间的争论。我们将在周五的节目中讨论这个以及更多我们可以分享的关于GPT 4.5的一切。感谢收听。再次感谢Mark和OpenAI的采访。我们下次《大科技播客》再见。