We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 864: OpenAI’s o3-mini: SOTA reasoning and exponentially cheaper

864: OpenAI’s o3-mini: SOTA reasoning and exponentially cheaper

2025/2/21
logo of podcast Super Data Science: ML & AI Podcast with Jon Krohn

Super Data Science: ML & AI Podcast with Jon Krohn

AI Deep Dive AI Chapters Transcript
People
J
Jon Krohn
Topics
Jon Krohn: 我在本期播客中介绍了 OpenAI 最近发布的一个重要模型——O3 Mini。它是一个推理模型,与 DeepSeek 的 R1 模型和 OpenAI 的 O1 模型类似,这些模型都通过逐步推理来解决问题。与 GPT-40 和 Claude 3.5 Sonnet 等直接输出结果的模型相比,推理模型在需要逐步思考的任务(如数学题或复杂的编程题)上更有效。 O3 Mini 在高模式下,在多个具有挑战性的基准测试(包括 AIM 数学基准测试、Codeforces 编码基准测试和 SWE Bench 验证基准测试)中实现了最先进的性能,其性能优于 O1 Mini、DeepSeek R1,甚至 OpenAI 更昂贵的 O1 模型。 O3 Mini 的另一个重要特点是其运行成本相对较低,仅为 O1 的 7%。虽然与 DeepSeek R1 在中国的云基础设施上运行相比,O3 Mini 的运行成本约高出一倍,但如果使用美国的云提供商,O3 Mini 的运行成本实际上约低一半。 总的来说,O3 Mini 在需要逐步推理的复杂任务上提供了最先进的性能,并且与第一代推理模型相比,价格更低廉。ChatGPT 用户可以通过选择“reason”来体验 O3 Mini,付费用户可以访问性能更强的 O3 Mini 高模式。也可以通过 ChatGPT API 将其集成到任何应用程序中。 然而,与 DeepSeek R1(它是开源的)相比,O3 Mini 是专有的,灵活性较低。OpenAI 即将发布完整版的 O3 模型,其性能预计将超越所有现有模型。在 AIM、Codeforces、SWE Bench 和 GPQA 等基准测试中,O3 模型的性能都大幅领先于其他模型,这预示着人工智能能力的又一次重大突破。

Deep Dive

Chapters
This chapter introduces OpenAI's O3 Mini, a reasoning model that outperforms others in challenging benchmarks at a lower cost. It details its performance compared to models like O1, R1, GPT-40, and Claude 3.5 Sonnet, highlighting its cost-effectiveness and state-of-the-art capabilities.
  • O3 Mini achieves state-of-the-art performance on key benchmarks.
  • It's significantly cheaper to run than O1.
  • It offers three modes: low, medium, and high, with high mode providing the best performance.

Shownotes Transcript

Jon Krohn在本期五分钟速览中调查了OpenAI的新发布o3-mini,他介绍了该推理模型的功能和性能,并将其与其他主要竞争对手DeepSeek-R1、GPT-4o和Claude 3.5 Sonnet进行了对比。更多资料:www.superdatascience.com/864有兴趣赞助SuperDataScience播客节目?请发送电子邮件至[email protected]获取赞助信息。</context> <raw_text>0 这是关于OpenAI的O3 Mini的第864集。

欢迎回到Super Data Science播客。我是你的主持人John Krohn。在录制时,我被严重的胃病折磨得够呛。我现在正在服用大量药物来完成这集节目的录制。所以节目必须继续。因此,对于今天的五分钟速览式节目,我将跳过开场白,直接进入节目的核心内容。

本集节目将向你介绍OpenAI最近向公众发布的一个重要模型,名为O3 Mini。OpenAI的O3 Mini是一个推理模型,类似于两周前我在第860集中详细介绍的DeepSeek的R1模型。它也是一个推理模型,类似于最初非常著名的推理模型O1,该模型在OpenAI于9月份发布时引起了巨大的轰动,我在第820集中对此进行了报道。

快速回顾一下,像O1、R1和现在的O3这样的推理模型会在后台逐步解决问题,然后才能输出对你的查询的响应。与GPT-40和Cloud 3.5 Sonnet等立即开始流式传输输出的模型相比,推理模型在需要逐步使用铅笔和纸张解决的相同类型任务(例如数学问题或具有挑战性的编码问题)中效率要高得多。

这个新的O3 Mini推理模型是一个如此重要的发布,原因有两个。首先,当让O3 Mini“思考”足够长的时间时,它有三种模式。所以它有低模式、中模式和高模式,其中高模式执行最多的推理时间计算。当它在该模式下思考足够长的时间时,

呃,O3 Mini高模式。O3 Mini在许多关键的具有挑战性的基准测试中实现了相对于任何其他公开可用模型的最先进性能,包括AIM数学基准测试、Codeforces编码基准测试和SWE Bench验证基准测试。

该基准测试包含具有挑战性的现实世界软件工程问题。更明确地说,这意味着O3 Mini高模式不仅优于O1 Mini,而且还优于DeepSeek R1,甚至优于OpenAI运行成本更高的全尺寸O1模型。

这让我想到O3 Mini如此重要的发布的第二个原因。因为O3 Mini相对较小,所以它的运行成本远低于O1。虽然O1的成本为每百万输入token 15美元和每百万输出token 60美元,但O3 Mini的输入和输出成本仅为其7%。因此,与O1相比,你在具有挑战性的基准测试中获得了相当甚至更好的性能,而且成本更低。

请注意,相对于DeepSeek R1在中国云基础设施上的运行成本,O3 Mini的运行成本大约是其两倍。但是,如果你想使用美国云提供商运行R1,O3 Mini的运行成本实际上大约只有其一半。因此,总而言之,关键点是O3 Mini在需要逐步推理的复杂任务中提供了最先进的性能,并且与第一代推理模型相比,其价格非常实惠。

那么,如何访问这个强大的新型O3 Mini模型呢?ChatGPT的免费用户可以通过在提出查询时选择聊天框中的“推理”来体验O3 Mini。如果你有付费ChatGPT计划,例如ChatGPT Plus、Team或Pro,你可以访问O3 Mini高模式,该模式花费最多时间进行推理时间计算,但也提供了我在本集中一直吹捧的最先进的功能。你还可以使用ChatGPT API将O3 Mini的推理功能嵌入到任何你想要的应用程序中。

我在节目说明中提供了有关如何使用API的说明链接。根据你的具体应用程序,你可以尝试确定O3 Mini低、中或高模式是否适合你的用例,请注意,如果你选择O3 Mini中模式,你的计算时间和财务成本都会增加,如果你选择O3 Mini高模式,则会增加更多。

最终,O3 Mini的发布对我来说并不像几周前的DeepSeek R1发布那样具有突破性意义,因为R1是开源提供的,而O3 Mini完全是专有的。这意味着你可以使用R1获得更大的灵活性来根据自己的意愿对其进行调整,并在你想要的任何基础设施上使用它。

但是OpenAI还有另一张王牌,预计很快就会向公众发布,这确实令人兴奋。那就是O3。在本集中,我一直在讨论O3 Mini,但是……

他们即将发布,大概OpenAI即将发布全尺寸的O3模型。而O3的性能绝对碾压了当今所有其他模型,包括DeepSeek R1。当然,还有其前身,全尺寸的OpenAI O1模型。

所有复杂和重要的推理基准测试。如果你实际观看了本集节目的视频版本,我有一些图表可以显示O3相对于当今所有其他现有模型的巨大差异。这包括前面在本集中提到的AIM基准测试上的数学,但更详细地说,它代表美国邀请赛数学考试(AIME)。

A-I-M-E。是的,在这个基准测试中,OpenAI 03的得分是96.7。

这远优于DeepSeek R1(得分79.8,是除O3 Mini高模式(得分87.3)之外最接近的模型)。在编码方面,例如Codeforces基准测试,O3再次绝对碾压所有其他现有模型。它的ELO等级超过2700,而最接近的模型是O3 Mini高模式(约2100)和DeepSeek R1(约2000)。

SWE验证基准测试。SWE Bench验证基准测试,软件工程基准测试。我在节目说明中提供了有关该基准测试的更多详细信息的链接。该基准测试处理复杂的现实世界软件工程问题。同样,OpenAI 03模型绝对碾压所有其他现有模型。根据所有这些,

尚未独立验证。所有这些数据都来自OpenAI本身,所以可能需要谨慎对待,但我认为他们在这种事情的历史发布方面一直非常可靠。是的,所以在SweeBench验证基准测试中,OpenAI 03的得分接近72,而排名第二的模型O3 Mini高模式、DeepSeek R1和OpenAI

01的得分是49。这是一个巨大的差异,在现实世界的应用中会非常明显。最后,还有一个第四个基准测试,它与能够回答英语自然语言问题有关。这是研究生级别的谷歌证明问答基准测试GPQA,

在这个GPQA基准测试中,它不像数学和编程基准测试那样明显。但是,OpenAI 03再次以接近88的得分位居榜首,而排名第二的模型是O3 Mini高模式,得分80。仍然是一个很大的差异,尤其是在你越来越接近100的时候。

是的,令人兴奋的事情即将到来。又一周,人工智能能力又取得了重大突破。我希望你的大脑因如何简化你自己的活动以及如何使用越来越强大且成本指数级降低的人工智能模型来构建改变世界的应用程序的想法而兴奋不已。如果没有,尝试与LLM聊天以获得一些想法。好了,今天的节目就到这里。如果你喜欢这个节目,或者认识可能考虑与他们分享这个节目的人,请在你最喜欢的播客平台上留下对节目的评论。告诉

在你的LinkedIn帖子中标记我,并留下你的想法。如果你还没有订阅该节目,请务必订阅。但最重要的是,我希望你能继续收听。直到下次,继续努力吧。我期待着很快与你一起再次享受Super Data Science播客。