We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
People
A
Adam D'Angelo
A
Ahmad Mostak
A
Amjad Mossad
B
Boyantungus
D
Didi Das
E
Ethan Malik
F
Florian Mai
F
Francis Cholet
G
Greg Brockman
H
Harry Law
J
Julia McCoy
S
Santiago
S
Sully
T
Terry Tao
主持人
专注于电动车和能源领域的播客主持人和内容创作者。
Topics
主持人: 本期节目讨论了OpenAI最新发布的O3模型,该模型在编码、数学和科学基准测试中取得了令人瞩目的成绩,尤其是在ARC-AGI测试中得分超过85%,引发了关于其是否接近AGI的广泛讨论。O3模型在Codeforces编程竞赛平台上的表现也超过了OpenAI首席科学家,全球排名靠前。 这些突破性进展引发了人们对未来就业市场和社会经济的担忧,一些人认为这标志着编码工作的终结,全球经济将面临重塑。但也有人指出,基准测试的成绩并不一定能完全反映实际工作能力,O3模型的应用还需要进一步探索。 Francis Cholet: O3模型在ARC-AGI测试中的表现代表了AI在适应新任务方面取得的重大突破,但仍未达到AGI的水平。一些简单的任务O3模型仍然无法解决,未来ARC-AGI 2测试将对O3模型提出更大的挑战。 Cholet认为,目前的ARC-AGI测试已经趋于饱和,不再是一个有效的基准,新的测试将是评估AGI进展的更佳途径。 Greg Brockman: OpenAI承认O3模型取得了突破性进展,但在其是否达到AGI方面,并未明确声称。 Florian Mai: O3模型的能力已经超过了绝大多数程序员,这需要社会重视并采取负责任的行动,以应对可能出现的挑战。 Sully: O3模型的出现可能意味着编码工作的终结,其在编码基准测试中的表现令人震惊。 Santiago: O3模型在编码基准测试中的出色表现并不一定意味着它能够胜任所有软件工程师的工作,因为专业程序员的工作内容远不止是解决编码竞赛中的问题。 Didi Das: O3模型在数学基准测试中的表现令人难以置信,其难度远超一般人的理解能力。 Terry Tao: O3模型在高难度数学问题上的表现,虽然取得了一定进展,但仍有很大提升空间。 Ahmad Mostak: O3模型的出现可能导致全球经济的重塑,需要新的经济和社会框架。 Harry Law: O3模型在某些任务上的成本效益已经超过了雇佣咨询公司。 Adam D'Angelo: 市场尚未充分认识到O3模型的意义和对AGI的影响。 Amjad Mossad: 认为O3模型会完全取代软件工程师的观点是错误的。 Ethan Malik: 即使AI在各个领域都超过了人类的能力,社会和组织的变革速度仍然会相对较慢,这将为我们适应变化提供时间。 Julia McCoy: O3模型的出现并非仅仅是AI变得更聪明,更是让人类获得更多自由,可以摆脱重复性劳动。 Boyantungus: 与其与机器竞争,不如专注于提升自身的人文素养。

Deep Dive

Key Insights

What is O3, and why did OpenAI skip O2?

O3 is OpenAI's second-generation reasoning model. The company skipped O2 to avoid an intellectual property dispute with a large British telecom company.

How did O3 perform on coding benchmarks compared to O1?

O3 outperformed O1 by nearly 23 percentage points on a standard coding benchmark and surpassed OpenAI's chief scientist on Codeforces, ranking among the top 200 in the world.

What was O3's performance on the AIME math exam?

O3 achieved a near-perfect score on the AIME math exam, missing only one question.

How did O3 perform on the ARC-AGI test, and what does this test measure?

O3 scored 85% on the ARC-AGI test, tripling O1's score. This test measures a model's ability to handle novel problems that are difficult to pre-train, focusing on reasoning capabilities.

What did Francis Cholet, the creator of the ARC-AGI test, say about O3?

Cholet acknowledged O3 as a significant breakthrough in AI's ability to adapt to novel tasks but noted that it is not yet AGI, as there are still easy tasks it cannot solve.

What are the implications of O3's performance for the job market, particularly for programmers?

O3's coding abilities suggest it could outperform 99.95% of programmers on competitive coding platforms, raising concerns about job displacement in the coding industry.

Why might O3's performance on coding benchmarks not fully translate to real-world programming tasks?

While O3 excels in competitive coding challenges, it may not be as effective in real-world programming tasks that require broader problem-solving and collaboration skills.

What did Didi Das highlight about O3's performance on a math benchmark?

Didi Das noted that O3 achieved a 25% success rate on a highly challenging math benchmark created by math professors, a feat no other model has come close to.

How does the cost of using O3 compare to hiring human consultants like McKinsey?

At $3,000 per task, O3 is already more cost-effective than hiring McKinsey, highlighting its potential as a labor-saving tool despite its high compute costs.

What does Ethan Malik argue about the pace of societal change in response to AI advancements?

Malik argues that societal and organizational change will be slower than technological advancements due to human inertia, giving society time to adapt to AI's capabilities.

Chapters
This chapter explores the recent release of OpenAI's O3 reasoning model and the ensuing debate about its potential to be considered Artificial General Intelligence (AGI). The model's exceptional performance on various benchmarks, including coding, math, and the ARC-AGI test, is examined.
  • OpenAI released its second generation reasoning models, O3 and O3 Mini.
  • O3 significantly outperformed O1 on coding benchmarks and achieved a near-perfect score on the AIME math exam.
  • O3 exceeded the 85% human performance threshold on the ARC-AGI test, a benchmark for AGI.
  • The ARC-AGI test measures a model's ability to deal with novel problems.
  • Francis Chollet, creator of the ARC-AGI test, noted O3's significant breakthrough but didn't consider it AGI yet.

Shownotes Transcript

今天在AI每日简报中,我们是不是在圣诞节收到了AGI?AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论,请关注我们节目说明中的Discord链接。大家好。在我们今年的最后一个常规AI每日简报节目中,我们将跳过新闻头条。大部分都是小事,一些新的AI任命进入白宫,诸如此类。相反,我们将把所有时间都花在过去三天的大讨论上,那就是

那就是OpenAI是否刚刚给了我们AGI。伙计们,发生了什么事?OpenAI的这12天发货非常有趣。我们从O1的完整版本开始。也许最大的公告是Sora。但到上周末,似乎我们实际上真的要得到一个全新的模型了。如果你听了我的周五节目,你就会听到我们将获得O3的所有证据。事实上,事情就是这样发生的。

具体来说,周五,OpenAI宣布了其第二代推理模型O3和O3 Mini。现在,如果你想知道这个名字是怎么回事,该公司跳过了O2,以避免与一家大型英国电信公司发生知识产权纠纷。Sam Altman说,该公司只是在坚持其在命名方面非常糟糕的传统。

为了直奔主题,虽然公告本身相对低调,但随后引发的讨论都是关于这是否真的代表着接近AGI的东西。所以今天我们将探讨所有这些论点,以及我们应该对此作何感想。当然,从他们分享的数据来看,这个模型似乎非常好。在一个标准的编码基准测试中,O3比O1提高了近23个百分点。

它还在竞争性编码平台Codeforces上击败了该公司的首席科学家。事实上,现在世界上只有不到200人的Codeforces分数比它高。确切地说,是174人。

然后,Altman以一种比较低调的方式说,该模型“在编码方面令人难以置信”。该模型还在AIME数学考试中取得了接近满分的成绩,只错了一道题。它在专家级科学基准测试GPQA Diamond中取得了87.7%的成绩,远远超过了人类的顶级表现。尽管这些基准测试结果是实用且重要的,但至少在公告中,相当多的重点放在O3在ARC-AGI测试中的表现上。

该测试试图衡量模型处理新颖问题的能力,而这些问题很难进行预训练。它被认为至少测试了推理能力,并且是衡量AGI何时实现的一个可能的基准。

O3超过了AGI的85%人类表现阈值,是O1得分的三倍。今年的Arc AGI奖获得者使用经过微调的新型设计模型获得了53.5%的得分,只有少数尝试设法获得了高于30%的得分,这只是为了说明提高了多少标准。关于这项测试的一个有趣之处在于,人类使用基本的逻辑和推理很容易解决,但到目前为止,它却难倒了AI模型。

在过去几天里,你可能已经看到了这些红色和蓝色方块的网格,这是测试中最难的问题之一。

机器学习传奇人物、该测试的创建者Francis Cholet写道:“今天,OpenAI宣布了其下一代推理模型O3。我们与OpenAI合作对其进行了Arc AGI测试,我们相信它代表着在使AI适应新任务方面取得了重大突破。它在低计算模式下的半私有评估中得分75.7%,每项任务的计算成本为20美元,在高计算模式下的得分87.5%,每项任务的成本为数千美元。”

这非常昂贵,但这不仅仅是蛮力。这些能力是新的领域,需要认真关注科学。现在,谈到AGI的问题,OpenAI并没有声称拥有这个称号。他们正在使用大语言。OpenAI联合创始人兼总裁Greg Brockman写道:“O3是一个突破,在我们最难的基准测试中取得了阶跃式改进。”但这当然与声称AGI不同。

关于这是否是AGI的第一个值得注意的观点之一来自Cholet本人。在宣布测试结果的帖子中,他评论道:“那么这是AGI吗?”

虽然新模型非常令人印象深刻,并且代表着朝着AGI迈出的重要一步,但我并不认为这是AGI。仍然有相当数量的非常简单的Arc AGI 1任务是O3无法解决的。我们有早期迹象表明,Arc AGI 2对于O3来说仍然极具挑战性。这表明,创建未饱和的、有趣的基准测试仍然是可行的,这些基准测试对人类来说很容易,但对AI来说却不可能,而无需涉及专业知识。当创建此类评估变得完全不可能时,我们将拥有AGI。

作为对ARC奖本身的完全补充,该测试是在一组完全私有的问题上进行的,并且必须使用每项任务仅10美分的计算来完成。该团队致力于保持这些参数,直到有人发布一个能够达到85%得分的开源模型。Choualet认为该测试的第一版现在已经饱和,不再是一个有用的基准,但他预计第二版将带来更大的挑战。

他补充道:

ARC奖2025排行榜将是监控复制尝试的最佳场所。

Vanta为ISO 27001、SOC 2、GDPR和领先的AI框架(如ISO 42001和NIST AI风险管理框架)自动化合规性,为您节省时间和金钱,同时帮助您建立客户信任。此外,您可以通过自动化问卷调查并使用面向客户的信任中心展示您的安全态势来简化安全审查,所有这些都由Vanta AI提供支持。

包括Langchain、Leela AI和Factory AI在内的8000多家全球公司使用Vanta来展示AI信任并实时证明安全性。了解更多信息,请访问vanta.com/nlw。网址是vanta.com/nlw。

如果2025年AI有一件事是明确的,那就是代理正在到来。按行业划分的垂直代理、水平代理平台、按功能划分的代理。如果您正在运营一家大型企业,您明年将尝试使用代理。鉴于这有多么新颖,我们所有人都会回到试点模式。

这就是为什么Superintelligent在今年年初提供了一款新产品。这是一项代理准备情况和机会审核。在短短几周内,我们将与您的团队深入探讨哪些类型的代理适合您进行测试,您需要哪些类型的基础设施支持才能做好准备,并最终获得一套可操作的建议,让您准备好弄清楚代理如何改变您的业务。

如果您对代理准备情况和机会审核感兴趣,请直接与我联系,[email protected]。在主题行中加上“agent”一词,以便我知道您在谈论什么。让我们让您成为AI市场最具活力部分的领导者。当然,某物是否是AGI的问题,最终与它在做人们现在正在做的事情方面有多好,以及这将对就业、经济和社会意味着什么,关系不大。

这场讨论的主要场所围绕着开发者展开。Florian Mai写道:“'03比99.95%的程序员都要好。公众需要意识到正在发生的事情,以便我们能够负责任地采取行动。为了做到这一点,我们首先需要科学界承认证据。这是我们这个时代最重要的问题。’”企业家Sully写道:“是的,用03进行编码结束了。这令人难以置信。看起来这是自GPT-4以来第一次重大飞跃,因为这些数字毫无意义。”

尽管如此,一些人指出,编码竞赛并不一定能转化为现实生活中的问题。机器学习讲师Santiago写道:O3比99.95%解决Codeforces问题的程序员都要好。99.99%的专业程序员不需要做Codeforces问题来谋生。绝对没有证据表明O3能够做到那些专业程序员赚钱所做的事情。他继续说道,我并没有低估世界正在发生多大的变化。我的论点是关于软件工程基准测试的良好表现究竟告诉了我们什么

以及它与软件工程师的当前工作有何关联。

其他基准测试在范式转变方面同样令人印象深刻。Menlo Ventures的风险投资家Didi Das试图描述这个数学基准测试有多么疯狂,他评论道:“99.99%的人无法理解前沿数学有多么疯狂。这些问题是由数学教授创建的,而不是在任何训练数据中。数学传奇人物陶哲轩说,这些问题极具挑战性。我认为它们至少会在未来几年抵制AI。OpenAI03在这方面取得了25%的成绩。在这个阶段,没有其他模型完成过超过一道题。”

从这里开始,我们看到了一些关于大思考含义类型的讨论。Stability AI联合创始人Ahmad Mostak写道:“我对O3的看法是,全球经济已经崩溃。我们需要一个新的经济和社会框架。任何可以在电脑屏幕另一端完成的工作,AI都能够以更低的价格完成。”谷歌DeepMind和剑桥大学校友Harry Law写道:“每项任务3000美元,O3已经比雇佣麦肯锡更具成本效益。”

虽然我认为这个类比并不完美,但这里有一个重要的观点,那就是当这些数字放在软件的背景下时,它们看起来很昂贵,但当它们是劳动力替代时,就不那么昂贵了。Nick Camerata写道:“我把我的AI预期设定为不切实际的高到令人难以置信的AI世界,但我仍然低估了最近的进展。”

虽然我不想深入探讨这对于奇点和快速发展以及所有这些理论意味着什么的辩论,至少不在本集中,但相对于O3而言,重要的是它们是对话的一部分。一个值得注意的事情是内部AI对话与报道内容之间的差距有多大。

Adam D'Angelo写道:“O3的结果是公开的,但市场仍然没有将AGI计入价格,这真是太疯狂了。彭博社将其报道为OpenAI和谷歌之间竞争的又一个阶段。华尔街日报发表了一篇关于GPT-5延迟的专题报道,标题是:下一代伟大的AI飞跃落后于计划,而且极其昂贵。”然而,对于所有关于人们如何崩溃以及所有这些事情的讨论,我认为在这里也有一些视角非常重要。Replit首席执行官Amjad Mossad说,O3将使软件工程师自动化这一想法是愚蠢的。

Object Zero写道:Matt Griswold指出,开发人员的替代速度远低于技术的进步,他评论道:

Ethan Malik教授提出了我一直都在提出的一个观点。他写道,即使AI在各个领域普遍超过人类的能力,但一切都不会迅速改变的原因,很大程度上在于系统的性质。组织和社会变革的速度远慢于技术变革,即使存在快速变革的激励因素也是如此。人类社会和组织的惯性将成为一种减速力,帮助我们有时间去适应。

Julia McCoy反过来说道:关于O3的炒作忽略了重点。这与AI变得更聪明无关。这与人类获得更多自由有关。不再需要数据录入,不再需要平凡的任务,不再需要用时间换取金钱。Cushy也有类似的观点。如果你认为O3的发布并非无可辩驳的证据,证明这是有史以来最激动人心的时刻,你可能需要深呼吸一下,重新点燃你的乐观情绪。

对于那些试图弄清楚现在有了这个东西后他们应该把时间花在哪里的人,Boyantungus写道:“我已经告诉你们一段时间了,甚至不要试图在成为更好的机器方面与机器竞争。相反,尝试在成为更好的人方面与人类竞争。”

听着,叫我乐观主义者吧,但归根结底,我认为整个人类经验的历史都指向了这种智力爆炸的产出将极大地增加人类的创造力。我们将创造更多的东西。我们将编写更多代码。我们将制造更多产品。我们将创造更多娱乐。这并不是说沿途的破坏不会很痛苦,我们确实需要处理它们。

但我仍然认为,未来将比现在更令人兴奋。这对我来说似乎是一个结束2024年的好方法。现在,这将是今年最后一个常规AI每日简报节目。从现在开始,我将有一系列年末节目,我对此非常兴奋。我们有今年最重要的15款AI产品、对代理的25个预测等等。

不过,现在,我无法表达我对你们每天在这里观看、收听、与我一起度过的感激之情。我希望你们能度过一个美好的假期。下次再见,平安。