We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

The o3-to-AGI-Hype Pipeline

2025/1/22

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

AI for Success

Beth Jezos

Chubby

DeepSeek

Microsoft副总法律顾问

OpenAI消息人士

Sam Altman

领导 OpenAI 实现 AGI 和超智能，重新定义 AI 发展路径，并推动 AI 技术的商业化和应用。

Santi Geneschatz

Snap

Tibor Blaho

Tyler Cowen

Topics

Bob Gurley: 我认为取消AI行政命令是一个正确的举动。它将有助于加快AI创新，从而解决当前AI领域面临的许多挑战。取消冗余的规章制度将使我们能够更快地应对AI带来的各种问题。 Beth Jezos: 我认为这是EACC的重大胜利，并且这仅仅是个开始。我们将会看到更多积极的变化。 Miles Brundage: 然而，取消AI行政命令也存在风险。AI公司将不再有义务向美国政府提供其技术开发的最新情况，这可能会对人类构成威胁。 Lena Kahn: 大型科技公司与AI初创公司的合作可能会导致市场锁定，剥夺初创公司关键的AI资源，并泄露敏感信息，从而破坏公平竞争。我们需要对此进行密切关注。 Microsoft副总法律顾问: 我们与OpenAI的合作促成了世界上最成功的AI初创公司之一，并引发了业界前所未有的技术投资和创新浪潮。 Andrew Ferguson: 我认为FTC取消对Snap AI聊天机器人的投诉违反了言论自由的保护。 Snap: FTC提出的投诉不准确，缺乏确凿证据，也没有确定任何实际损害，并且存在严重的第一修正案问题。

Deep Dive

Shownotes Transcript

OpenAI的即将推出的O3模型引发了对其能力和潜在影响的广泛猜测。从高级推理的暗示到其对AGI发展的意义，兴奋之情溢于言表。与此同时，DeepSeek等竞争对手以具有成本效益的高性能替代方案挑战着竞争格局。本期节目将揭示事实，消除炒作，并探讨对人工智能创新和政策的更广泛影响。由以下机构为您带来：毕马威——访问 ⁠www.kpmg.us/ai⁠ 了解更多关于毕马威如何帮助您利用我们的AI解决方案创造价值的信息。 Vanta - 简化合规性 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw Superintelligent提供的代理就绪审计——访问https://besuper.ai/ 以请求您公司的代理就绪评分。 AI每日简报帮助您了解人工智能领域最重要的新闻和讨论。订阅The AI Daily Brief的播客版本，无论您在哪里收听：https://pod.link/1680633614 订阅时事通讯：https://aidailybrief.beehiiv.com/ 加入我们的Discord：https://bit.ly/aibreakdown

</context> <raw_text>0 在今天的AI每日简报中，OpenAI的O3 Mini似乎即将推出，但我们能否获得博士级别的超级智能体？在此之前，在头条新闻中，唐纳德·特朗普在其担任总统的首批行动之一中，撤销了拜登关于人工智能的行政命令。AI每日简报是一个关于人工智能领域最重要的新闻和讨论的每日播客和视频。要加入讨论，请关注我们节目说明中的Discord链接。

欢迎回到AI每日简报头条新闻版，所有您在约五分钟内需要的每日AI新闻。我们今天首先介绍一些预期中的事情，但这仍然并非不重要。开启特朗普时代在美国的人工智能发展，新任总统已经废除了拜登的人工智能行政命令。特朗普总统昨晚大部分时间都在废除前任政府的行政命令并签署他自己的行政命令。

其中包括2023年10月的命令，该命令规定了，引用，“安全、可靠和值得信赖的人工智能开发和使用”。它主要针对政府部门，开始研究包括人工智能安全以及人工智能标准等方面的内容。它在国家标准与技术研究院内建立了人工智能安全研究所，这是一个负责分析前沿实验室的安全报告并考虑未来应建立的防护措施的机构。

从功能上讲，这项行政命令并没有禁止任何研究，但它仍然带来了一些额外的行政程序，这激怒了国会共和党人。

他们观点的简短总结是，这些规则不利于创新。现在很明显，随着我们进入新的特朗普政府，这些限制将被取消。Uta的首席技术官Bob Gurley写道：“就这样，人工智能末日论者和减速器们努力制定的行政命令被撤销了。我们今天在人工智能领域面临许多问题，其中大多数问题都需要更快地创新能力。因此，撤销这项命令是一个伟大的举动。”Beth Jezos评论道：“完全的EACC胜利。我们才刚刚开始。”

当然，其他人则有些犹豫。前OpenAI政策研究员Miles Brundage表示：“现在人工智能行政命令已被废除，人工智能公司没有法律义务向美国政府提供任何关于他们正在开发的技术的现状更新，而该领域的领导者认为这可能会威胁到人类。”

继续关注政府主题，尽管是在一个非常不同的维度上，联邦贸易委员会对大型科技公司与人工智能初创公司之间的合作表示担忧。最近，联邦贸易委员会在周五的一份工作人员报告中强调了微软与OpenAI以及谷歌与Anthropic合作带来的竞争问题。联邦贸易委员会主席Lena Kahn在一份声明中表示，联邦贸易委员会的报告揭示了大型科技公司的合作如何造成锁定、剥夺初创公司关键的人工智能投入以及泄露可能破坏公平竞争的敏感信息。

该报告特别关注云服务的提供。它声称，这些合作可能会影响对计算研究和工程人才的获取。它还担心这些合作可能会通过增加客户的转换成本来产生锁定效应。例如，如果OpenAI客户试图从微软转向其他公司，可能会发现人为设置的障碍。最后，该报告强调了云提供商可能独家访问敏感信息的风险。它指出，至少有一项协议授予了对模型输出数据的访问权限，这些数据可以用作训练的合成数据。

当然，这感觉像是联邦贸易委员会为新政府做准备。除了已经提到的所有内容外，联邦贸易委员会还质疑这些交易中固有的循环支出。换句话说，以云积分或美元形式进行的投资很可能会用于云服务，基本上使这些大型科技公司免受损失。

尽管如此，微软仍然支持这项合作，他们的副总法律顾问表示，这笔交易，“使世界上最成功的人工智能初创公司之一成为可能，并引发了业界前所未有的技术投资和创新浪潮”。目前，联邦贸易委员会尚未提起任何与人工智能相关的反垄断诉讼。

然而，在另一个领域，联邦贸易委员会已将其对Snap人工智能聊天机器人的调查移交给了司法部。联邦贸易委员会的非公开投诉涉及指控Snapchat添加其My AI聊天机器人会造成，“对年轻用户的风险和危害”。该机构指出，“尽管委员会通常不会公开它已提交投诉的事实，但我们已确定在此这样做符合公众利益。”调查源于2014年和解协议后的合规性监控，该协议涉及围绕数据收集的公开欺骗指控。

Snap承认他们的聊天机器人容易产生幻觉并愿意回答不当的问题。在2023年的一份调查报告中，一位《华盛顿邮报》记者假扮成一名青少年，能够得到关于如何掩盖酒精和毒品气味的建议。值得注意的是，两位共和党委员都缺席了做出转介决定的会议。委员Andrew Ferguson发表了异议意见。他说他不允许评论此案，因为细节尚未公开，但他表示这违反了言论自由的保护。他评论道：

我没有参加这次荒谬的闭门会议，在这个会议上批准了此事。Snap也反驳说，该公司专注于生成式人工智能的深思熟虑的发展，并补充说：“不幸的是，在本届政府的最后一天，一个分裂的联邦贸易委员会决定否决一项拟议的投诉，该投诉没有考虑任何这些努力，是基于不准确的信息，缺乏确凿的证据。它也没有确定任何有形的损害，并且存在严重的宪法第一修正案问题。”

可以肯定地说，在人工智能政策方面，未来100天将会有很多疯狂的竞争和两个截然不同的政府之间的过渡。我相信会有比我们今天报道的更重要的新闻，但就目前而言，这将是这一组头条新闻的全部内容。感谢您的收听，接下来是主要节目。今天的节目由Vanta为您带来。信任不仅仅是赢得的，更是被要求的。

无论您是正在应对第一次审计的初创公司创始人，还是经验丰富的安全专业人员正在扩展您的GRC计划，证明您对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。企业使用Vanta通过自动化合规需求来建立信任，这些需求涵盖35多个框架，例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍，并主动管理供应商风险。

Vanta可以通过将您与审计师和专家联系起来以进行审计并快速建立您的安全计划来帮助您启动或扩展您的安全计划。此外，由于平台中使用了自动化和人工智能，Vanta可以为您节省时间，让您可以专注于公司建设。加入超过9,000家全球公司，例如Atlassian、Quora和Factory，他们使用Vanta实时管理风险并证明安全性。

在有限的时间内，本观众可以享受Vanta的1,000美元折扣，网址为vanta.com/nlw。网址为v-a-n-t-a dot com/nlw，可享受1,000美元的折扣。如果2025年人工智能有一点是明确的，那就是智能体即将到来。垂直智能体购买行业水平智能体平台。

每个功能的智能体。如果您正在运营一家大型企业，那么明年您将尝试使用智能体。鉴于这是新事物，我们所有人都会回到试点模式。

这就是为什么Superintelligent在今年年初提供一项新产品的原因。这是一项智能体准备情况和机会审计。在短短几周内，我们将与您的团队深入探讨哪些类型的智能体适合您进行测试，您需要哪些类型的基础设施支持才能做好准备，并最终获得一套可操作的建议，让您准备好弄清楚智能体如何改变您的业务。

如果您对智能体准备情况和机会审计感兴趣，请直接与我联系，[email protected]。在主题行中输入“智能体”一词，以便我知道您在谈论什么。让我们让您成为人工智能市场最具活力部分的领导者。您好，AI每日简报听众。快速休息一下，分享毕马威最新AI季度脉搏调查中的一些非常有趣的发现。

您是否知道，67%的商业领袖预计人工智能将在未来两年内从根本上改变他们的业务？然而，并非一帆风顺。他们面临的最大挑战包括数据质量、风险管理和员工采用等方面。毕马威正走在帮助组织克服这些障碍的最前沿。他们不仅仅是在谈论人工智能，他们正在引领具有实用解决方案和实际应用的变革。

例如，超过一半的受访组织正在探索使用人工智能智能体来处理行政事务和呼叫中心运营等任务。因此，如果您希望在人工智能领域保持领先地位，请关注毕马威。他们不仅仅是对话的一部分，他们正在帮助塑造它。了解毕马威如何在kpmg.com/US推动人工智能创新。欢迎回到AI每日简报。OpenAI即将发布人工通用智能吗？

我们今天进行的对话始于周五下午，当时Sam Altman宣布OpenAI的O3推理模型即将发布。他发布道：“感谢测试O3 Mini的外部安全研究人员。我们现在已经完成了最终版本，并开始发布流程，计划在几周内发布。此外，我们听到了反馈。我们将同时推出API和ChatGPT。它非常好。”

炒作周期立即开始。Santi Geneschatz写道：“事实上，这类讨论太多了，以至于Altman参与其中，参与了回复中的长时间讨论以设定预期。”在McKay Wrigley询问后，Altman说：

当Terrace Bob写道时，就谁可以访问而言，新模型至少将提供给OpenAI Pro订阅者。换句话说，就是那些每月支付200美元的人。

总的来说，周末过后，Sam Altman回到Twitter上说：“当然，当OpenAI在12月底首次预览O3时，对许多人来说，这是第一个看起来有点像AGI的模型。它是第一个在Arc AGI基准测试中得分达到75%的模型，这可能是我们目前测试AGI风格性能的最佳标准。”

然而，这项测试是在完整模型上进行的，并使用了大量的计算资源。RKGI测试允许为官方排名分配10,000美元的推理预算。非官方OpenAI还使用超过100,000次推理进行了一次运行，并且性能更高。但是，这种计算水平对于向公众提供是不切实际的，因此我们得到的是更小、因此功能更弱的东西。

尽管如此，这并不意味着该模型本身不会成为范式转变。例如，Chubby写道：“为了再次解释为什么O3 Mini如此重要，我们得到一个比完整的O1更好的推理模型，而成本只是它的一小部分。在中等计算量下，O3 Mini仍然比O1 Mini至少便宜一点点，但在代码力量方面比完整的O1高出100多个ELO。这意味着更多应用程序和更多用户可以获得更好的推理能力。更广泛的应用会导致更多见解和更多突破。这就是为什么O3 Mini如此重要的原因。”

Genie AI的创始人Henry Mao说得更具体。如果O3 Mini足够便宜，它可能会取代4.0和Sonnet 3.5用于日常编码任务。

应用程序开发者Blake C.写道：Tdm建议这并不是要发布一个性能更高的模型，而是一个让OpenAI的推理模型更具成本效益的步骤。他们发布道：“所以O3 Mini基本上只是更快的O1。我认为他们发布这个的主要原因是O1的成本无法降低到足以维持规模，同时又不亏损。”

另一个原因是让API开发人员更多地使用O3 Mini而不是Sonnet，因为它会更快更智能。因此，从Sam Altman那里获得的线索来看，这听起来并不像是面向消费者的AGI。然而，还有其他迹象表明OpenAI正在接近一些非常重要的事情。Axios周末报道称，Sam Altman已被邀请在下周向特朗普白宫进行简报。文章指出，“……一家顶级公司，可能是OpenAI，将在未来几周宣布一项下一级别的突破，该突破将释放出博士级别的超级智能体来完成复杂的人类任务。”

OpenAI的消息来源表示，他们对最近的进展感到“既兴奋又害怕”。有趣的是，关于OpenAI推出智能体的公开讨论并不多，但许多人似乎认为这是该公司落后于其他公司的一个领域。然而，这种情况似乎不会持续很久。例如，Tibor Blaho在OpenAI的代码中发现了对智能体的引用。他在推特上写道：“确认ChatGPT macOS桌面应用程序具有隐藏选项，可以为桌面启动器定义快捷方式，以切换操作员并强制退出操作员。”

“操作员”是OpenAI即将推出的通用智能体的名称。此前有报道称，1月份是“操作员”的预期发布月份。Chubby再次指出，OpenAI在其网站上已经有一个比较页面，显示“操作员”的性能与Anthropic的计算机使用模式和谷歌的Mariner智能体相比。

他们写道：“看起来发布迫在眉睫。我们不知道这张泄露的图表是否真实，但其中的基准测试显示，与Anthropic的模型相比有了实质性的进步，与谷歌在该领域的专用网页浏览智能体相比也有轻微的改进。”尽管如此，OpenAI似乎并没有完善计算机使用模式。例如，泄露的测试显示，该智能体只能成功注册云服务帐户并启动虚拟机60%的时间。

为了回应一些炒作，Cognizant的自动化主管Kumar Apparanjee试图降低人们对这些智能体能力的预期。他发布道：“甚至DeepSeek R1也不是，尽管它比R01便宜27倍。”

说到这里，虽然OpenAI的这些发布传闻让想象力飞驰，但一家中国竞争对手实验室却凭借其最新模型吸引了大量的关注。周末，DeepSeek发布了其R1推理模型的完整版本。

现在，您可能还记得我们多次谈到DeepSeek。经济学家Tyler Cowen用它作为例子，说明为什么特朗普应该对拜登的芯片出口政策有不同的看法。就发布的内容而言，该模型在大多数基准测试中的表现与O1相当，特别是SweeBench Verified，该基准测试侧重于编程任务。

R1现在作为开源模型完全可用于商业用途，并且能够以低于R01成本5%的价格通过API提供输出。业余爱好者也能够在家运行该模型，一些人证明它可以在Mac mini集群上运行。

随着R1的完整发布，还有一篇技术论文描述了后训练过程，该过程在基础模型之上发展推理能力。DeepSeek表示，他们在最终确定相对简单的强化学习过程之前尝试了多种形式的后训练。Conjecture AI的研究工程师Max Winga发布道：“对我来说，令人惊讶的是，他们在RL阶段之前没有进行任何微调。R1像AlphaZero一样自己学习推理。在训练过程中，他们观察到模型学习使用高级推理技术，这是一个‘顿悟’时刻。我们正在与外星人的思维打交道，而不仅仅是工具。”

人工智能企业家Elvis Saravia写道：“DeepSeek R1论文是一颗宝石。很明显，LLM推理能力可以通过不同的方式学习。如果正确应用并大规模应用，强化学习可以带来一些真正强大而有趣的扩展和涌现特性。”

现在，所有这些都让一些人开始思考未来的可能性。例如，“人工智能成功”账户在推特上写道：“几年后，中国将创造AGI并将其开源给所有人。DeepSeek R1的成本比OpenAI O1低96%，而且几乎与O1一样好。智能太便宜了，无法计量。2025年将会疯狂。我能感觉到。”

事实上，中国正在迅速发展，这对人工智能政策具有重大影响。拜登政府在宣布最新一轮出口管制时明确表示，国际竞争力是一个关键问题。政策声明设定了一个明确的目标，即确保美国模型在全球范围内占据主导地位，尤其是在全球南方地区。乔治·梅森大学研究员Dean W. Ball发布道：“‘Deep-seek R1对政策的启示。第一，就达到与美国模型相似的基准性能而言，中国实验室可能会继续快速跟进。’”

第二，DeepSeq的蒸馏模型（R1的较小版本）的令人印象深刻的性能意味着，非常有能力的推理器将继续广泛传播，并且可以在本地硬件上运行，远离任何自上而下的控制机制，包括美国的扩散规则。第三，开源模型将对美国具有战略价值，我们需要找到更多方法将更多前沿开源模型推广到世界各地。我们目前完全依赖Meta来做到这一点，虽然这很好，但这只是一家公司。为什么OpenAI和Anthropic不开源他们的旧模型？这样做有什么害处？

The o3-to-AGI-Hype Pipeline 16:21 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

The o3-to-AGI-Hype Pipeline