We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

First Reactions: Claude 3.7 Sonnet and Claude Code

2025/2/26

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript

People

Aaron Levy

Adam Paul

Adana Singh

Alex Albert

Benjamin Dekraker

Boris Power

Brad Lightcap

CJZZZ

Catherine Olson

Flowerslop

Harrison Kinsley

Math and Lambert

NLW (Narrator)

Pietro Sciorano

Professor Ethan Malek

Rowan Chung

Sam Altman

领导 OpenAI 实现 AGI 和超智能，重新定义 AI 发展路径，并推动 AI 技术的商业化和应用。

Tony Wu

Topics

Brad Lightcap: 我很荣幸地宣布，ChatGPT 的周活跃用户已超过 4 亿，这代表着我们每周都在为全球 5% 的人口提供服务。此外，企业对 AI 的采用需要时间，因为存在购买周期、学习过程以及人类和组织的固有惰性。DeepSeek 事件也证明了 AI 已经深入主流公众意识。 Sam Altman: 我认为 GPT-4.5 给高阶测试者带来了强烈的 AGI 体验，而即将推出的 GPT-5 将对 OpenAI 的产品线进行重大重构，它将整合推理和非推理能力，成为一个能够在两者之间切换的单一模型。 Boris Power: 我对 Grok 团队在评估中作弊和欺骗的行为感到失望。总而言之，在所有评估中，O3 Mini 都优于 Grok 3。Grok 3 确实是一个不错的模型，但没有必要过度宣传。 Tony Wu: 对单一指标（pass at 1）的过度关注是愚蠢的。为了进行公平的比较，必须固定测试计算预算，并且在没有公开 O3 Mini 背后使用的测试时间计算方法的情况下，我们无法真正进行比较。归根结底，这只是哪个产品更好。此外，根据产品的不同（例如，消费产品与 API），您可能对测试时间计算的延迟或总浮点运算有不同的要求。试试 Grok 3，告诉我您认为它是否比 O3 Mini 好或坏。 Math and Lambert: 我认为可以肯定地说，XAI 和 OpenAI 都在思考模型方面犯了一些小的图表错误。坦率地说，没有行业规范可以依赖。只需期待噪音即可。没关系。祝最好的模型获胜。无论如何，请自行进行评估。对于 99% 的人来说，AIME 实际上毫无用处。 NLW (Narrator): 我完全相信这些基准测试结果毫无意义。所有模型现在都处于这些指标的顶端，它们几乎无法提供任何有用的信息。我们需要新的评估方法。现有的基准测试结果意义不大，我们需要新的评估方法。Anthropic 的 Claude 3.7 Sonnet 是一个混合推理模型，能够在近乎即时响应和逐步思考之间切换。Claude 3.7 Sonnet 在大多数基准测试中只是略微改进，但在编码方面取得了显著进步。Anthropic 将 Claude 3.7 Sonnet 的重点放在了实际任务上，而非数学和计算机科学竞赛问题。 Rowan Chung: Anthropic 推出的 Claude 3.7 Sonnet 是世界上最好的 AI 编码模型，它让我大吃一惊，因为它能够在一个提示中创建可玩的游戏。 Professor Ethan Malek: Claude 3.7 Sonnet 非常好，它从语言到代码的转换非常令人印象深刻。 Aaron Levy: Box 公司对 Claude 3.7 Sonnet 的评估显示其在数学、逻辑、内容生成和复杂推理方面非常强大。 Adana Singh: Claude 3.7 Sonnet 能够创建一个交互式学习平台来帮助用户学习。 CJZZZ: Claude Sonnet 3.7 专为程序员而设计，不应以网页搜索和多模态评估来评估它。 Flowerslop: 根据我的测试，Claude 3.7 在编码方面领先于其他模型，它能够轻松完成 Doodle Jump 克隆。 Alex Albert: 我们正在开放对我们正在构建的新型代理编码工具 Claude Code 的研究预览版访问权限。在 Anthropic 内部，Claude Code 正在迅速成为我们不可或缺的工具。 Pietro Sciorano: Claude Code 能够完成需要 45 分钟人工操作的任务。 Adam Paul: Claude Code 是一个终端编码代理，它是前沿公司自 GPT-4 以来发布的最酷的东西。 Harrison Kinsley: Claude Code 非常好，界面很棒，我喜欢它的操作类型规则。但是，运行它的成本可能高达每小时 5 美元，甚至更高。 Catherine Olson: Claude Code 非常有用，但它仍然可能出错。我建议用户在干净的提交环境下使用它，并且可以与 Claude Code 并行工作。 Benjamin Dekraker: 我预感 Claude Code（终端编码器）比许多人意识到的更重要。

Deep Dive

Chapters

OpenAI's ChatGPT surpasses 400 million weekly active users, showcasing rapid growth. Discussion includes the upcoming GPT-4.5 and GPT-5 models, with speculation about their release dates and capabilities, including integration of reasoning and non-reasoning into a single model.

ChatGPT surpasses 400 million weekly active users.
GPT-4.5 expected release soon, GPT-5 in late May.
GPT-5 to integrate reasoning and non-reasoning into a single model.

Shownotes Transcript

今天在AI每日简报中，Anthropic刚刚发布了Claude 3.7 Sonnet。在此之前的头条新闻是，ChatGPT的每周活跃用户达到4亿。AI每日简报是一个关于AI最重要新闻和讨论的每日播客和视频。要加入讨论，请关注我们节目说明中的Discord链接。♪

欢迎回到AI每日简报头条新闻版，所有您需要的每日AI新闻，大约五分钟即可看完。快速提示，接下来的几集我们将只提供音频。本周末，我们将恢复正常的视频格式。我们今天首先介绍OpenAI上周底发布的消息，ChatGPT的每周活跃用户达到4亿，自12月以来增长了33%。OpenAI之前没有披露这些数据，这些数据显示该服务仍在快速增长。

首席运营官布拉德·莱特卡普发布消息称，ChatGPT最近突破了4亿每周活跃用户。我们很幸运能每周为全球5%的人提供服务。

现在已有超过200万的企业用户在工作中使用ChatGPT，自1月份推出O3 Mini以来，推理模型API的使用量增长了5倍。我认为最后一个数字非常重要。O3 Mini将API推理模型的使用量提升了5倍。莱特卡普补充说，GPT 4.5和5即将推出，计划为低推理设置的免费用户提供GPT-5的无限使用。在接受CNBC采访时，莱特卡普讨论了数亿免费用户与相对缓慢的企业采用之间的差距，他表示……

这里有一个购买周期和一个学习过程，需要投入到扩展企业业务中。人工智能将像云服务一样。这将是一项你无法经营业务的事情，最终它实际上并没有在这些强大的模型下运行。然而，从我们在Superintelligent的经验来看，这完全是正确的，这只是需要时间。即使是世界上最明显的事情，也会遇到必须克服的人为和组织惰性。

谈到其他话题，莱特卡普将DeepSeek事件视为AI已进入时代精神的证明，而不是对OpenAI的负面评价。他评论道，DeepSeek证明了AI已经进入主流公众意识的程度。两年前，这是不可想象的。这是一个时刻，它展示了这些模型的强大功能以及人们有多么关心。许多人在看到这些数字时指出，如果这种增长速度持续下去，我们将很快看到10亿ChatGPT用户。

说到GPT-4.5，一些公司已经做好了准备。《The Verge》报道称，GPT-4.5最早可能在本周发布。据熟悉微软计划的消息人士透露，该公司已经为GPT-4.5和GPT-5准备了服务器容量。

他们预计GPT-4.5即将发布。另一方面，GPT-5预计将于5月底发布，与微软的Build开发者大会相符。这可能代表着微软和OpenAI今年发布版本之间更加紧密的合作关系。据报道，微软在去年5月GPT-4.0发布时措手不及。它提供了语音和翻译服务，以及大幅的速度提升，所有这些都比微软基于GPT-4 Turbo构建的服务价格更低。

微软直到10月份才彻底改革其服务以赶上OpenAI，而OpenAI当然应该是他们这里最大的合作伙伴。现在，关于微软和OpenAI潜在破裂的传闻有很多，但至少在这个案例中，微软这次得到了预先通知，因此我们可以预期，在OpenAI发布后不久，副驾驶更新就会准备就绪。

与此同时，山姆·奥特曼一直在炒作它，上周他发帖称，“尝试GPT-4.5对高品味测试者来说更像是一个感受AGI的时刻，这超出了我的预期。与此同时，请记住，GPT-5将是对公司产品线的一次更大规模的重新思考。它将是第一个将推理和非推理集成到单个模型中的模型。OpenAI还建议，他们将设计一种方法来为每个查询应用正确的推理量，从而无需模型选择器。

谣言已经开始传播。Lisan Al-Gaib暗示OpenAI可能已经在公开测试GPT-4.5，将一些O3 mini查询路由到新模型。与此同时，OpenAI谣言传播者Riley Coyote透露，周三将是发布日。

现在，说到新的模型，围绕Grok3的基准测试有一些争议，一些人怀疑XAI的新模型是否真的能与OpenAI的O3 Mini相匹敌。争议特别涉及AI-ME基准测试，这是一组具有竞争力的数学问题。XAI使用称为CONSAT64或最佳64的方法测试了他们的模型。这包括生成64个响应并选择出现频率最高的响应。

最佳64是一个广为接受的基准测试标准，因此本身使用它没有问题。问题是XAI使用称为PassAt1的一次性解决方案方法将其结果与O3 Mini的基准测试进行了比较。OpenAI提出了这个一次性基准测试，以证明O3 Mini比O1更好，即使旧模型进行了64次尝试。换句话说，XAI并没有进行苹果与苹果的比较。

这似乎让OpenAI团队特别恼火，因为XAI正在将Grok 3宣传为世界上最聪明的AI。OpenAI应用研究主管鲍里斯·鲍尔发帖称，“……令人失望的是，Grok团队在评估中作弊和欺骗的动机。TLDR-03 Mini在与Grok 3相比的每次评估中都更好。Grok 3确实是一个不错的模型，但无需过度宣传。”

XAI的联合创始人Tony Wu评论道，“……对指标Pass at 1的痴迷简直愚蠢。为了公平比较，你必须修复测试计算预算，并且在没有披露O3 Mini背后使用的测试时间计算方法的情况下，我们无法真正进行比较。归根结底，这只是哪个产品更好。此外，根据产品（例如消费产品与API），你可能对测试时间计算的延迟或总浮点运算有不同的要求。试试Grok 3，告诉我你认为它比O3 Mini更好还是更差。”

现在，这场讨论乍一看可能会被原谅为两个团队固有的竞争性，但它确实蔓延到了AI研究界的其他领域，他们讨论了如何处理未来的基准测试。TeraTax在一个图表中汇编了所有可用的基准测试，包括OneShot和Best of 64变体，评论道，“我实际上认为Grok在那里看起来不错，而OpenAI在O3 Mini High Pass at 1背后的测试时间计算欺骗行为值得更多关注。”

Math和Lambert写道，“我认为可以肯定地说，XAI和OpenAI都犯了轻微的图表罪行，并对思维模型进行了思考。坦率地说，没有行业规范可以依赖。只需期待噪音即可。没关系。祝最好的模型获胜。无论如何，请自行进行评估。AIME对99%的人来说实际上毫无用处。”

我认为，这肯定是一个关键点。每个模型在发布最新成果时都会用这些基准测试来打击我们，说，看，我们已经改进，等等等等。从根本上说，这并不重要。对不起，但此时此刻，我完全相信这些基准测试完全被淹没了。其中几乎没有相关的信号，所有模型现在都处于这些事物的顶端，它们几乎什么也告诉你。

我希望我们能在思考新型评估方面取得更多成果，因为我们迫切需要它。但在现阶段，我认为，如果你愿意投入时间和资源去做的话，没有其他合理的答案，那就是尝试对所有最先进的技术进行各种类型的查询、提示和挑战，看看哪个效果最好。或者，另一种方法是，只选择一个，假设它与最先进的技术一样好，并且在他们发布最新更新后的几周内，它将与最先进的技术一样好。

说到这里，我认为这完美地引出了我们节目的主要主题，即Anthropic发布Claude 3.7 Sonnet。今天的节目由Vanta赞助。信任不仅仅是赢得的，更是被要求的。无论你是正在应对第一次审计的初创公司创始人，还是经验丰富的安全专业人员正在扩展你的GRC计划，证明你对安全的承诺从未像现在这样重要或复杂。这就是Vanta的用武之地。

企业使用Vanta通过自动化合规需求来建立信任，这些需求涵盖35多个框架，例如SOC 2和ISO 27001。集中的安全工作流程可以将问卷调查完成速度提高5倍，并主动管理供应商风险。Vanta可以通过将你与审计员和专家联系起来，帮助你启动或扩展你的安全计划，以便快速进行审计并建立你的安全计划。此外，由于平台中使用了自动化和AI，Vanta可以为你节省时间，让你可以专注于公司建设。

加入超过9000家全球公司，例如Atlassian、Quora和Factory，他们使用Vantage实时管理风险和改进安全。

在有限的时间内，这个观众可以在vanta.com/nlw获得Vanta 1000美元的折扣。这是v-a-n-t-a.com/nlw，可享受1000美元的折扣。如果2025年关于AI有一点是明确的，那就是代理即将到来。垂直代理购买行业水平代理平台。

每个功能的代理。如果你正在运营一家大型企业，你明年将尝试使用代理。鉴于这是多么新颖的事情，我们所有人都会回到试点模式。

这就是为什么Super Intelligent在今年年初提供了一项新产品。这是一项代理准备和机会审计。在短短几周内，我们将与你的团队一起深入了解哪些类型的代理适合你进行测试，你需要哪些类型的基础设施支持才能做好准备，并最终获得一套可操作的建议，帮助你做好准备，了解代理如何改变你的业务。

如果你对代理准备和机会审计感兴趣，请直接联系我，[email protected]。在主题行中输入“agent”一词，以便我知道你在说什么。让我们成为AI市场最具活力部分的领导者。欢迎回到AI每日简报。Anthropic刚刚发布了Claude 3.7 Sonnet，他们称之为迄今为止最智能的模型。

与OpenAI似乎对GPT-5的描述类似，Anthropic称这是一种混合推理模型，它“产生近乎即时的响应或扩展的分步思考”。一个模型，两种思考方式。现在，暂且不考虑它是否真的做得很出色，我认为这将成为未来新的常态。推理模型和非推理模型之间的分离不再存在。只有一个模型来统治它们，它可以在两者之间导航。

当然，正如你所预期的那样，Anthropic宣布了一系列基准测试，以证明Cloud 3.7 Sonnet比其前身有了很大的改进。他们展示了从GPQA Diamond（研究生水平的推理）到AIME的各个方面的性能提升。我刚刚对评估基准测试发表了我的评论，所以我不会再重复了。最终，我认为你可以说，即使根据他们自己的分享，在大多数情况下，这是一种向前推进，而不是飞跃。

一个例外是编码，SweetBench验证测试显示，Cloud 3.7 Sonnet的性能有了巨大的提升，从Cloud 3.5 Sonnet的49%一路飙升到62.3%到70.3%。代理工具的使用也大幅增加，显示出比Cloud 3.5 Sonnet以及OpenAI的O1有了显著的性能提升。

事实上，这使得Anthropic表示Claude 3.7是用于编码和代理工具使用的最先进模型。他们写道，在开发过程中，我们对数学和计算机科学竞赛问题的优化较少，而是将重点转向更好地反映用户需求的现实世界任务。所以至少有人听到了关于基准测试以及我们应该考虑什么的抱怨。

现在，很明显，编码现在对Anthropic来说是整个游戏，所以我们稍后会回到这一点。但在此之前，让我们听取一些第一反应。《The Rundown》的Rowan Chung写道，Anthropic刚刚发布了Claude 3.7 Sonnet，这是世界上最好的编码AI模型。我是一个早期测试者，它让我大吃一惊。它在一个提示中创建了这个Minecraft克隆，并在文物中使其立即可玩。Ethan Malek教授写道，它非常好。它的语言编码氛围令人印象深刻。这是一个基于梅尔维尔故事《巴特比抄写员》的一次性提示视频游戏。

Box的Aaron Levy写道：“Box一直在使用企业文档对其进行评估，它在硬数学、逻辑、内容生成和复杂的推理和用例方面非常强大。”Box AI将在今天晚些时候在Box AI Studio中支持Cloud 3.7 Sonnet。Adana Singh写道：“老兄，什么？我刚问它有多少个R。Cloud Sonnet 3.7为我建立了一个交互式学习平台，让我自己学习它。”事实上，虽然总体印象良好，但这主要是因为许多印象都与编码有关。

CJZZZ写道，Claude Sonnet 3.7是为程序员而设计的。不要根据网络搜索和多模式评估来评估它。Claude正在加倍努力，专注于他们最擅长的领域：AI编码。Matt Schumer分享了SweeBench验证基准测试，并表示这似乎是一个巨大的进步。Flowerslop写道，根据我的第一次氛围测试，Claude 3.7在编码方面似乎比01、03 Mini High、R1和Grok 3领先很多。

我喜欢的一个测试是模型是否可以从头开始构建一个功能齐全的Doodle Jump克隆。它正好处于SOTA模型几乎能做到但又不能完全做到的事情的边缘。直到现在。O1尝试过，但窗口立即关闭并出现控制台错误。O3 Mini High制作了一个基本版本，但平台相距太远而无法到达。

R1没有起始平台，因此你将立即失败。即使额外思考，Grok 3也会立即崩溃。Cloud 3.7成功了。第一次尝试，一个提示，完全有效，设计精美，甚至还有一个有趣的小涂鸦。它只是简单地完成了它，没有任何缺陷或错误。

事实上，这也许就是公告中并非唯一的部分的原因。Cloud Relations负责人Alex Albert写道：“我们正在开放对我们正在构建的新型代理编码工具的有限访问权限：Cloud Code。你将直接从终端获得Cloud驱动的代码辅助、文件操作和任务执行。安装Cloud Code后，只需从任何目录运行`cloud`命令即可开始。询问有关代码库的问题，让Cloud编辑文件并修复错误，甚至让它运行bash命令并创建git提交。

Alex继续说道，在Anthropic内部，ClaudeCode很快成为我们不可或缺的另一个工具。公司各地的工程师和研究人员都使用它来完成从主要的代码重构到冲洗提交，再到通常处理编码工作等所有事情。他分享了一条来自Slack的消息，上面写着：“我只想说，ClaudeCode很快就占据了我的生活，并成为我的首选工具。真的认为这里有一些非常特别的东西。”

Pietro Sciorano进一步解释道：“Claude Code是一个命令行工具，允许开发人员直接从终端将大量的工程任务委托给Claude。在早期测试中，Claude完成了任务，并超过了通常需要45分钟手动工作才能完成的任务。”Not Adam Paul写道：“Claude Code是一个终端内编码代理，它是前沿公司自GPT-4以来发布的最酷的东西。在这里，我让它阅读我的项目规范，并告诉我根据代码库还需要实现什么。甚至还没有开始用它编码，我就上瘾了。”

现在，如果有人有任何担忧，那就是价格。Harrison Kinsley写道，Claude Cote非常好。UI太棒了。我喜欢动作类型规则。做得好。准备每小时花费高达5美元来运行它，甚至可能更多。Deja Vu Coder回应道，更像是每20分钟5美元。其他人，如Anthropic的Catherine Olson，也加入了讨论，谈论它不完美的地方。她写道，Claude Cote非常有用，但它仍然会感到困惑。根据我在Anthropic使用它的经验，这里有一些快速提示。

第一，使用干净的提交，以便轻松重置所有更改。第二，有时我同时在两个开发盒上工作。一个给我，一个给Claude Code。我们都在同时尝试想法。等等等等。我认为这是一类非常有价值的信息。分享这些内容不仅可以与用户建立信任，还可以指导他们更有效地使用你的工具。总的来说，我倾向于同意Benjamin Dekraker的观点，他写道，我有一种预感，终端编码器Claude Code比许多人意识到的要重要得多。

当然，有一种感觉是，结合其他更新，我们正处于另一次重大转变的中间。Ethan Malek教授再次在他的One Useful Thing博客上发表了一篇名为《新一代AI，Claude 3.7和Grok 3》的新文章。是的，AI突然又变得更好了。在明天的节目中，我将探讨AI中哪些方面比人们想象的进化得更快，哪些方面进化得更慢。因此，我们肯定会回到一些评估中。

不过，现在，我很高兴自己去深入研究Claude 3.7 Sonnet。我希望当你测试它时，你也会回来告诉我们你的发现。现在，这就是今天AI每日简报的全部内容。一如既往地感谢您的收听。直到下次，再见。

First Reactions: Claude 3.7 Sonnet and Claude Code 15:53 Share

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

Deep Dive

Shownotes Transcript

First Reactions: Claude 3.7 Sonnet and Claude Code