今天,我将深入探讨Anthropic最新发布的Claude 3.7 Sonnet,这是全球首个公开发布的混合大型语言模型 (LLM)。它并非简单的迭代升级,而是代表着LLM发展的一个全新方向。
Sonnet的核心在于其混合架构。它巧妙地结合了传统的Transformer模型和新兴的推理模型,能够根据任务的复杂程度和类型,自动选择最合适的模型进行处理。这种动态切换机制,赋予了Sonnet处理复杂任务的能力,使其在效率和准确性方面都超越了传统的单一模型。
Sonnet的优势显而易见:
然而,混合模型并非完美无缺,Sonnet也存在一些不足:
Anthropic的战略转变:从通用LLM到专业编码助手?
通过Sonnet的发布以及Claude Code的推出,我观察到Anthropic似乎正在调整其战略方向。他们更专注于将Claude定位为一个强大的编码助手,而非一个通用的大型语言模型。这从其在基准测试中选择更侧重于技术领域的指标,以及高昂的API价格策略中可见一斑。
结论:
Claude 3.7 Sonnet无疑是一个功能强大的模型,在软件开发和编码领域拥有无可比拟的优势。然而,对于其他领域,其高昂的成本和有限的性价比优势需要谨慎考量。 Anthropic的战略选择也值得关注,这预示着大型语言模型市场未来可能出现更加细分的专业化发展趋势。
这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。又一周,又一个最先进的大型语言模型发布。但 Anthropic 的这个有点不同。它实际上是同类中的第一个。
因为当 Anthropic 发布其 Claude 3.7 Sonnet 时,他们成为第一家发布混合大型语言模型的公司。好的,我们今天将讨论这是什么,这意味着什么,它是如何工作的,以及您应该何时实际使用 Anthropic 的这个新模型。
我希望您对本节目感到兴奋。我非常兴奋。欢迎来到 Everyday AI,如果您是新来的。大家好!我的名字是 Jordan Wilson,这是 Everyday AI。这个节目是为您准备的。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人
不仅跟上 Gen AI 的进步和 LLM 的更新,而且了解我们如何利用它来领先一步。我希望您成为公司里最了解 AI 的人,而这是您的秘诀。如果您还没有订阅,
请访问 youreverydayai.com。在那里您可以注册我们的免费每日新闻通讯。是的。也许您是第一次收听这个播客。如果是这样,谢谢您。请务必查看节目说明。将会有很多其他信息,但可能最重要的就是我们的网站,因为每天,呃,在
我们的新闻通讯中,我们会回顾来自这个播客的独家见解,并为您提供在生成式 AI 领域保持领先所需的所有其他新闻和更新,您还可以在我们的网站上收听大约 500 集节目,所有节目都按类别分类。所以请务必查看一下。好的。我非常兴奋地谈论
新的 Claude 3.7 Sonnet。我认为它将改变许多人使用大型语言模型的方式,无论好坏。但在我们深入探讨之前,让我们像大多数日子一样,首先回顾一下最重要的 AI 新闻。首先,谷歌推出了其 AI 驱动的编码助手 Gemini Code Assist 的免费版本。
面向独立开发者、学生、自由职业者、初创企业和业余爱好者。因此,新的免费公开预览版提供每月高达 180,000 次代码补全,大大超过了 GitHub Copilot 免费层提供的 2,000 次免费补全。
它由 Google Gemini 2.0 模型提供支持,可以生成完整的代码块、自动完成代码、调试以及通过聊天机器人界面辅助开发人员。因此,用户可以使用自然语言指导助手,例如要求它创建特定的代码片段或修改现有的应用程序。
Gemini Code Assist 支持 38 种编程语言,并与 Visual Code Studio、GitHub 和 JetBrains 等流行的开发环境集成。
好的。我们的下一条 AI 新闻是苹果,几年后,也许太晚了。我不知道,但他们正在以未来四年 5000 亿美元的投资在 AI 基础设施方面掀起波澜,这标志着他们不仅在 AI 方面,而且在
美国制造业和技术方面做出了重大努力。据苹果首席执行官蒂姆·库克称,这项承诺反映了对美国创新未来的信心,旨在加强公司在 AI 和先进制造业中的作用。因此,这项投资的关键部分是 5000 亿(十亿)美元,其中包括
在休斯顿开发一个关键的新制造工厂,为生产用于 AI 云计算的服务器提供数千个就业岗位。这些服务器将采用 Apple Silicon,并提供最先进的安全性和性能功能。
苹果智能(该公司的人工智能平台)的集成可以进一步改变医疗保健,特别是利用其超过 20 亿活跃设备的全球网络来提供创新的健康追踪和数据洞察。
苹果的投资是在与 Meta(支出 650 亿美元)、亚马逊(支出 1000 亿美元)和“星门计划”(五年内支出 5000 亿美元)等竞争对手进行更广泛的 AI 支出竞争之际做出的,这些公司也在加大其 AI 基础设施和创新预算。
说到这里,这是我们最后一条 AI 新闻。微软,就在我们收到苹果将投入 5000 亿美元的报道的同一天,据报道,微软正在取消数百兆瓦的租赁合同
美国数据中心容量,相当于大约两个完整的数据中心,这是根据 TD Cohen 的报告得出的。因此,此举引发了人们对微软(显然是 AI 投资的全球领导者)是否可能在长期内获得了超过其需求的 AI 计算能力的担忧。因此,取消的协议涉及与
私人运营商以及转换资格声明(通常是正式租赁的前兆)的放缓。因此,TD Cohen 推测,由微软大力支持的 OpenAI 可能正在将其部分工作负载转移到 Oracle,作为新伙伴关系的一部分,这可能导致微软取消或更改其一些长期投资。
微软拥有并运营着许多自己的数据中心,它还在重新分配数十亿美元的基础设施投资,可能将重点从国际项目转移回美国。尽管进行了这些调整,但微软重申了其在截至 6 月的财政年度内用于 AI 数据中心基础设施的 800 亿美元支出目标。因此,分析师认为,微软可能处于供过于求的局面,主要
这意味着它可能高估了对 AI 计算能力的即时需求。因此,看看这些故事将如何发展将会很有趣,尤其是在同时发生的情况下。我的意思是,苹果,你知道,以 5000 亿美元的投资掀起巨大波澜,而我们却得到报告说微软可能正在略微缩减规模。好的。
够了。如果您想了解更多 AI 新闻,请务必访问我们的网站。注册免费每日新闻通讯,youreverydayai.com。好的,让我们开始吧。让我们谈谈世界上第一个大型语言模型混合体。
好的。那就是 Claude 3.7 Sonnet。好的。它是世界上第一个公开提供的混合 AI 模型。这意味着什么,我们将更深入地探讨这一点,对吧?我已经在这个节目中讨论这个问题至少六个月了,自从 OpenAI 开始这场推理竞赛以来。
对。因此,当涉及到生成式 AI 和大型语言模型时,您基本上可以这样想。我知道我讨厌使用“老式”之类的术语,因为从技术上讲,这个领域只有大约,我不知道,六年历史,至少有 20 年。
商业上可用的,你知道 gpt 3 技术,对吧?我认为它将是第一个在 chat gpt 发布前几年商业化推广的大型语言模型,所以您有您的所谓的“老式”转换器模型,然后您有您的所谓的“新型”
使用这种高级思维的推理模型。好的。现在,这两者是截然不同的东西。例如,大型语言模型的领导者 OpenAI,他们有他们的 GPT-4-0,仍然是行业领先的模型,即使它在技术上比较旧,但那是它所谓的“老式”转换器模型。然后他们有他们更新的推理模型,这些模型使用
底层的逻辑,那就是 01、01 Pro、03 Mini、03 Mini High。是的,这些名字很糟糕。但您基本上有这两种截然不同的模型,它们擅长两种截然不同的任务。
所以现在有了 Anthropic,他们基本上将这两者融合在 Cloud 3.5,对不起,Cloud 3.7 Sonnet 中。它可以同时做到这两点。这个新的混合系统将自行决定何时应该使用更多这种高级思维,以及何时应该直接向您吐出一个答案,而无需真正思考。
好的,让我们稍微回顾一下。这不仅仅是 3.7 sonnet。他们还宣布了 Claude Code,我认为这是 Anthropic 的一个极其重要的举动,并且
暗示了它实际竞争的领域。稍后我们将详细介绍。但是,嘿,直播观众,感谢您的加入。感谢大家收看。我们今天有国际观众。感谢我们的 YouTube 观众。我们有 Big Bogey Face、Sandra 和 Sam、Michelle,感谢您的加入。在 LinkedIn 的观众中,我们有 Harvey Castro 博士、Christopher、Woozie、LinkedIn 用户、
Marie、Denny、Douglas、Cecilia、Jean,谢谢你们。Jamie、Karina,你们知道,我们有来自英国和意大利的观众。很高兴看到这一点。Mac、Max 来自芝加哥,就像我一样。但我很好奇,直播观众,您是否关心这些,比如这种新的混合方法?因为这也是 OpenAI 也将采用的方法。我认为它
实际上有一些缺点,我们稍后会讨论,但是,直播观众,我很想知道。首先,您是否关心这种混合方法?您认为它会好还是坏?您是否已经使用过 quad 三七 sonnet 了?我知道它只发布了几个小时。如果您有任何问题,请提出。现在我将尝试在节目的最后解决这些问题。
好的。让我们来概述一下。这是来自 Anthropic 的说法。他们说,今天我们宣布 Claude 3.7 sonnet,这是我们迄今为止最智能的模型,也是市场上第一个混合推理模型。Claude 3 sonnet 可以产生近乎即时的响应或扩展的分步思考,这对于用户来说是可见的。
是的。这部分很重要。您可以看到,它是一个总结的思维链。因此,思维链实际上是一种提示技术,在过去几年中,它被用于转换器模型。因此,这种思维链,或者说,一个人的思考方式
所以现在混合模型做到了这一点,并且它显示了思维链的总结版本。如果您使用的是高级思维,您可以看到这个新的 3.7 Sonnet 如何思考您的提示。现在回到发布。API 用户还可以对模型可以思考多长时间进行细粒度控制。因此,Clawed 3.7 Sonnet 在编码和前端 Web 开发方面显示出特别强的改进。除了该模型之外,我们还推出了一个用于代理编码的命令行工具 Clawed Code。Clawed Code 作为有限的研究预览版提供,使开发人员能够直接从终端将大量的工程任务委托给 Clawed。
好的。那里有很多东西需要解开。所以你不必阅读。我认为 Anthropic 发布了三个单独的版本。我将为您提供高级信息。就像我们所说的那样,这是第一个具有可见思维过程的混合推理模型。
扩展思维仅在付费计划中可用。如果您是 Anthropic Clawed 的免费用户,您将看到 3.7 Sonnet 模型可用,但您无法在免费计划中获得这种高级思维。
好的。其他一些高级,呃,要点在这里。它在 SWE bench 或 SWE bench 上获得了 70.3 分,通过大量编码验证为同类最佳。就像我们讨论过的 Claude 代码程序一样,呃,用于代理开发,呃,
然后它具有 15 倍长的输出令牌容量。因此,它可以输出 128,000 个令牌,而之前的 Claude 只能输出 8.5 千个令牌。这就是数量。所以,如果您之前要求 Claude 做某事,它会吐出东西。有时,如果您要求很多,它会一小块一小块地吐出东西。所以现在,至少根据 Anthropic 的说法,这是一个令牌。
128,000 个令牌的输出容量。就我个人而言,我还没有看到这一点。我们将在这里进行现场测试,大家。让我们看看我们是否真的看到了这一点。我仍然看到它,把它分成小块。他们确实说这是测试版。所以不确定这是否已完全推出,或者这是否将在未来几天或几周内推出。但是,是的,
我不知道。我没有看到它。此外,重要的是,这在所有平台上都可用。因此,我们将要讨论的大部分内容是将 Claude 用作前端用户,对吧?所以去 Claude.ai 并使用您的免费帐户、付费帐户,也许您有团队帐户,对吧?但显然,Claude 在后端可用。它在 API 方面是一个非常流行的模型,主要是因为它的
在编码和软件开发方面的熟练程度。从历史上看,它是使用最多的模型,至少当您查看开放路由器统计数据时是这样。至少对于那些使用开放路由器的用户来说,它通常是使用最多的 API 模型。
开放路由器是更流行的服务之一,您可以在其中注册一项服务,连接所有不同的 API 密钥。它们的数据很好,但这并不是每个模型,而只是那些使用开放路由器的模型。
好的。让我们谈谈 Claude 的思维,因为这是最大的,最大的,你知道,思维链,一个推理模型。让我们回顾一下它实际工作方式的一些亮点。因此,它使用更深入的推理来完成复杂的任务。这意味着它具有扩展思维模式,可以让 Claude 花费更多的时间和计算能力,
努力解决具有挑战性的问题或回答更棘手的问题。
好的。它在后端具有用户控制的思维预算。因此,开发人员可以设置思维预算来确定 Claude 应该为任务投入多少精力。我认为这就是事情变得有点棘手的地方。我们稍后会讨论这个问题。呃,它是同一个模型,更多的努力。因此,扩展思维并不依赖于不同的模型。它仍然是 Claude 3.7 sonnet,对吧?所以混合模型,而 OpenAI 例如,有它自己的一个,呃,
哦三。然后他们仍然有他们的主力模型 GPT 四哦,不像 Claude 那样。它只是 3.7 sonnet。它不是 3.7 sonnet 思考,也不是哦 3.7 sonnet 字母汤。它只是 3.7 sonnet。是一样的。一个模型完成所有工作。我认为有利有弊。呃,扩展思维,就像我说的那样,不依赖于不同的模型。呃,
可见的思维过程。对于 Claude 来说,这是一个很大的新功能,对吧?因此,用户可以看到,它说的是原始推理步骤。我不知道。我们将不得不看看这是否是原始推理,当我查看它时,它仍然看起来像一个总结的思维链。我可能是错的。我们将现场查看。呃,另一件事,Claude 从历史上看对限制很糟糕。所以,呃,我知道我能够测试这个,呃,
昨晚很多,我想在今天的直播节目之前再做更多测试。但是,即使我在付费计划中,Claude 的限制从历史上看也是业内最糟糕的,甚至都不是很接近。对。所以,呃,我希望 Claude 能给付费用户多一点余地,呃,以便测试这些东西。所以,呃,很多这些事情,我已经做过几次了,但我通常喜欢玩,呃,
至少在进行简单的节目之前,使用 LLM 至少六到八个小时,并非总是如此,呃,至少使用前端的 Claude,因为这些限制很糟糕。好的。呃,还随着时间的推移提高了准确性。因此,热带地区表示,扩展思维通过允许 Claude 迭代地改进答案来提高数学问题或复杂评估等任务的性能。是的。
您是否仍在四处奔波,试图弄清楚如何利用 AI 发展您的业务?也许您的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到 Gen AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。
Adobe、微软和英伟达等公司已与我们合作,因为他们信任我们在教育大众了解生成式 AI 以领先一步方面的专业知识。美国一些最具创新性的公司聘请我们帮助他们制定 AI 战略,并培训他们数百名员工如何使用 Gen AI。因此,无论您是为数千人寻找 chat GPT 培训,
还是只需要帮助制定您的前端 AI 战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中奔波,并帮助您的团队领先,并建立一条通往 Gen AI 投资回报率的直线路径。
那么,让我们谈谈 Claude 更新时间表,因为如果您想知道,等等,我们多久没听到 Anthropic 的消息了?是的,有点,对吧?当谷歌和 OpenAI 这些领导者似乎每个月都在发布新模型时,自从我们从 Anthropic 获得实际的改进以来,已经过去了很长时间。因此,最初的 3.5 sonnet 是在 2024 年 6 月。
好的。然后他们对这个升级的 3.5 Sonnet 进行了升级,这令人困惑,因为他们只是称其为 3.5 Sonnet 新版。他们没有使用 3.6,尽管网上很多人,包括我自己,都说这很愚蠢。
你为什么称它为 3.5 Sonnet 新版?然后他们显然跳过了 3.6,这让我相信,是的,那个 3.5 Sonnet 新版,实际上并没有带来任何非常新的东西。它更像是一个幕后更新,谷歌和 OpenAI 几乎每两周就会进行一次这种更新。呃,它似乎没有什么重大变化,但我们在 10 月看到了,呃,
然后在 11 月,我们看到了 Claude 3-5 Haiku,对吧?因此,从历史上看,Anthropic 有三种模型大小,小型、中型和大型,分别用于小型任务、中型任务和大型任务。因此,Claude Haiku 是小型,Sonnet 是中型,Opus 是大型。所以你在这里会看到,最后,2 月 24 日,我们得到了 Claude 3-7 Sonnet。
所以我要说的是,三五,呃,你知道,10 月份的更新。我不知道。那没什么。我经常使用它。我每天都使用 Claude 3.5 sonnet。我没有看到任何新的东西,至少在我的日常用例中没有看到任何值得注意的东西,我知道这与许多人的情况不同,对吧?所以我对大多数情况要说的是,自从 6 月份以来。
自从我们看到 Anthropic 的顶级模型真正更新以来,已经过去了八个月。已经很久了。
那么,让我们也谈谈接下来会发生什么,因为 InfraPIC 确实发布了这个小型的,我想你可以称之为时间表,但这与 OpenAI 的五阶段 AGI 非常相似,对吧?所以你有你的推理器、你的代理等等,来自 OpenAI。Claude 这里采用了一种略微不同的方法。所以他们说 2024 年是 Claude Assist 的。
然后他们说 2025 年现在是 Claude 协作。然后他们说 2027 年,Claude 将成为先锋。所以这是他们的人工通用智能时间表吗?我不确定。它看起来确实像那样,对吧?他们说它看起来像 Claude 只是一个合作者。它从 2024 年到 2025 年从辅助转变为协作。到 2027 年,它将成为先锋。所以。
我不知道这意味着什么,但今天是星期二。大家,我应该提出一些大胆的观点吗?让我知道我需要多激烈,喝一口,喝一口咖啡,给直播观众。呃,但我应该让这些大胆的观点有多激烈呢?
嗯,是的,如果您在播客上收听,这是一个直播。我们每天都这样做。它是未经编辑的,未经编剧的,人工智能中最真实的东西。呃,早上 7:30。我知道有点早。这就是为什么我有时需要花一点时间喝咖啡。呃,但是是的,直播观众,我应该友善吗?我应该在这里用我的大胆的观点来表达一些热度吗?毕竟是星期二。所以,好的,让我们
来谈谈我的一些看法,然后我们将回到事实、数据和统计数据。我们还将进行现场演练。那么,让我们谈谈这个混合模型的概念。Big Bogey Face 说,汗水表情符号。好的。Allison 说,只是辛辣的。我会保持辛辣。也许我不会去五星级,辣辣椒,厕所里很疼,辛辣。好的。我不喜欢混合模型。
现在,我不喜欢,但我也是一个高级用户。所以我必须理解大多数人不是。我最终认为这些混合模型只是公司赚钱的一种方式,对吧?我理解并明白这一点。
我一直都说,无论您是每月支付 20 美元用于 Claude 的付费计划,每月支付 20 美元用于 ChatGPT Plus,每月支付 200 美元用于 ChatGPT Pro。Gemini 也一样,无论如何。大多数情况下,公司都在亏钱。所以我明白了。我明白你必须赚钱。你必须盈利。但在 API 方面,
如果我是一名开发人员,并且一直在使用,或者也许正在考虑从 OpenAI 切换到 Claude,我并没有动力这样做。因为当您拥有这个新的 Claude 3.7 Sonnet 时,是的,您可以对可以应用于某些情况的思考量进行滑块控制。但是
当有一些公司的商业模式本质上是为其客户创建特定领域的 AI 模型的有用包装器时,您需要对简单的滑块进行更多控制,而不是说,啊,你知道,让我们在整个过程中统一应用这种思考。
我认为从后端 API 的角度来看没有什么问题,对吧?所以我希望 Anthropic 和其他公司不会取消,例如,3.5 sonnet,并且仍然允许公司拥有,你知道,3.5 haiku、3.5 sonnet。原因是 3.7 sonnet 的 API 价格高得离谱,高得离谱。
如果您没有选择使用常规的 3.7 Sonnet 和 3.7 Sonnet think,我的意思是,现在 OpenAI 赢得 AI 竞赛是有原因的。我的意思是,首先,他们第一个推出 ChatGPT。其次,即使对于前端用户来说,盯着八个不同的模型选择令人困惑,
对于后端开发人员来说,对于那些本质上是依靠这项技术开展业务的公司来说,这非常重要,以便在正确的时间、出于正确的目的使用正确的模型以及相关的成本。因此,Cloud 3.7 Sonnet 非常昂贵。所以,
对于某些用例来说,无需多想。编码、软件开发等,对吧?您将为此付费,因为现在,Quad 3.5 或 Quad 3.7 正在使用它,是这些领域的最佳选择。它是。这是一个很棒的模型。
我不太喜欢它,当 OpenAI 也这样做时,我可能也不会太喜欢它。因此,OpenAI 首席执行官 Sam Altman 表示,OpenAI 在 GPT-5 发布后将发生转变。GPT-5 将更像是一个系统,它也将采用这种混合方法。它会说,嘿,这就是你应该使用推理器的时候,以及你应该使用转换器模型的时候。所以
我只是认为这只是这些公司赚钱的一种方式,如果他们最终取消了使用非混合旧模型的选项。这就是我想说的。作为一个前端高级用户,我希望将来我也仍然有选择权,对吧?我的脸上有些阳光。好的。所以我希望作为一个前端用户,我将来仍然可以选择说,哦,
我不想为此使用推理模型,或者我需要使用推理模型,并且只能使用推理模型,对吧?如果您正在使用,你知道,Claude 3.7 sonnet,呃,在前端,并且您希望它使用推理,而它没有,那么您只需要采取额外的步骤,你知道,做一些额外的提示工程来让它使用,呃,这个逻辑,对吧?
所以我认为人们没有谈论到巨大的缺点。每个人都想把它包装起来,说,哦,它是世界上最强大的。它是混合的。它是一体化的。好的。有时和用例中,一体化是很棒的。但我认为这不是其中之一。再说一次,我是一个高级用户。所以我的观点可能会有偏差。
我个人喜欢进入,你知道,ChatGPT 并看到八个不同的模型,对吧?因为我可能正在使用其中的五个模型来完成非常具体的用例。我不想只有一个,对吧?我不。我可能是错的。好的。接下来,可怜的 Opus。可怜的 Opus。
Opus很久没有更新了。所以看起来,我不知道,Anthropic可能只是放弃了他们的顶级模型Claude Opus。也许他们正在等待Claude 4.0模型出来后再推出Opus。我不确定,但至少目前,可怜的Opus再见了。还有,
我不知道。我在评论区看到一条评论。让我们看看。是谁说的?找到了。LinkedIn上的Douglas说,很好奇这将如何改进Cursor和Windsurf,对吧?我认为现在Anthropic正在与他们竞争,对吧?
即使这些IDE,对吧?所以这是一个集成开发环境。所以,你知道,就像我们在节目开头与新闻谈到的那样,Gemini、CodeAssist、GitHub Copilot、Cursor、Windsurf、Lovable、Bolt,对吧?所有这些都是IDE,或者本质上是AI编码器,对吧?你可以直接与它对话,你可以直接输入。想想我们如何拥有这些大型语言模型,对吧?我们有
Chat GPT,对吧?GPT模型、Gemini、Claude,对吧?然后我们现在有了这种新型的。它们使用一个模型。所以你可以选择哪个大型语言模型,但它是一个AI驱动的IDE或集成开发环境,比如Cursor,对吧?Cursor默认使用Claude,但它看起来像使用Claude Code,你知道,呃,
观众们,如果你想让我们深入探讨,请告诉我。今天不行。以后我们会专门做一个或两个节目。它比较技术性,但我认为Claude Code真的很酷。但看起来Claude更想与那些IDE竞争,而不是在大型语言模型领域竞争。我认为这是有道理的。
我认为这是有道理的,因为多年来,Claude已经开辟了自己的利基业务。
我并不是说他们放弃了通用业务用例。他们没有。但看起来,特别是Claude Code,特别是他们推出的MCP协议,计算机使用,即使它很笨拙,它确实随着3.7 Sonnet的更新而更新了。所以我们必须看看它是否更好。但看起来
Anthropic可能只是想在这个领域竞争更多,特别是通过将Claude Code作为免费测试版预览。另一个大胆的预测,既然你想要一个辛辣的,我认为大多数公司最终不会使用Claude。
很多人都在等待这个版本的发布,因为他们认为Anthropic会降低他们的API价格,因为这是整个行业的趋势,对吧?OpenAI,你知道,在过去18个月里,他们顶级最先进模型的API价格下降了90%以上。谷歌也是如此。API价格下降得令人难以置信,对吧?Anthropic,则不然。
他们根本没有改变价格,对吧?是的。这是一个更强大的模型,但你支付的价格相同。但我认为,在大多数情况下,企业不会使用Claude的通用用例。他们不会。
也许我确定Anthropic知道这一点,但我可以说,90%正在寻找大型通用语言模型在API后端使用的企业,无论是用于客户成功、销售还是内部知识库,我认为非编码、非软件开发,90%的公司不会考虑Claude,我不怪他们。
价格比21世纪初的包装还要荒谬,它们非常不适合日常使用,它们根本不实用,所以让我们看看这些API价格,Claude 3.7,这是每百万个token的价格,输入是3美元
3美元,400万个token输入,输出是15美元。好吧。所以是的,这是一个混合模型。当然。但我仍然会去。如果我是一个企业领导者,GPT 4.0 mini很棒,因为你可以分块,对吧?你可以将不同的任务分成不同的模型。这就是为什么我要用这个API,呃,
你知道,以及使用它的开发者,没有人会使用3.7,除非你特别需要软件开发编码,对吧?除非你在其中一个类别中,也许是一些STEM领域,对吧?否则谁会碰它。当你看到GPT 4.0 mini是15美分,而输入是3美元,然后是60美分,而输出是15美元时。
输出端是15美元。对。当你可以分块,当你可以说,嘿,对于客户成功、销售等类型的提问,我们将使用GPT-4 mini,因为我们不需要混合3.7模型来完成我们90%的使用目的。那里的成本节省,就像,我不知道,贵了10倍、6倍,大约30倍。
绝对不行,或者贵了25倍。我正在实时计算。嗯,从API的角度来看,这没有意义。我真的很期待Anthropic大幅降低价格,但看起来他们并不一定关心与日常业务用例竞争。他们就像,哟,
如果你想使用代理工具,如果你想使用软件开发、编码等,就像我说的,一些工程,一些STEM用例,但对于其他人来说,我们现在很好,因为例如GPT 4.0 mini的价格是15美分和60美分,而O3 mini的价格是1美元10美分,4美元40美分。对吧。然后Gemini也是一样,Gemini 2.0 pro,呃,
1.25美元和5美元。然后他们有flash。然后他们也有flash thinking。我可能应该把它放在图表上,但这没有意义。这没有意义。他们在后端的定价没有意义。我认为随着其他模型在编码和软件开发方面越来越好,因为现在,是的,Anthropic、Claude以及他们的3.7,他们在那里拥有巨大的领先优势。所以让我们看看。所以其中一些基准测试,
在这里,我们正在查看SWE bench,S-W-E bench验证,并查看一些不同的基准测试。你知道,你在这里有版本,没有,你知道,他们称之为自定义脚手架或没有额外的思考。即使没有额外的思考,Claude 3.7在SWE bench上也达到了62%。
而他们的上一版本3.5 Sonnet是49%。OpenAI的01是48.9%。03 Mini是49.3%。DeepSeek是49.2%。但有了额外的思考,Claude达到了70%,对吧?这就是我所说的。如果你正在做任何类型的软件工程,现在没有任何东西能与之匹敌。
代理工具的使用也是如此。所以TAU bench,我认为发音是TAU bench,但T-A-U bench,也是如此。当你基本上有一个模型,你让它访问工具,并让它完成一些技术任务时,也是如此。同样,Claude 3.7在这里的TAU bench零售中达到了81%,而OpenAI是73%。所以差距很大。通常情况下,对于许多基准测试,
你知道,特别是那些非技术性、非软件工程的基准测试,一点点的差异都可能非常大,对吧?所以在这些用例中,Claude 3.7 Sonnet领先了数年。有趣的是,当我们查看这里的常规基准测试时,
Claude 3.7 Sonnet、Claude 3.5、OpenAI 01、OpenAI 03 Mini、DeepSeek R1和Grok 3 Beta之间。这是来自……
Anthropic的网站。有趣的是,他们在这个主要版本中没有包含任何来自Gemini的内容。这些肯定是被精心挑选的。但我发现有趣的一点是,当Anthropic在其网站上发布自己的基准测试时,他们没有使用之前在宣布Claude 3.5时使用的相同基准测试。在他们宣布Claude 3系列模型时,他们看到了这一点。具体来说,他们避免了这些基准测试比较,例如MMLU,
嗯,还有呃,m呃,ml呃,呃,多媒体版本1,对吧,基本上是呃,我认为是mmlu和mmlu pro,呃,我现在想不起来了,但这是一种标准,一直是这个黄金基准,但是呃,我的意思是你可以在这里看到,Anthropic就像,不,我们很好,我们只会坚持这些更技术性的基准测试,对吧,呃,
哦,找到了。MMU,你知道,在没有扩展思考的情况下,以71%的成绩,它并不比OpenAI好,对吧?OpenAI在MMLU上的表现优于它,MMLU是MMLU的多媒体版本,我认为它是标准的或一直是标准的基准。OpenAI比它好,对吧?好的。
所以在这里看到这一点很有趣。看起来Anthropic并没有试图过度拟合某些基准测试。对。我希望一旦有了MLU,而不是它的多媒体版本,Anthropic的新quad 3.7能达到什么水平,因为我猜它不会很好。
首先,我猜它甚至可能排不进前五,但我认为Anthropic并不一定在意,因为就像我说的,看起来他们只是试图竞争,他们试图成为一个更像编码助手的东西,对吧?所以他们最大的竞争对手也可能是他们的一些客户,比如Cursor、Windsurf、Lovable、Bolt,对吧?或者他们的一些竞争对手可能是GitHub Copilot。
好了,让我们来谈谈Claude Code。是的,直播观众,请告诉我,我们是否应该稍后再讨论这个问题?我认为它很酷,但你必须具备一些技术知识。它的工作原理如下。所以Claude Code,你基本上进入GitHub,安装这个GitHub repo,然后它可以与你电脑上的代码库一起工作。如果你使用的是Mac,并且打开了Mac终端,
呃,基本上,呃,你可以使用Claude code。这是一个新的,呃,本质上是免费的研究预览。即使是免费用户也可以使用,我认为这很棒。嗯,
所以你可以使用整个代码库。好的。假设你有一个文件夹。好的。非技术人员请耐心等待,我可能会在这里弄错一些技术细节。所以,你知道,如果,如果,如果你是程序员,请耐心等待,因为我正在向非技术观众解释,但是假设你有一个代码库,所以你构建了一个应用程序,呃,
或者其他东西,你有一个文件夹,里面有七个不同的文件。可能有一个JavaScript文件,可能有一个HTML文件,一个CSS文件等等。Claude Code很酷的地方,首先它在你的机器上本地运行,所以你不必进入第三方环境。你只是在终端工作。
我知道这可能会让一些人感到害怕,但是你基本上就像在Claude的Claude.ai内部一样与Claude对话,对吧?然后它可以编码,它可以更新你的整个代码库。它将搜索、编辑、测试,
并从终端内推送代码。它不会说,哦,这是HTML的新代码。这是CSS的新代码。这是JavaScript的新代码。去复制粘贴这个,对吧?它会为你完成所有工作。它与你的整个代码库一起工作并更新它。它具有GitHub集成。它在调试方面相当不错。所以Cloud Code是,
是这个3.7 Sonnet版本的一部分。我认为它最终的影响可能比模型本身更大,因为我认为这标志着Anthropic转向真正想要在这个领域竞争更多。你可能想知道为什么,但是,
而我实际上并不讨厌它,因为如果你听过我们2025年AI预测和路线图系列,其中一件事情是非技术人员将为他们自己创建应用程序来使用。现在cloud code可能是做到这一点最简单的方法。是的,你可以,你知道,使用Cursor。你可以使用Windsurf,这些其他的工具。我认为我认为学习曲线实际上可能更高,对于
但是Claude code可以让普通人创建应用程序,与它对话。你甚至可以说,哟,我不知道这是什么意思。向我解释一下,或者嘿,让它更漂亮,让它更闪亮,呃,让它更有用,对吧?呃,你知道,做一个数据可视化,对吧?你可以只转储所有数据,通过这个Claude code将其提供给Claude,创建一个在你的电脑上本地运行的程序来帮助你解决问题。对。我认为企业软件是
如果说实话,它并不像今天这样拥有相同的未来。我认为日常非技术人员将使用AI和大型语言模型为非常利基的用例创建他们自己的软件。我认为cloud code可能是朝着将这一功能带给普通人的第一步,对吧?是的,你可能需要习惯,你知道,什么是GitHub repo,但是它会完成所有工作,与你的整个代码库一起工作,是的,它
我喜欢使用O3 Mini或O1 Pro之类的工具。但是你仍然必须复制粘贴所有这些不同的文件。你可能需要使用像Replit这样的东西来运行它。所以Cloud Code,很酷。它为你完成了所有工作。好了,让我们现场演示一下,好吗?
会发生什么问题?对一个具有可怕、可怕限制的全新模型进行现场测试会发生什么问题?无论如何,让我们尝试一下。你们说你们喜欢这些现场测试,所以让我们继续进行。直播观众,请告诉我你们是否可以看到我的屏幕。好的,这里有一些需要注意的事项。
当你选择Claude时,确保你使用的是Claude 3.7 Sonnet。另外,你会看到这个新的思考模式。所以,
这有点讽刺。你仍然必须拥有这个扩展功能,而且你只能在付费计划中看到它。你要确保选中了扩展框。好的。你可以选择普通思考模式,这是作为前端用户,或者你可以使用扩展思考模式。这最适合数学和编码挑战。我将继续。我将在这里输入一个巨大的提示。
好的,谢谢。Marie总是第一个说,是的,我可以看到你的屏幕。谢谢你,Marie。我一直很感激这一点,因为我从来不知道。好的,我有一个巨大的提示要输入,我们将在这个扩展思考中使用quad 3.7。好的,这就是它。我之前在节目中做过这个。这是我第一次测试O1 Pro时所做的。
好的。所以基本上我说的是我的播客统计数据。所以,我使用的是完全相同的提示。所以我说今天是1月16日。这是我做O1 Pro节目的时候。我想在所谓的推理或混合模型中进行一致的比较。因为这就是我们在这里试图做的。我们试图说,好吧,这个怎么样?这个模型怎么样?对吧?
你会在这里看到,直播观众,它正在工作。我将尽量关注这个模型。我实际上会让你们观看,我会读出我输入的提示。好的。
所以我说,这些是我的播客统计数据。请记住,所有问题的日期都是2025年1月16日,总是排除前2%和后1%的剧集,除非另有说明。呃,所以基本上我有,我给它一系列11个问题,这些问题非常具体。然后我复制粘贴。呃,我相信我给它,让我数一下,大约150集播客的数据。
所以这包含剧集名称、剧集编号,然后包含过去七天、过去30天、过去90天和所有时间的下载次数。然后在这12个不同的问题中,我正在询问,在这种情况下,我正在
你知道,使用Claude 3.7 sonnet和额外的思考,对吧?使用扩展思考,我问它一些非常高级的问题。好的。13个问题。例如,
问题二,我说,给我一个完整列表,列出所有新性能百分比高于或低于调整后平均值的剧集。因为我说,去掉前2%和后2%的剧集,因为有时会有异常值,对吧?我并不关心那些。所以我说,嘿,找出趋势。然后我说,问题三,给我前10名和后10名的剧集,以及它们分别高于或低于调整后平均值的百分比。
所以我想做的是,你知道,有时有些剧集会走红。有时有些剧集由于某种原因没有获得任何下载。我说,好吧,一定是在检索数据时出了问题。所以我想找到这种中位数或平均数,然后我想找到获得比这种调整后平均值更多下载的剧集类型。然后我想,在所有这些问题中,我要求它找到不同的趋势和模式,这样我就可以为你们创建更好的剧集,对吧?它可能很简单,比如我如何更好地命名这些剧集,对吧?并让它发现不同的东西。它可能是,我问了一些关于星期几的问题,对吧?例如,
对于问题四,我说,对于前10名高于调整后平均值的剧集,如果我要重新运行它们,请为每个剧集建议三个略微调整的标题名称,对吧?是的,我可能一个月会重新运行几次节目。我可能会生病,或者嘉宾可能在最后一刻不得不放弃,我可能需要重新运行一集。所以我说,嘿,给我一个新标题。好的,看起来,让我们看看。
好的,所以看起来它思考了23秒。看起来我们,所以看起来它已经完成思考了。让我看看。好的,当我浏览并查看这个思考时,这看起来不像原始的思维链。好的,所以它说,
我需要分析从提供的数据中获得的播客统计数据。第一步是提取数据并以一种更容易分析的方式组织它。让我仔细阅读说明并理解任务,对吧?然后它将其分解成六个不同的子部分。然后它说,让我首先提取数据。所以它正在进行,它正在逐步展示,但我正在查看这个。如果它只思考了23秒,呃,让我们看看。好的。
好的。我试图看看是否还有更多,没有更多思维链。好的。所以它确实相当快地完成了这个过程。它仍在回答问题。好的。所以我必须仔细检查一下,但我对它只思考了23秒感到有点惊讶。你知道吗?
嘿,如果你分享这个剧集,我会分享我发送的完整统计数据和提示
我会分享我们在这里从Claude获得的确切输出,因为它仍在进行中。我也会分享我们从O1 Pro获得的确切输出。所以如果你真的想深入了解细节,我没有时间。阅读所有这些内容需要另外半个小时。一旦完成,我会离线进行比较。但我必须说,
总的来说,看起来它做得不错。尽管我今天早上查看了我从O1 Pro获得的回复,但来自O1 Pro的回复要令人印象深刻得多。它们是,对吧?这里的发现,让我看看我是否可以阅读。让我看看我是否可以阅读一两个答案,也许我们可以……
有更多细微差别。比如说7号,
好的。所以7号问题是发布日如何影响剧集表现?请排除星期一,因为那通常是我们的AI新闻重要日。我们通常不会在那些日子播放任何其他类型的节目,然后我说,你知道,这是,这是今天是什么。所以你不会感到困惑。所以它说发布日对剧集表现的影响。所以它说星期六,我不知道为什么是星期六,因为我们,呃,
据我所知,从未在星期六发布过剧集。所以这有点奇怪。嗯,然后它说星期三比调整后平均值高6%。星期五是负3%。星期二是负4%。星期四比调整后平均值低5%。我不确定这是否属实,对吧?因为我们没有在星期六发布任何剧集。所以除非有一些,呃,
格式方面的奇怪之处。星期六的节目不应该在那里。如果是这样,也许是一个星期五的节目,发布得很晚。我不知道。但是这个,简而言之,这些数据看起来不正确。看起来不正确,我们的三个工作日低于平均值,只有一个高于平均值。没有道理。
然后它说主要发现。星期三的剧集表现特别好,特别是技术工具指南和平台特定内容。在这里它说星期六的剧集,我们也没有做过,表现良好,这可能是由于竞争较少以及听众休闲时间更多。
呃,星期四始终是表现最差的剧集日,特别是针对行业特定内容,我知道这是不正确的。呃,因为我每次都会查看每日下载量。星期四并不是一个糟糕的日子。星期四通常是我们的第二好日子。呃,它说星期二的剧集表现不佳,特别是新闻或回顾,这也是错误的。所以,你知道,我必须仔细检查一下,但回复不是很好。
我很好奇,这应该需要很多分钟,很多分钟。至少它在这里说它思考了23秒,这第一点似乎不对,但我看起来没有得到很好的结果。如果说实话,对吧。呃,看起来它确实浏览并回答了所有问题,这很好,但是
因为我昨晚第一次测试这个时,它实际上停止了。它只回答了前三个问题。然后它基本上说它已经浏览了上下文窗口,对吧?这没有意义,因为我说,哟,这应该是,你知道,100,
你知道,10万个上下文窗口。这是我之前做的一个。在底部,它说Claude达到了,我知道那里有点小。它说Claude达到了消息的最大长度。它已暂停其响应。你可以继续写来保持聊天继续。你会在这个用例中看到,让我去顶部。在这个用例中,它思考了3分8秒。好的。
在一个用例中,它思考了3分8秒,无法给我完整的输出。然而在第二个用例中,它说它只思考了23秒,它给了我完整的输出。我必须离线进行更多比较,但是你知道,到目前为止,好坏参半,好坏参半。好的。
所以让我们这样做。我通常对推理模型使用一个非常简短的评分标准。我将快速浏览一下这个。我将确保我使用了扩展思考。好的。所以让我们继续,浏览一些我们通常会运行的问题。
好的。所以在这个问题中我说,我今天醒来时有六个苹果和三个香蕉。其中一些是我编造的。有些是,你知道,呃,在互联网上广泛使用的。有些只是从非常流行的问题中修改而来的。呃,这个,我喜欢,我知道我需要做一个实际的推理评分标准。
但这些只是一些我通常使用的。所以我说,我今天醒来时有六个苹果和三个香蕉。昨天,我吃了一个香蕉和两个苹果。今天早上,我会吃一个苹果,不吃香蕉。但是,我不太喜欢苹果,一个香蕉明天可能会变坏。假设没有其他变化,今晚我会有多少苹果和香蕉?所以——
呃,让我们在这里看看。它说它思考了5秒钟,我可以再次查看思维链。我不知道这是否是原始的。也许这是原始的思维链,而不是总结的思维链。呃,让我们看看。
它说,让我们一步一步地解决这个问题,起点是六个苹果,昨天三个香蕉。这个人吃了。然后它说今天早上,他们会吃。问题问的是,按照他们描述的吃法,今晚他们还剩多少苹果和香蕉。然后它说,让我们计算一下。然后它说,等等,我需要仔细检查一下题目的措辞。这个人说,我今天醒来时有六个苹果和三个香蕉。所以这是他们昨天发生的事情之后目前的数量。
是的,Claude 收到了很多我在这里输入的信息,这些信息只是为了让模型出错。大多数模型,包括 Claude 3.5 sonnet 都无法正确回答这些问题。我假设 Claude 3.5 sonnet 通过思考得到了正确的答案。是的,它做到了。正确的答案就在那里。得到了。正确。是五个苹果和三个香蕉。好吧,让我们再做几个。我们会快速浏览这些内容。好的。同样的事情。
我们打开了扩展思考。好的。所以这个,一个男人和他的狗站在河的一边。有一条船,足够容纳一个人和一只动物。男人如何才能用最少的次数带着他的狗过河?呃,就是这样。呃,
人和狗只需一次就能一起过河。所以即使是一些最初的,你知道的,非常强大的最先进的模型也会总是答错这个问题。很简单,对吧?这些问题很简单。任何人都立刻知道,哦,那就是一次旅行,无论出于什么原因。许多大型语言模型,包括,你知道的,GPT-4.0 在刚发布时,Claude Sonnet 3.5 都会答错这个问题。
好的,这是另一个超级简单的,让我们继续问这个问题,我说如果晒干10件T恤需要3个小时,那么晒干30件T恤需要多长时间?好的,就是这样,我们这里有一点……一点连贯的思路,不多,三秒钟……正确,它说晒干30件T恤仍然需要3个小时,因为这个过程是并行的。
对。所以只要你有空间,你可以晒干任意数量的衣服。好的。我们的下一个问题。让我们看看我们能否把它难住。
呃,我说如果你只有一根火柴,你走进一个房间,里面有一盏油灯,一支蜡烛和一个壁炉,你首先点燃哪个?呃,答案,呃,Claude 这里回答正确了。你首先会点燃火柴。好的。我讨厌这个侧边栏跳动得这么厉害。呃,下一个问题。呃,我认为任何大型语言模型都没有答错过这个问题。呃,呃,飞机的黑匣子是什么颜色?
好的,它实际上是亮橙色的,正确。好的,这是一个 Claude 模型从未正确回答的问题。让我们,好的,我要求讲笑话。同样,模型从来都不擅长幽默。好的,我说,请给我七个以“蓝色”结尾的笑话。
两个关于动物的。三个关于这次聊天中其他主题的。你可以编造另外两个。好的。同样,七个笑话。它们应该以“蓝色”结尾。两个关于动物的。三个应该关于这次聊天的内容,它可以编造两个。所以大多数模型现在至少可以遵循指令的基本内容。有些模型仍然难以做到,但让我们看看它们是否真的很有趣,以及它是否遵循了指令。
所以只思考了三秒钟。它说,这是七个笑话。呃,让我们看看关于动物的两个。呃,为什么鱼这么擅长音乐?因为它知道如何演奏音阶,并且总是停留在深蓝色中。
那是笑话吗?不是真的。它遵循指令了吗?是的。悲伤的大象在水坑边说了什么?即使是我的记忆也感觉很蓝。不好笑,但它在那里。好的。然后我们将有三个关于这次聊天内容的笑话。
那么,为什么香蕉要去做治疗?因为它无法停止感觉剥落和蓝色。好的。为什么船在未能过河后停留在河上?你让我感觉很蓝。为什么T恤拒绝在阳光下晾干?它感觉太蓝了。所以它使用了相同的,你知道的,哦,它感觉很蓝作为……我想是笑点结尾。它甚至不是真正的笑点。
好的。然后是它自己编造的两个。为什么画家拒绝使用任何其他颜色?他正经历一个只感觉蓝色的阶段。然后点燃蜡烛后火柴说了什么?很有趣的是,呃,它使用了这次聊天内容中的另一个,即使我告诉它只使用三个,它最终使用了四个。所以从遵循指令的角度来看,呃,
我想我说你可以选择。所以它只是选择使用这次聊天内容中的另一个。它说,点燃蜡烛后火柴说了什么?那是我闪耀的时刻。现在我只有蓝色了。它们好笑吗?不。它遵循指令了吗?是的,它做到了。
好的。我认为由于时间原因,这将是我们做的最后一个。所以一个盒子用一个三位数的数字代码锁着。我们只知道这些数字是不同的。所有数字的总和是九,中间的数字是最高的。代码是什么?好的。现在我们可以看看思路了。
它正在进行,它说,让我们一步一步地解决这个问题。它正在分配数字。让我们把这些数字称为 A、B 和 C。A 不等于 B,不等于 C。好的。然后它说 B 大于 A,B 大于 C。好的。所以它像人类一样分解它。它正在经历一些潜在的用例。它正在抛出一些数字来查看它们是否有效。让我们滚动到底部。
所以它运行得很快。所以很好。即使模型是新的,现在可能很多人都在使用它。它运行得很快。让我们看看它是否真的得到了正确的答案。
就是这样。所以它说实际上等等,让我们重新考虑一下约束条件。所有数字都不同。这包括零吗?是的。许多模型出于某种原因会跳过零。当他们查看挂锁上的数字时,他们只考虑 1 到 9,但 0 会在那里。
好的。所以现在它说,呃,我实际上确定允许使用零,因为代码的有效数字通常是 0 到 9,但零会导致不唯一性。就是这样。好的,让我们滚动到底部。所以这实际上是……除了播客的第一版之外,一,我做的播客统计数据……
我甚至不记得了。那是昨晚深夜或今天凌晨导致它思考了三分钟的那个。这是思考时间最长的一个。思路非常令人印象深刻。它在这里做得似乎相当不错。幸运的是,我还没有达到我的速率限制。真是个奇迹。
但我故意没有经常使用它,这样我就不会达到我的速率限制。好的。直播观众,我们将给这个留一点时间来完成。但是你们对此有什么想法呢?在我们准备结束时,你们对此有什么想法呢?Big Bogey 说,我让 Gemini 2 每天给我讲一个笑话。它没有变得更好。是的,这些大型语言模型肯定不好。虽然 Denny 说人工智能让爸爸笑话看起来不错。是的。
好的,让我看看。我想确保如果你有任何问题,让我再仔细检查一下。我想确保我没有看到任何具体的问题,但我确实有几十个。好的,就是这样。Woozy 说,对于我们的播客观众,
呃,sonnet 3.7 仍在思考这个组合问题。所以 Woozie 问道,你在思考中看到有什么东西让你调整你最初的提示问题中的具体内容吗?Woozie,感谢你的提问。这是一个很棒的问题。是的,百分之百。呃,我已经多次提到过这一点,而且我认为我在进行深入研究时也指出了这一点,当我进行深入研究比较节目时,
你应该一直这样做,因为当你使用深入研究作为示例时,它会向你展示它的作用。
呃,我认为深入研究是生成式人工智能的最佳用例之一,仅供参考。呃,但我总是回头,我总是说,如果你要使用像深入研究或推理模型这样的模型,它需要时间来思考,你最好充分利用它,呃,并获得你投入时间的良好回报,然后继续这样做。在这些情况下,当有一个有限的答案时,对吧?苹果和香蕉的数量,我不会这样做,对吧?我不会第二次运行它。有一个肯定或否定的答案。
当它更多地是把它放在一个不太有限的任务上时,百分之百。感谢你的提问,Muzi。你应该始终、始终、始终查看思路。这是使用这些推理模型以及能够准确查看这些深度研究工具如何工作的最大优势之一。
研究是你经历的,你阅读的,你看到的,哦,这是一个它做出的好决定。哦,这是一个不好的决定。我在旁边做笔记,然后调整我的原始提示。你应该一直这样做。Woozie,你刚刚为我们的观众增加了巨大的价值。让我们看看。
道格拉斯问道,我认为混合式很有趣。纯 Transformer 缺少思考的好处。与 Transformer 相比,思考很慢。混合式可能是一个很好的桥梁,但是为了这种能力牺牲了什么?是的。是的。所以 Claude 3.7 sonnet 是第一个混合模型。那么,这里牺牲了什么呢?是微调控制,对吧?特别是对于前端用户。是的。
是的,如果你使用的是 API,那么在后端会有一个小滑块。但就像我说的,我个人不喜欢这个,对吧?但我是一个高级用户,对吧?当我热爱时,我知道我属于少数派,我喜欢登录 ChatGPT 并看到大约八个不同的模型。
有些时候我知道我会使用 O1 Pro。有些时候我知道我会使用 O3 Mini High Plus Web。有些时候我知道我会使用 Deep Research。有些时候我知道我会使用 GPT-4.0,对吧?我会带着目的去那里,因为我知道优缺点。
普通用户需要七个模型吗?可能不需要。普通用户会从混合模型中受益吗?可能,但它确实会。我不在乎任何人怎么说。对于前端用户来说,混合方法降低了上限,对吧?因为有时它会使用思考。当你不想要它时,它会使用额外的计算。相反,有时会发生这种情况,
对。当它做相反的事情时。所以我认为这最终对高级用户意味着什么,你会失去一些灵活性。对于每个人来说,我不在乎你怎么说。我认为它只是稍微降低了一点上限。下限上升了,下限上升了,上限下降了。所以就像我说的,对于普通的日常用户来说,我认为混合模型很棒,对于在前端使用它的高级用户来说。我不喜欢它。
我不喜欢它。在后端,公司将赚到更多的钱,对吧?我认为如果你使用混合模型,你将支付更多费用。就像我说的,我希望、希望、希望所有这些公司,即使在五年后,仍然会提供这些非混合选项。因为如果只有混合选项,无论如何,特别是当你使用 API 时,如果你是一家软件公司,比如说,
或者你只是使用 OpenAI 或 Claude 来更快地获得支持票证的客户服务。你使用一些 RAG,你输入你的公司文档,有人正在与使用你的公司信息的 AI 聊天机器人聊天,但使用的是这些模型之一。
如果只有混合模型,并且这些混合模型的成本要高得多,并且你将来没有使用 GPT-40 mini 或 quad 3.5 haiku 的选项,而你只有混合模型,那么你的成本就会上升。你的成本会成倍增加。就像我说的,我认为在过去的几年里我们一直在捡便宜货。好的。
让我们继续看看这个结果并结束这个节目。所以让我们看看,这个思考了多长时间?在我偏离主题回答 Woozie 的问题时,它在一分钟前完成了。所以这个,有趣的是,思考了三分钟十五秒。让我们看看它是否答对了。所以我要跳过思路。好的。它说……
为了解决这个问题,我需要找到一个三位数的代码,其中所有数字都不同。总和是九,中间的数字是三个数字中最高的。所以它说是 180、270、360、450、162、153 和 243。
好的,它说,由于问题要求代码暗示只有一个答案。所以是的,我确实问了代码是什么,但它应该知道,就像大多数推理模型一样,实际上有很多答案。所以我不会为此给它通过,因为即使它给了我其他有效的选项,
对吧?1-8-0 有效,2-7-0 有效,3-6-0 有效。它最终选择了一个答案,我不知道。它说 1-53 是满足所有条件的最小有效代码。不,所有这些都满足。但还有很多其他的。还有很多其他有效的代码。例如,
1-8-0 有效。2-4-3 有效。3-4-2 怎么样,对吧?所以它做得不好。它思考了很长时间。我会说它没有通过这个。所以这是一个有点棘手的问题。即使我要求代码,也有很多代码。它通过推理发现了这一点,但仍然决定过度思考这个问题,并给出错误的答案。
我知道这个很长。我希望它有所帮助。就像我说的,如果这有帮助,请分享它。我会分享完整的提示,即关于播客统计数据的提示,我还会分享 O1 的完整答案以及 Claude37 Sonnet 的完整答案。所以是的,如果你只对这种原始的思考能力感兴趣,请分享它。我希望这有帮助,但我将告诉你我的快速总结。
Claude37 看起来很棒。我认为它将主导并继续主导任何需要软件工程、编码等的公司。我认为即使是 3.5 的新模型在许多这些用例中也已经更好。所以它已经成为世界上最好的模型之一。
成倍地更好。所以对于 3.7 sonnet 编码、软件开发等,呃,非常棒,呃,即使这意味着什么人工制品,也很大,对吧?我可能会专门做一个关于 3.7 sonnet 的剧集,呃,人工制品以及这对非技术人员意味着什么,但对于其他所有人来说,对于 API 价格,我认为这是一个很大的损失。
我认为总的来说,混合模型,就像我说的,提高了下限,降低了上限。我认为混合模型,至少现在,对于在前端使用它的高级用户来说并不理想。实际上,我可能会减少使用 Claude 3.7 Sonnet,我可能会更多地使用 Claude 3.5 Sonnet
更多一点,呃,我知道这看起来很奇怪,但这可能是现实情况,所以我认为这个新的 Claude 3.7 sonnet 有些……一些非常有前景的方面……一些高点和低点,但希望这一集有所帮助。
好的。就像我说的,如果这有帮助,请分享它。另外,如果你还没有,请访问 youreverydayai.com。注册免费的每日通讯。我们将回顾这一集。也许你错过了什么。我知道这个比较长。尝试现场解释事情总是有点费时,但这正是我听到很多人喜欢的。
说到这一点,请订阅通讯,回复今天的通讯。如果你还在听,告诉我你想在这个节目中看到更多什么,实际上是因为你。我在我的 LinkedIn 上进行了一次投票。实际上,它只由一票决定。呃,我们将进行另一个获胜者,即如何提示。哦,模型。哦,一个和哦三个模型。呃,我们可能会在明天或下周做这个节目。我们会看看,呃,
如果时间允许的话。所以感谢你的收听。我希望明天和每天都能看到你,了解更多关于 Everyday AI 的信息。谢谢大家。今天的 Everyday AI 就到这里。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多人工智能魔法,请访问 youreverydayai.com 并注册我们的每日通讯,这样你就不会落后。去打破一些障碍,我们下次再见。