We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP 504: Has Anthropic’s Claude lost its edge? What happened & can Claude recover?

EP 504: Has Anthropic’s Claude lost its edge? What happened & can Claude recover?

2025/4/15
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
我观察到在过去的一两年里,Anthropic、OpenAI和Google在大型语言模型领域展开竞争。然而,现在OpenAI和Google已经远远领先于其他竞争对手。Claude曾经是顶级大型语言模型,但现在我认为它已经失去了竞争优势。Claude的市场份额在下降,我个人使用率也从之前的25%下降到现在的5%。这主要是因为Claude存在一些问题,例如缺乏企业级访问、无网络访问、有限的第三方集成以及严格的使用限制。此外,Claude在创新方面也落后于OpenAI和Google,它更多的是模仿其他模型的功能,而不是进行创新。在基准测试和用户偏好方面,Claude的表现也不如OpenAI和Google的模型。例如,在人工智能分析智力指数和ELO评分中,Claude的排名都不在前十。在创意写作和编码方面,Claude的表现也不如其他模型。Claude的速度和价格也不具有竞争力。即使是Claude Max计划,其消息限制也过于严格,这使得用户体验不佳。总的来说,我认为Claude已经失去了在大型语言模型领域的竞争优势,并且很难恢复其领先地位。

Deep Dive

Chapters
This chapter discusses the AI landscape, highlighting the advancements of OpenAI and Google, and questions Anthropic's position and Claude's competitiveness. It also covers recent AI news, including Apple's use of synthetic data, NVIDIA's investment in US AI manufacturing, and OpenAI's GPT 4.1 release.
  • OpenAI and Google are leading the AI race.
  • Apple is using synthetic data to improve AI performance.
  • NVIDIA is investing in US AI manufacturing.
  • OpenAI released GPT 4.1 with a million-token context window.

Shownotes Transcript

这是 Everyday AI Show,一个每天播出的播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。我会说,在过去两年的大部分时间里,大型语言模型竞赛有三支队伍。你有 Anthropic、OpenAI 和

和谷歌争夺领先地位,并来回对抗,作为该领域最好的 AI 模型制造商。显然,你知道,微软也在其中,但他们更像是一个使用其他技术的系统。但当谈到实际的 AI 前沿实验室时,它一直是三支队伍的比赛。我不知道现在是不是这样了。我认为现在,

OpenAI 和谷歌远远领先于其他所有人。我一直在想 Anthropic 发生了什么?Claude 发生了什么?它仍然是顶级大型语言模型,还是 Claude 完全失去了优势?他们还能赶上谷歌和 OpenAI 吗?

好的。我们将在 Everyday AI 上讨论这个问题以及更多内容。大家好,我叫 Jordan Wilson,我是 Everyday AI 的主持人。这件事,是你的。

这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人不仅学习 AI,而且学习如何利用它来发展我们的职业生涯。因为您可以尝试跟上 AI 新闻和发展以及新的大型语言模型更新。您可以尝试跟上,但仅仅听到它们,阅读它们并没有什么作用。你需要利用它。这就是我们网站的全部内容。你的播客。

因此,我们回顾了每天的播客剧集。有时我会邀请嘉宾,有时只是我自己。因此,我们每天都会为您带来独家见解。实际上,我们是唯一提供此服务的 AI 新闻通讯,我们还会让您了解 AI 世界中发生的其他一切事情。因此,在生成式 AI 方面,您可以成为公司或部门中最聪明的人。

好的,让我们实际操作一下,并快速回顾一下 4 月 15 日 AI 新闻中发生的事情。因此,苹果正在回应对其 AI 性能的批评,尤其是在通知摘要等领域,并及时转向合成数据和差分隐私。是的,据报道,苹果正在通过更多地关注 AI 来回应

合成数据,对吧?因此,据报道,该公司现在正在生成合成数据来模拟用户信息,而无需使用真实内容,从而能够对选择加入设备分析的用户数据进行私下测试。

这种方法确保了准确性,同时保护了隐私。是的,苹果显然已经进行了超级、超级缓慢的推出。而超级缓慢的推出,他们落后于其他人数年。他们的苹果智能,让我们这么说吧,并没有受到好评。因此,一些新的报告和信息显示苹果通过使用合成数据、某种拓扑结构,

将其与注册某种设备分析的用户联系起来。因此,通过使用合成数据比较来提取设备,苹果希望通过更好的电子邮件摘要和其他功能来增强其苹果智能,这表明其更广泛地致力于解决用户担忧并负责任地推进其 AI 能力。

好的,我们的下一条 AI 新闻。英伟达已承诺向美国 AI 制造业投资 5000 亿美元,以应对美国不断变化的关税政策。英伟达宣布计划在未来四年内在美国投资高达 5000 亿美元用于 AI 基础设施制造,这标志着其供应链战略的重大转变,以满足对 AI 芯片和超级计算机的激增需求。

此举与美国总统特朗普不断变化的关税政策相吻合,该政策最初对来自台湾和中国的进口商品征收高额关税,但最近豁免了芯片和其他科技产品,从而减轻了英伟达和苹果等严重依赖海外生产的公司的担忧。英伟达将于 9 月与台湾超导体合作

亚利桑那州的台湾积体电路公司生产芯片,并与德州的富士康和纬创合作生产超级计算机,目标是在 12 到 15 个月内在这些工厂实现大规模生产。通过使用数字孪生

工厂和先进的自动化机器人技术,英伟达希望并计划简化运营并提高其美国工厂的效率,这展示了人工智能技术如何改变制造过程,所以如果你想知道,好吧,这有什么关系,那么许多大公司和我们使用的所有 AI 系统,例如

ChatGPT、谷歌、微软以及其他所有人,他们都在努力满足需求,对吧?因此,基本上每个人都在寻找更多的计算能力。英伟达将更多 AI 能力带到美国,这是一个相当大的举动,

最后但同样重要的是,OpenAI 推出了一个新的模型系列,即 GPT 4.1 系列。可能最大的头条新闻是它现在拥有百万个令牌上下文窗口,但目前至少仅在 API 端可用。所以目前只有开发者可以使用。

因此,OpenAI 推出了其新的模型系列 GPT 4.1,作为其先前模型的重大升级,在上下文处理、可靠性和成本效率方面取得了进步。但就像我说的,你找不到它。如果您访问 chatgpt.com,它不在那里。至少目前,OpenAI 没有宣布。

宣布任何将其置于前端 ChatGPT 内部的计划,并且仅对后端的开发人员可用,但让我们谈谈这个模型,因为我在这里有一些非常令人印象深刻的规格,所以 GPT 4.1 引入了一个 100 万个令牌的上下文窗口,远远超过了 GPT 4o 在 API 端之前的最高值,即 128

那是很大的进步。所以,你知道,Claude 和 Gemini 以及其他人在上下文窗口方面确实击败了 OpenAI。对。但现在不再是了。所以,相当大的新闻。

然后,与集成到 ChatGPT 的先前模型不同,就像我说的那样,GPT 4.1 仅通过 OpenAI 的 API 提供,使其成为专为开发人员而非一般用户设计的工具。在编码、指令遵循和复杂推理任务方面的性能非常出色。

同样重要的是,OpenAI 表示,这些改进也已在 GPT-4.0 模型的幕后推出。我认为这是 3 月下旬的更新,没有太多关于更新的信息。

现在有三个新版本。所以有 GPT 4.1,完整版,GPT 4.1 MIDI,更经济实惠且紧凑。然后是 GPT 4.1 Nano。是的,这是第一次,你知道,OpenAI 推出了 Nano,这是他们最小、最快、最便宜的模型。是的,它

如果它不是已经很难理解这些模型,现在我们有各种各样的小型模型,是的,如果你认为迷你很小,不,现在显然迷你是中型的,纳米是小型的,然后是一些旧学校的悲伤消息,你知道,如果你喜欢这些旧模型,OpenAI 计划在 4 月 30 日之前逐步淘汰旧模型,例如旧的

OG GPT-4。然后也有些令人惊讶的是,OpenAI 宣布他们将在 7 月 14 日之前逐步淘汰 GPT 4.5 预览版,以专注于更高效的 4.1 产品线。此外,此版本发布与 GPT-5 的发布延迟相吻合,现在预计将在几个月后发布,因为 OpenAI 正在解决一些集成挑战。是的,所以……

仅供参考,显然 OpenAI 已经改变了方向几次。他们基本上说,嘿,我们将停止发布非推理模型,GPT-5 将更像是一种层次结构或系统。所以他们说,是的,在 GPT-5 之前,我们不会发布很多新模型。我们就在这里。好的,让我们开始吧。更多关于这些故事的信息,请访问我们的网站 youreverydayai.com。怎么了?

直播团队。是的。如果您收听播客,请随时加入我们的直播。你知道,当我邀请嘉宾时,我们会回答问题。有时我会问你们所有人一些事情。感谢大家加入 YouTube 上的 George,大博吉说 GPT 4.1 是一个强大的编码工具。是的,它已经是早期基准测试的印刷品了,来自 YouTube 的 here。感谢您加入 LinkedIn 机器上的 Kimberly 和 Dennis。

Allison,感谢您收听。但让我们直接进入正题。Anthropic 的 Claude 是否失去了优势?今天是星期二,各位。我要喝一口咖啡,告诉我。我应该把它加大音量吗?我已经很久没有在火热的星期二把它带上了。我有点累了,但是直播观众,如果可以的话,给我留下一两个表情符号。我应该是一个火的表情符号吗?我应该友善一点吗?

两个火的表情符号,我应该加大音量还是三个火的表情符号,燃烧吧,宝贝,燃烧吧,我的意思是,我不知道,一件事情,让我告诉你,我告诉你们真相,我确实如此,对吧,例如,如果你在 18 到 20 个月前问我,嘿,Jordan,你对谷歌 Gemini 的看法如何,我会说不要使用它,今天问我

谷歌 Gemini 是山顶之王,对吧?我认为现在是谷歌和 OpenAI 在互相较量。但我告诉你真相。

所以我不会隐瞒,如果你想要一点,一点火。Rolando 这里说要加大音量。Fred,好的,Fred,Fred,谢谢你。Fred 就像,好吧,Jordan,今天友善一点。他想让我友善一点。Allison 这里扔了一些炸药。那很危险。好吧。好吧,我们拭目以待。我不想冒犯任何人,因为让我这么说。让我这么说。

Claude 仍然是有史以来最令人印象深刻的人工智能技术之一。好的。就是这样。所以我不想忽略这一点。好的。但我发现我越来越少使用 Claude 了。我会说大概九个月前,Claude 可能占我使用量的 25%。

现在可能下降到大约 5% 了。我发现很难

找到 Claude 的实际用例,我说的是前端,各位,好的,所以我不是在谈论后端,我知道 Claude 3 5 从历史上看一直是,你知道,如果你查看 open router,它是最常用的模型之一,我知道 Claude 3 7 对于开发人员来说仍然很流行,尽管它不再是最流行的了,它不再是最流行的了,Gemini 2.0 Flash 和 Gemini 2.5 Pro 真的不是

但这已经酝酿很久了。早在 9 月份,如果你想听听这个,这是哪一集?351。好的。所以在 9 月份,我告诉你们,企业不应该使用 Anthropic 的 Claude 的三个原因。这是在一年之后,对吧?这是一年的……

我犹豫不决。所以很多人不知道,人们会说,好吧,Jordan 只是一个随机的人,你知道,他会在播客上发表关于 AI 的讲话。好吧,表面上是这样,对吧?另一方面,我做了很多你们在这个节目中看不到的事情。咨询大型公司,拥有数万名员工的公司。我和研究机构合作。他们会联系我,大型机构,知名机构。他们会说,嘿,Jordan,你能帮助我们更好地理解生成式 AI 吗?对吧?

所以它不仅仅是,你知道,这个小小的播客。虽然感谢大家收听,让 Everyday AI 成为美国十大科技播客之一。但我正在与许多企业、许多你们没有听说过的事情进行交流。而且不仅仅是我。大型企业一直犹豫是否要大规模使用 Claude。好的。

这已经酝酿很久了。我甚至说了三个主要原因。这是在 9 月份,我说 Claude 遇到了麻烦,企业不应该使用它。首先,没有企业访问权限。所以我指的是前端,对吧?请记住这一点。Everyday AI 主要面向非技术人员,对吧?我说的是登录 claude.ai 或登录 gemini.google.com、chatgpt.com。

与您的团队一起使用前端。如果您收听该节目,我大力倡导的一件事是拥有您的 AIOS,您的 AI 操作系统。您的团队需要一个。除了贵公司可能在后端进行的任何操作外,您还需要一个前端 AI 操作系统,让您和您的团队协作完成工作。没有互联网访问。

Claude 在前两年没有互联网访问权限。他们大约一个月前才推出互联网访问权限。好的。

非常有限的第三方集成,对吧?从技术上讲,谷歌在前端没有很多第三方集成,但因为他们是谷歌,对吧?因为他们拥有,你知道,任何可能成为第三方集成的产品,他们基本上都在内部拥有,对吧?谷歌拥有大约数万亿自己的产品,对吧?

极其有限的第三方集成。自从 9 月份我做了这个节目,第 351 集以来,它已经有所改进。然后我说测试层非常严格。因此,免费和付费的,我想说,阻碍 Claude 真正被企业采用的最大的一件事是,你甚至无法去测试它。如果您有一个付费的,甚至是 Claude 的付费计划,

对。你会说,好吧,你知道,让我们来测试一下。让我们看看这是否适合我们的业务。你知道,你每月支付 25 美元或其他费用。已经有,我毫不夸张地说,数百个案例,因为我使用大型语言模型。我的意思是,它有所不同。我不知道从 4 到 12 个小时不等。最近,使用大型语言模型已经有很多 12 个小时的日子了。对。嗯,

在付费计划中很容易达到 Claude 的速率限制。我敢肯定,在 10 分钟内。这种情况发生在我身上数百次,我会在付费计划中在 10 分钟内达到速率限制。是的,我通常在多个选项卡中工作。如果我在使用 Claude,我正在使用长上下文窗口。是的。我无法告诉你我上次达到 ChatGPT 限制是什么时候了。对吧,不会发生。Gemini 也不会发生。

Claude 非常严格,我认为这是早期的一个重大失误。你怎么期望……

除了吸引您的核心受众之外,我们稍后会讨论,因为我认为他们在那里失去了空间,对吧?编码、开发、软件、工程等,对吧?当一家公司付费时,你甚至无法使用它,你如何吸引普通企业主、普通企业用例?我认为这些费率大约是两倍,但你仍然无法使用它。它非常严格,对吧?

好的。另一个我认为 Claude 失去优势的原因是它不再创新了,对吧?在 2024 年初,甚至年中,我还认为 Claude 是一种创新,对吧?他们推出了工件,推出时,

非常令人印象深刻。如果您不知道 Claude 工件,它实际上是隐藏的。您必须启用它,然后才能调用它。对。但它现在仍然存在。

让我说实话,因为我仍然说 Claude 仍然是最令人印象深刻的人工智能技术之一。仍然有一些用例,对吧?即使我试图,你知道,你们想要火焰表情符号。我不会完全贬低 Claude。仍然有一些用例。我说,现在可能是我使用的 5% 到 10%。但我现在只使用 Claude 来使用 3.7 的思维工件。仅此而已。没有其他。因为其他一切……

Claude 不再是顶级模型了。在许多情况下,它甚至不是前五名或前十名模型,这听起来很疯狂,因为九个月前,它们是第一层,对吧?如果我们回到我们的排名层级,对吧?例如 S、A、B、C,对吧?它们是 S。它们已经下降了。曾经多么强大啊。但我确实只用它来做这个。但是

Claude 和 Anthropic 早期是创新者。所以工件,所以这是一种可以用自然语言渲染代码的东西。你可以让它为你构建商业仪表板、游戏等等,对吧?你可以在浏览器中运行它。然后猜猜怎么了?ChatGPT 和 Gemini 说,好吧,让我们也这样做。所以他们推出了 Canvas。好的。同样地,

Claude 在项目方面是创新者。Anthropic 在项目方面进行了创新,对吧?一种很好的方法,你知道,组织你的聊天。一种很好的方法来留下自定义指令和项目知识,对吧?Chat GPT 紧随其后。

计算机使用,对吧?Anthropic 正在创新。尽管在 10 月份推出时,它非常笨拙,非常笨拙,对吧?你知道,运行计算机使用的一种更简单的方法是,你知道,你必须下载 Docker,你必须访问 GitHub,使用他们的存储库,这很好,但对于非技术人员来说,不是很好。在速率限制方面,我做了一个直播节目,回顾了 Claude 的计算机使用情况,

同样,在速率限制下很难使用。所以我认为 Claude 不再创新了。现在,我认为他们正在追逐克隆。而在此之前,其他人都在复制他们的创新。现在他们正在复制其他人的创新。所以是的,就像现在你看到和即将推出的许多东西一样,例如,根据一些在线侦探的说法,Claude 现在正在测试语音模式和所有这些东西,对吧?

他们现在似乎只是在克隆六个月前、一年前流行的功能。我认为原因之一是 Anthropic 掉链子了,对吧?在 9 月份,当我给出那三个原因时,关于我认为企业公司以及我告诉无数企业公司不要因为那三个原因而使用 Claude 的三个不同场景,他们没有解决这些问题。

这些不是秘密。你无法做到这一点,在前端使用 Claude 非常困难,这并不是什么秘密。他们知道这一点,对吧?他们的团队正在与在线、Twitter 上的人们互动。每个人都在抱怨速率限制,而 Claude 的团队一直在说,哦,我们已经研究这个问题很多年了。太晚了。太晚了。原因之一是,对吧?我不知道这一点,但是

我们听说过一些故事,例如,OpenAI 正在亏损,对吧?即使是首席执行官 Sam Altman 也在其新的每月 200 美元的专业订阅中表示,他们正在亏损,尽管它非常受欢迎。所以我不知道。这是我的直觉,但我的直觉一直是 Claude 可能更赚钱,至少按百分比计算,可能比他们主要的、最接近的竞争对手 ChatGPT 更赚钱。但代价是什么?

因为我认为他们并没有扩大用户群。我不这么认为。我认为有时,如果您是该节目的忠实听众,如果您像我一样是 AI 极客,我们也生活在一个回音室中。在我们的小回音室之外,没有人知道 Claude。但他们本可以。如果 Anthropic 一年前更密切地倾听其客户群体的意见,他们本可以做到。

并继续创新和改进产品,提高可用性。我认为我们今天不会进行同样的对话。总是要有收据,各位。总是要有收据。好的,在我的屏幕上,这是 2025 年 1 月的网络流量。好的。

你还在兜圈子,试图弄清楚如何利用 AI 发展你的业务吗?也许你的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到生成式 AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。

像 Adobe、微软和英伟达这样的公司已经与我们合作,因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些美国最具创新性的公司聘请我们来帮助他们制定 AI 战略,并培训他们数百名员工如何使用生成式 AI。因此,无论您是为数千人寻找 ChatGPT 培训,

或者只需要帮助构建您的前端 AI 战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在 AI 领域兜圈子,并帮助您的团队领先,并为生成式 AI 建立一条通往投资回报率的直线路径。没有人使用 Claude。相比之下,没有人使用 Claude。他们没有。

我知道我会为此而批评他们,并说,Jordan,你是一个 ChatGPT 的粉丝,或者正在加入 Gemini 的行列。不,我没有。自从 Claude 推出以来,我一直在使用它。我喜欢某些功能。我使用所有。我已经使用了数十个 LLM,就像我说的那样,每天数小时。Claude 不再好了。它不是。

我有更多统计数据。我有更多收据。别担心,各位。你说你想要一些火焰表情符号,对吧?所以让我们看看 2025 年 1 月的总访问量。网络访问量。ChatGPT.com,39 亿,带 B。是的,带 B。Claude,7600 万。是的。

Gemini,2.67 亿。DeepSeek,2.77 亿。因此,从访问前端的人数来看,Gemini 和 DeepSeek 彼此之间几乎相同。Perplexity,9900 万。各位,ChatGPT,让我在这里快速进行一些餐巾纸计算。ChatGPT 的用户数量是 Claude、Gemini、DeepSeek 和 Perplexity 综合用户数量的十倍以上。

我的计算在那里正确吗?5 亿?好的,差不多。对不起。我的餐巾纸计算有点错误。好的,所以我们有,根据某种在线人口统计或在线网站信息,这是非常准确的,对吧?我已经使用这些不同的 SEO 工具超过 10 年了。它们非常准确。没有人使用 Claude。热评准备好了吗?Claude 发布其最新模型 Claude 3.7 还不到两个月。Claude Sonnet 3.7。它已经感觉过时了。

他们于 2 月 24 日宣布了 Claude 3.7。让我直接指出这一点。他们大肆宣传 Claude 是,你知道,世界上第一个混合模型。对。所以,你知道,当你想到老式的 transformers,然后你想到这些,你知道,所谓的“新式”模型在幕后进行思考和推理时。我不知道。对我来说,这似乎是 Anthropic 的营销噱头。对。为什么?好吧,

如果你想使用额外的思考能力,你必须这样做,对吧?你必须进去,然后点击按钮。那么它实际上是一个混合模型吗?

我不知道。我认为不是。所以现在我认为 Anthropic 也陷入了谷歌在 2023 年底陷入的陷阱,他们沉迷于营销,而不是倾听用户的意见并发布新的、功能强大、强大的模型。但 Claw37 已经存在了。感觉过时了。

因为从那时起,我们已经从 OpenAI 获得了多次更新。我们已经从谷歌获得了多次更新。我们甚至从我认为从不使用的模型中获得了多次更新,例如 DeepSeek,对吧?如果您关心您的隐私,请不要使用它。除非您在本地下载并微调它,对吧?但如果您关心您的数据,请不要在网络或其 API 上使用 DeepSeek。如果您是企业,请不要这样做,尤其是在美国,对吧?但是无论如何,如何……

我们现在是否到了一个连不到两个月大的模型都感觉过时的地步?

这就是我们现在所处的境地。我不知道 Anthropic 是否能够跟上。就像我说的那样,他们一开始就非常有创新精神。他们是伟大的研究人员。显然,我认为他们在人工智能安全、伦理方面是世界领导者,对吧?所有这些事情。但在以下方面,好吧,他们是否只会成为一个研究部门,这种部门会发布 AI 模型?或者他们试图……

他们真的试图保持相关性吗?他们真的试图成为世界上顶级大型语言模型制造商之一吗?我不知道。我个人对 Claude 3.7 Sonnet,他们的最新模型,感到非常失望。即使是当您必须启用它时的思考变体。我知道很多人,我在网上阅读,很多人正在使用……

正在在内部使用它,就像 YouTube 上的 George 说的那样,你知道,他说,Claude 在 Windsurf 和 Cursor 中看起来很懒惰,但在应用程序中使用它时并非如此。是的。所以我认识很多人,是的,Claude,直到,你知道,一周前谷歌说,哦,等等,Claude,你不再重要了,因为我们正在推出 Gemini 2.5 Pro,这将淘汰

彻底抹去了Claude 3.5或Claude 3.7曾经拥有的所有竞争优势,对吧?谷歌直接表示,是的,我们要把你从这个宝座上拉下来。你无法竞争。谷歌直接击败了他们,这很有趣,对吧?因为谷歌,你知道,已经投资了,但从某种程度上说,他们仍然是竞争对手。让我告诉你我的意思。这是我的独到见解。

我认为,谈到Claude 3.7或Claude 3.5时,有很多推特上的讨论和时髦的炒作。但我关心的是商业实用性。Anthropic在这方面失去了优势。我关心的是基准测试。我关心的是真实的人类使用情况。Claude在这方面不再具有竞争力了。就像我说的,我认为发生的最大事件之一,而且我现在不想在Anthropic工作,那就是Gemini 2.5 Pro和2.5 Flash

老实说,除非Anthropic一直在秘密研发一款改变世界的模型,否则我不知道Anthropic将如何与Gemini 2.5 Pro和Gemini 2.5 Flash竞争。

祝你好运。我知道,很多人说,哦,仍然有Claude 3.7 Opus,对吧?你知道,红外线Claude有三种类型的模型。他们有小型模型Haiku,中型模型Sonnet,以及大型模型Opus。他们很久没有更新Opus了。所以每个人都像,哦,你知道,Claude 3.7 Opus或者,你知道,Claude 4.0。好吧,我不知道。

我不知道,因为即使Gemini 2.5 Pro在10天前才正式发布,也有传闻说谷歌已经有一个更好、更强大的模型正在LM聊天机器人领域进行测试。我不知道Gemini将如何与谷歌竞争。好吧,一如既往,我有证据。是的。Similarweb,Dennis。感谢你的提问。数据就是从那里来的。

好了,大家告诉我,直播观众们,我对这件事的看法错了吗?但让我们快速来看一下证据。我不会让你等一个小时的。我会快速浏览一下,因为实践出真知,各位。

情况很明显,所以让我们来看一下人工智能分析,这是一个很棒的第三方公正网站,它进行基准测试,因为其中一件事情是,当公司发布他们的基准测试结果时,他们会挑选数据。有几十种不同的基准测试,所以当然,你知道,当这些人工智能实验室发布他们的模型时,他们会选择,好吧,在这50个基准测试中,这是我们要放在我们网站上的8个,因为我们在这些方面表现出色,对吧?

这就是为什么我总是查看ELO分数,我们稍后会谈到来自LM Arena的数据,并查看第三方基准测试。智能指数,这是来自人工智能分析智能指数的数据,Gemini 2.5 Pro领先,其次是OpenAI的三个Mini模型,然后是两个DeepSeek版本,然后是GPT 4.1的新版本,各位。

我不得不数一下。就这个第三方基准测试的智能指数而言,Claude Freeze 7排名第8。让我们继续,因为你会说,好吧,那人类呢?人类可能更喜欢它。好的,所以是ELO分数。让我们谈谈这个。这是面对面的比较。你在LM Arena,在聊天机器人竞技场输入提示,你会得到两个输出。你不知道它们是谁。你说这个更好。好了,已经有数百万张选票了。猜猜看?总ELO分数。Claude并非前10名模型。

那时我,就像,我知道这么说听起来很疯狂,但你必须问这个问题,即使你是反问的,Claude不再是最先进的模型了吗?我不知道,各位。在这么多的基准测试中,在这么多的ELO类别中,总ELO,它们都不是前10名模型。来自谷歌的小型语言模型Gemma 3的ELO分数更高。

比Claude 3.7高。让我再说一遍。一个小型语言模型,而不是大型语言模型。在数百万张投票中,人类更喜欢其输出,而不是Claude 3.7的输出。谷歌有,让我们数一下,一、二、三、四、五种模型,五种不同的模型,人类更喜欢它们而不是Claude 3.7。

我不知道,所以我的独到见解,当我说道,嘿,Anthropic失去了其顶尖地位时,我的独到见解非常大胆,Gemini 2.5 Pro更高,让我们看看,我们有Gemini 2.0 Flash,Gemini 2.0 Pro实验版更高,Gemini 2.0 Flash更高,然后是小型语言模型Java 3,我的天哪,好吧,但你可能会说,好吧,Jordan,人们出于某些原因使用Claude,对吧?

他们用它来进行创意写作。Claude在这方面很棒。他们用它来进行编码和软件开发。Claude在这方面很棒。这是一个旧说法。从字面上看,这是一个旧说法,对吧?尤其是创意写作方面。我认为基本上,对吧,你知道,大约一年半前,网上疯传了一些关于ChatGPT和Gemini在内容写作方面有多糟糕的信息,而Claude则好得多。好吧,让我们看看这两件事。让我们首先看看

创意写作。好的。哦,Anthropic在哪里?哦,列表的底部。再次,创意写作方面并非前10名ELO。这就是我所说的。我认为现在有很多推特上的讨论和时髦的炒作,对吧?哦,喜欢Claude很酷,对吧?

就像,哦,我看到你穿着那个名牌ChatGPT。哦,我看到你用的是主流的谷歌Gemini。我在这里用Claude进行提示,伙计。不,为什么?为什么?在创意写作方面并非前10名模型,每个人都认为它在这方面很棒。那是大约一年半以前的事了。别骗我,各位。这是数百万人的投票。盲目地。

猜猜还有什么?编码方面也不是前五名。不是。Claude 3.7 Sonnet with Thinking并非前五名的编码模型。猜猜是什么?猜猜谁排在第一位?OpenAI的01。

他们的01预览版,他们的01 Mini,Gemini 2.0 Flash,而且我相信一旦Gemini 2.5 Pro出现在这里并获得足够的投票,它也会排在上面,但在编码方面并非前五名模型,所以你想要什么?我不明白为什么人们还在使用Anthropic,就像我说的,也许你有一些你很满意的用例,对吧?如果说实话,我唯一使用它的原因是,就像我说的

Claude曾经占据我使用量的20%。我是一个大型语言模型的重度用户。就像我说的,现在可能只有5%了。我之所以还在使用它,是因为Claude在某些方面比谷歌的Canvas和OpenAI的Canvas做得更好。但总是像我同时在所有三个模型中运行相同的东西一样。有时我会想,好吧,Anthropic在这里稍微好一点。

好了,所以你可能会说,哦,它很快,它很实惠。它不快,它不实惠。它不是,你知道,当你查看速度时,这是来自人工智能分析的数据,Gemini 2.0 Flash和Gemini 2.5 Pro是最快的模型,其次是OpenAI的GBT 4.0和0.3 Mini。再次,Claude不在前五名,速度方面,好吧,这是每秒输出的标记数量。所以它不快。

顺便说一句,这是非思考模型。价格方面很糟糕。价格方面很糟糕,我仍然不明白为什么人们如此沉迷于DeepSeek

就像DeepSeek不再便宜了。对。它刚出来的时候,就像,哦,是的,这个更便宜。好吧。Gemini 2.0 Flash在价格方面击败了所有人。当谈到价格时,Llama的新Llama,Scout,GPT 4.0 Mini,对吧?有很多比Claude更快、更好、更便宜的模型。所以我不,

它肯定失去了优势,对吧?我认为我还想在这里展示一件事情。好的,它会在接下来的幻灯片中出现,因为这也说明问题。所以让我们看看智能与价格的关系。所以如果你在后端使用Claude,你也不是很划算。

对,你不是,所以,在前端,人类不喜欢它,在后端,你并不一定能得到你所付出的代价,再次,这是智能与价格的关系,所以这里有一个小象限,所以你想在左上角,因为这意味着它更便宜也更聪明,Claude在右边,Claude 3.7 Sonnet实际上在右下角,好吧,

不一定快或实惠。我们开始吧。每个人都像,哦,这是最好的编码模型。猜猜看?不是。人工智能分析。他们的编码指数。这个很有趣。Cloud 3.7,思考模型。准备好了吗?思考模型排名第五。猜猜什么排在它前面?

OpenAI刚刚发布的新模型GPT-4.1。但猜猜看,各位?这是迷你版,OpenAI新模型的迷你版。它不仅是一个非思考模型,对吧?因为通常如果你使用这些思考模型,这些推理器,它们的编码效果要好得多,对吧?尤其是在处理长标记、长上下文窗口中的非常复杂的任务时。所以不仅是

这个GPT-4.1模型。它不是一个思考模型,并且在人工智能分析编码指数上的表现更好,但它是迷你版。它是迷你版。所以我不知道,各位,如果你还在使用Quad 3.7 Sonnet,请告诉我为什么。请告诉我为什么。我很好奇。就像我说的,我知道很多软件工程方面的人,软件

开发方面的人,他们喜欢它,对吧?在Cursor中使用它,在WinServe中使用它,在所有这些不同的IDE中使用它。我也对此感到困惑。现在有了Gemini 2.5 Pro,有了Gemini 2.0 Flash,以及OpenAI刚刚宣布的这些新模型,我……

我不明白。说实话,我不明白Anthropic是如何做到这一点的,Claude是如何从顶级,对吧,最先进的、世界领先的模型变成无关紧要的。

所以很多人说,哦,好吧,你知道,Claude刚刚发布了一个新计划,Jordan。你真的在为他们的这些速率限制而批评他们。你可以多付钱,多用它。好吧,为什么?如果它不是前10名模型,对吧?是的,Claude刚刚推出了他们的Claude Max,对吧?所以如果你每月支付100美元或200美元,你会得到更高的限制,让我指出这一点,因为人们会说,好吧,Jordan,这解决了问题。好吧,

你不会因为每月支付100美元或200美元而获得更强大的功能。你不会获得更多功能,对吧?例如,当OpenAI宣布他们的200美元专业版计划时,当时这是你访问Sora的唯一途径。这仍然是你访问01 Pro的唯一途径。然后你就可以无限使用所有功能。无限的。这不是限制。或者说,这不是无限的。你仍然可以在前端

每月支付100美元或200美元。你不会获得新功能。你不会获得仅限于该Max计划的新模型。你只是获得了稍微更好的限制。但这里有一个令人担忧的问题,各位。这个问题有点令人担忧。准备好了吗?这是来自Anthropic网站关于他们新计划的内容。准备好了吗?谈论他们新Max计划的消息限制。

你的消息限制每五小时重置一次。我们将这五个小时的片段称为一个会话,它们从你向Claude发送的第一条消息开始。请注意,如果你每月超过50个会话,我们可能会限制你访问Claude。

每个会话包括从第一次启动聊天开始的五小时内发送的任何消息。所以我们预计这对我们的用户来说相当慷慨。我的天哪,我不知道。这有多么缺乏音调,各位?

拜托。所以假设一下,假设你是一个非常有条理的人。好吧。就像我一样。这就是为什么我甚至无法在当前的付费计划中使用Claude。但即使我每月支付100美元或200美元。所以假设我早上在节目开始前使用Claude来帮助计划它。好吧。所以假设是早上6点。然后我在中午使用它。好吧。然后在晚上,你知道,我又用它了。所以假设我只是这样做。

每天几个提示,每天几个提示,我在早上6点做,我在中午做,然后我在晚上6点做,6点、中午、6点,对吧,每天几个提示,每月支付100到200美元,在这种情况下,即使我只做几个提示,每月支付100到200美元,我可能会

被我昂贵的每月100美元或200美元的计划切断。这就是他们所说的。每月50个会话。所以如果我这样做,如果我每天使用Claude三次,它们之间的时间间隔超过五小时,那么理论上,在三周内我可能会被关闭。而且我可能无法在该月的最后一周使用他们的付费计划。理论上,这就是这里所说的。这有多么缺乏音调?

我不明白。如果说实话,当我看到这一点时,我想,拜托,Anthropic。我不知道,你从亚马逊那里得到了多少钱?我记不清了,60亿美元还是什么的。这就是人们不使用你的服务的原因。人类不喜欢它。基准测试也不喜欢它。对于那些仍在找到实用性或高级用户的人来说,你是在打他们的脸。现实一点。好吧,独到见解。让我们在这里结束。

Claude能恢复吗?老实说,我认为不能。我认为不能。再次,这只是阅读报告。你不能因为Anthropic将安全放在首位而批评它。你不能。他们发表了世界领先的研究。我认为,当谈到安全的人工智能时,他们是这方面的领导者,但没有人为你的研究付费。你并没有与之竞争,

成为拥有最佳研究、最佳安全性的最佳前沿人工智能实验室。这是一场竞赛。这是狂野西部,对吧?这就是它是什么。人工智能没有规则。Anthropic正在玩,我认为,错误的游戏。他们疏远了他们的高级用户。他们停止了创新。我认为这导致他们

现在面临几乎无法克服的挑战,对吧?假设一下,例如,Claude已经准备好他们的4.0模型,而且他们可能已经准备好一段时间了。当你看到OpenAI的这些新版本时,对吧?他们的4.1模型,较小的版本,在性价比方面,令人惊叹。谷歌Gemini 2.5也是如此。如果说实话,我认为,对吧?

九到十五个月前,我想,是的,这将是一场三方竞争。不再是了。是的,你必须关注开源。你必须关注中国模型。但美国的大多数企业公司出于各种原因不会接触许多开源模型。而且他们不会出于显而易见的原因接触中国模型,数据安全、数据隐私,以及从美国的角度来看,不会将所有业务IP直接发送到中国。Anthropic做好了准备。

在这场三方竞争中竞争,他们做好了成为领导者的准备。但现在他们是一家二流公司。他们是。这可能很苛刻。你想要我诚实的看法。这不仅仅是我。这是我个人的使用情况吗?当然。这是我个人的经验吗?是的。但我向你展示了证据。用户没有使用它。第一。他们在基准测试中没有竞争力。第二。人类不喜欢它。第三。所以Claude能恢复吗?我不知道。

我可能会说不行。好了,各位。我希望这有帮助。你想要一些独到见解吗?我试着带来了。试着带来了一些。所以,你知道,谈论一下,Anthropic的Claude是否失去了优势?发生了什么?谷歌和OpenAI是否领先太多?简单的答案是,是的,Anthropic失去了优势。是的,至少在今天,OpenAI和谷歌领先Anthropic太多,以至于Anthropic无法赶上。

我可能是错的,但你唯一能发现的方法是继续收听。也许在2026年,我会吃一大块谦卑派,但我们会拭目以待。好了。感谢收听,各位。如果你还没有,请访问youreverydayai.com。如果这有帮助,请与你的网络分享,标记一个朋友,需要听到这个的人。如果你在收听播客,一如既往地感谢你的支持。联系我。

我总是把我的电子邮件和LinkedIn放在这些节目说明中。所以如果你对此有想法,请与我联系。你知道,在直播评论中也告诉我。然后去youreverydayai.com。注册免费的每日新闻通讯。感谢收听。我们明天和每天都会回来,了解更多关于Everyday AI的信息。谢谢,各位。

今天的Everyday AI节目到此结束。感谢您的收听。如果您喜欢本期节目,请订阅并给我们评分。这有助于我们继续前进。更多人工智能魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样你就不会落后。去打破一些障碍,我们下次再见。