We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP 473: Claude 3.7 drops, OpenAI releases GPT-4.5 and more AI News that Matters

2025/3/3

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

本周人工智能领域发生了很多事情，包括Anthropic发布了Claude 3.7 Sonnet，OpenAI发布了GPT-4.5，以及关于苹果AI和AGI的讨论。Claude 3.7 Sonnet是第一个公开发布的混合AI模型，结合了Transformer和高级推理能力，在编码方面表现出色。然而，其推理能力还有待提高，一些用户在某些任务中会回退到3.5 Sonnet。GPT-4.5是OpenAI最新的大型语言模型，强调可靠性和相关性，在情感智商方面表现出色，但其API定价非常高。谷歌联合创始人谢尔盖·布林为了赢得AGI竞赛，要求提高生产力，增加在办公室的时间，引发了人们对AI开发领域高压工作文化的担忧。Meta正在开发一款独立的AI应用，以与OpenAI和谷歌竞争。Microsoft Copilot提供了免费的无限语音和深入思考功能。Eleven Labs推出了Scribe，一个支持99多种语言的语音到文本模型。亚马逊否认了Anthropic的AI为其新的Alexa Plus功能提供支持的报道。Sesame AI的语音聊天机器人Maya因其逼真地模仿人类对话的能力而备受关注，但其事实回忆能力还有待提高。苹果宣布了5000亿美元的美国投资计划，其中包括在德克萨斯州建设一个AI服务器工厂，但其Siri的重大升级要等到2027年。

Deep Dive

Chapters

Anthropic released Claude 3.7 Sonnet, the first hybrid AI model combining transformer capabilities with advanced reasoning. It excels in coding and software engineering, scoring high on benchmark tests. While impressive, some users find its reasoning capabilities inconsistent, sometimes altering code unnecessarily.

Claude 3.7 Sonnet is the first publicly available hybrid AI model.
It combines transformer capabilities with advanced reasoning.
It scored a 70.3 on the suite bench coding benchmark.
It is particularly strong in encoding and front-end web development.
Some users are reportedly rolling back to 3.5 Sonnet for certain tasks.

Shownotes Transcript

这是 Everyday AI 节目，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。Anthropic Claude 推出了 3.7 版本，Sonnet OpenAI 几天后回应了他们急需的

加权模型，GBT 4.5，我们可能还需要等很多年才能真正看到苹果公司的完整 AI。我们甚至可能在看到完整的苹果智能之前就看到 AGI。

是的，这周 AI 领域就是这样。就像，等等，这一切都发生在一周内？是的，确实如此。如果您错过了任何内容，而这只是冰山一角，别担心，我们今天将在 Everyday AI 上回顾这些故事以及更多内容。

大家好！我是 Jordan Wilson，我是主持人，而这个节目，是为你们准备的。这是您的每日直播播客和免费每日新闻通讯，帮助我们不仅跟上 AI 的步伐，而且了解这一切的真正含义，对吧？解读所有这些来自所有最大公司的公关和新闻稿，以便我们能够实际利用这些信息来发展我们的公司和职业。

如果这听起来像是您正在尝试做的事情，也许这是您第一次收听。欢迎。这是您的新家。您的另一个新家是 youreverydayai.com。在那里，您可以注册我们的免费每日新闻通讯。因此，我们每天都会回顾我们仅在此播客中为您带来的独家见解，以及让您了解 AI 世界中需要了解的一切，成为您公司或部门中最了解 AI 的人。

呃，是的。因此，如果这听起来像是您正在尝试做的事情，请务必前往 youreverydayai.com 注册免费的每日新闻通讯。好的。快速提醒一下。呃，我们将要，哦，我的天哪，大约还有两周时间。呃，我们将与 NVIDIA 在他们的 GTC 大会上进行现场直播，呃，开始于，呃，三月。我们实际上将在哪一天开始？可能是 3 月 17 日，星期一。所以，呃，是的。

并且在那周，至少是周初的前几天，我们将与 NVIDIA 合作，为您带来许多独家见解，一些优秀的专家访谈，也许还会发布一些新闻。因此，非常期待今年的 GTC 大会。去年我们也很幸运地与 NVIDIA 合作。所以，嘿，告诉我。如果您要去圣何塞参加 GTC 大会，请与我联系。很高兴能打个招呼。好的。

有了这些，让我们进入 3 月 3 日当周 AI 世界中发生的事情。让我们开始吧，各位。好的。所以，Anthropic，是的。这似乎……

这是一周，是在星期一，对吧？就在这个节目之后。感觉好像一个月前 Anthropic 发布了 3.7 Sonnet，但他们确实发布了。因此，Anthropic 推出了 Claude 3.7 Sonnet，这是第一个公开提供的混合 AI 模型，它结合了传统的转换器功能和高级推理功能。

因此，它确实融合了这两种 AI 范例。它将传统的转换器模型与推理能力相结合，使其能够在快速响应和更深入的逻辑思维之间切换。因此，扩展思维模式是一个关键功能。目前，扩展思维仅适用于付费用户，他们可以启用该模式，该模式下模型会花费更多时间来解决复杂问题，并且

还会显示总结的思维链以提高透明度。因此，免费用户可以使用 Claude 3.7 Sonnet 模型，但至少目前他们无法启用扩展思维。因此，Claude 3.7 Sonnet 是

在编码、软件工程等方面非常出色。因此，如果您负责公司中的这些工作，您可能需要查看 3.7 Sonnet。因此，它在 Suite Bench 编码基准测试中获得了令人印象深刻的 70.3 分，超过了 OpenAI 的 01 和 03 Mini 等竞争对手。它尤其……

强大，Claude 3.7 Sonnet 擅长编码和前端 Web 开发，使其成为软件工程师的绝佳选择。呃，Anthropic 还发布了 Claude Code，再次，直播观众。告诉我您是否想要，如果我们应该深入探讨。它稍微更技术性一些，但本质上就像 Anthropic 发布了，呃，

我不会说它是光标的竞争对手或 Bolt、Lovable 和 Windsurf 等所有这些 AI IDE 的竞争对手，但它确实有点像，对吧？即使 Cursor 已经说过，你知道，嘿，Anthropic Cloud 是我们的默认模型。看起来，通过 Cloud Code，Anthropic 正在尝试进入这个 AI 直接开发领域，我认为这是一个明智之举。因此，他们确实推出了 Cloud Code。

一个命令行工具，允许开发人员直接从其计算机的终端与整个代码库进行交互和更新。

因此，它还与 GitHub 集成并支持调试，这标志着 Anthropic 向 AI 驱动的代码辅助领域进军。因此，尽管取得了这些进步，但 Cloud 坚持其 API 成本，当时这似乎有点愚蠢，直到我们了解到 OpenAI 产品的 API 定价。

最新模型。所以，等等看吧。因此，价格仍然相同，每百万输入令牌 3 美元，每百万输出令牌 15 美元。但我的意思是，这就是我对这个最新模型的想法，对吧？很多人说，哦，看起来 Anthropic 试图获得 OpenAI 的最佳成果，对吧？使用一种基于逻辑的模型，使用一个推理模型。说实话，

我对 Anthropic Clawed 3.7 的推理能力并不十分印象深刻。但同样，我是一个力量，我是一个 OpenAI 的 O3 Mini 的重度用户。我会说这是我最常用的模型。我也使用 O1 Pro。所以，你知道，看看 Anthropic 首次涉足这种

推理模型，对此并不十分印象深刻。此外，据报道，许多人在某些任务中正在回滚到 3.5 Sonnet，尤其是在编码方面，因为似乎有时 Claude 会在可能不应该的时候使用推理，并且它会将事情进一步推进并更改您可能甚至不想更改的大量内容。因此，我每天都在为某些用例使用 3.7 Sonnet。我认为它很棒。

这是第一个，对吧？你必须小费，就像我一直说的那样，你必须向 Anthropic 表示敬意，因为他们是第一家拥有混合模型的公司。而且我认为这将成为大型语言模型的未来，即将这种所谓的旧式转换器方法与新的推理模型相结合。所以是的，我很想知道

你知道，因为我们将在最后讨论 GPT 4.5。你知道，我很想知道我们的直播观众，并且，你知道，嘿，如果您也在收听播客，请告诉我。您对这些最新版本有什么看法？呃，是的。所以，呃，Sandra 在 YouTube 上加入我们，她说我还没有能够分辨出区别。呃，我个人，我已经能够分辨出 3.7 Sonnet 的区别，你知道，当我测试它只是为了，你知道，利基编码任务时，这并不是我经常做的事情，除非我正在测试模型，呃，

它非常适合此。我可能每天都会使用 Cloud Sonnet 的其他所有事情，我会说它差不多。我认为 artifacts 功能实际上已经因此而得到了改进，对吧？如果您试图可视化数据或类似内容，我认为它更好。但对于非编码、非数据可视化任务，我不知道我们是否一定看到了 3DVM 的巨大飞跃。

3.7 sonnet。再次声明，这是在我的测试中。我每天可能使用它，呃，我不知道，45 分钟到一个小时，自从它发布以来，呃，你知道，为了上周的节目，我可能测试了它好几个小时。所以，你知道，我并没有每天使用它五个小时或类似的事情。呃，但我很好奇，嗯，每个人的想法是什么。

您是否仍在四处奔波，试图弄清楚如何利用 AI 发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到 Gen AI 的投资回报率。嘿，我是 Jordan Wilson，本播客的主持人。

Adobe、Microsoft 和 NVIDIA 等公司已与我们合作，因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些国家最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训数百名员工如何使用 Gen AI。因此，无论您是在寻找针对数千人的 chat GPT 培训，

还是只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中奔波，并帮助您的团队领先并构建通往 Gen AI 投资回报率的直线路径。好的。

我们的下一条 AI 新闻，谷歌正在大力推动 AGI，显然他们只需要更多地工作。好的。因此，据报道，谷歌联合创始人谢尔盖·布林呼吁提高生产力和增加在办公室的出勤率，因为该公司正在加紧开发人工通用智能或 AGI。

因此，据报道，布林认为 AGI 触手可及，如果员工只是更加努力地工作。在《纽约时报》看到的内部备忘录中，布林指出，谷歌拥有赢得 AGI 竞赛的所有要素，但需要“增强”其努力。他建议员工每周至少工作 60 小时，称这是生产力的最佳点。

此外，正在强调重返办公室政策，因为布林建议员工每天都来办公室，超过了谷歌目前每周三天在现场的政策。他认为远程工作和减少工作时间会使其他人士气低落。

因此，谷歌的 AI 团队已经长时间工作。据 CNBC 报道，一些从事谷歌 Gemini AI 项目的员工每周工作时间长达 120 小时，以解决其图像识别工具中的严重缺陷。想象一下每周工作 120 小时。

对。太疯狂了。这就像，我不知道。我不擅长数学，但这超过一天 15 个小时。想象一下，对吧。15 个小时。

有人可以做一个实时计算器吗？让我们算一下 15 乘以 7。我现在应该能够在我的大脑中计算出来，但我不能。好的，所以这是每周 105 小时。所以甚至更多，120 小时。这就像一天 17 个小时。不，谢谢。或者一天 17 个小时来调试这个。但想象一下，每天工作 15 个多小时，然后他们说，啊，如果你只是更努力地工作，我们将实现 AGI。

可能不是大多数人想听到的。因此，AI 开发中高压的工作文化正在引起人们的担忧。因此，虽然对 AGI 的推动可能会导致突破性进展，但要求苛刻的工作量，例如，开发 Grok 的 XAI 员工报告的例行 12 小时工作日，突显了该行业所承受的代价。所以，

我不知道我对这个有什么感觉，对吧？首先，我认为 AI 应该让员工少工作，对吧？并专注于更高质量的工作。所以，我不知道，这对我来说的一部分就是说不通，尤其是因为谷歌，我认为，

我认为应该在 AI 竞赛中远远领先于其最接近的竞争对手，考虑到他们基本上开发了 GPT 技术，但正是其他公司真正利用了它。我会说谷歌可能直到 2024 年底才赶上 AI 竞赛。所以现在看来，他们真的想赢得 AGI 竞赛，并且真的只是在推动

员工更多地工作，更聪明地工作，在这个过程中提高生产力。所以，我不知道，这似乎有点讽刺，我们都应该从 AI 和大型语言模型中受益。我们应该，我们专注于更高层次的创造性和战略性任务。而事实是，不，只需加倍努力，只需加倍努力，对吧？

有点疯狂。是的。来自 YouTube 的 Suraj 刚刚说，谷歌在错过了几年后终于醒悟了。是的，就像，哦，我们在 2022 年和 2023 年并没有真正参与比赛。所以现在我们只需要加倍努力或加倍努力才能赶上。是的，关于那周四小时工作制的承诺，至少现在还没有。好的。

好的，其他大型科技公司试图迎头赶上。据报道，Meta 正在开发一款独立的 AI 应用，以与 OpenAI 和谷歌竞争。因此，一份新的报告表明，Meta 正在为其 Meta AI 助手推出一个专用应用程序，这可能预示着其 AI 战略的重大转变。据报道，Meta 正在为其 AI 助手 Meta AI 开发一个独立的应用程序。该应用程序将标志着 Meta 当前方法的转变

只是将 AI 服务集成到 Facebook、Instagram 和 WhatsApp 等社交平台中。因此，独立应用程序可以帮助 Meta 接触避免使用社交媒体的用户，例如我，或使用竞争对手的消息服务，从而弥补其当前战略中的差距。此举可能会吸引数百万以前无法触及的新用户。

因此，Meta AI，他们的在线服务于 2023 年推出，提供诸如问题解决、图像生成和答案建议等功能。因此，虽然它已经有所改进，但它仍然缺乏 OpenAI 的 ChatGPT 和谷歌的 Gemini 等竞争对手提供的先进功能。

因此，Meta 首席执行官马克·扎克伯格对 AI 怀有雄心勃勃的计划，他在今年早些时候表示，Meta AI 可能会成为领先的个性化 AI 助手，覆盖超过 10 亿人。而独立应用程序确实符合这一愿景。此外还有货币化，对吧？

这显然是 Meta 报告的新战略的关键部分，因为他们可以推出付费计划和高级功能，而这些功能可能无法轻松地在 Facebook、Instagram 或 WhatsApp 等平台上推出，因为许多用户可能正在使用 Meta AI 技术。

Fred 说，我不会使用 Meta，对吧？我使用它。我在线使用它。它实际上是一个很棒的在线资源，对吧？大约三四个月前，我们在本节目中进行了一次面对面的比较，比较了某些大型语言模型在使用互联网时的准确性。所以我认为我们总结了我们所做的，OpenAI。我们做了谷歌。

我们做了 meta，我们做了 co-pilot。而且我实际上对 meta 的表现感到惊讶，对吧？从本质上讲，最大的收获，最大的收获是它表现得多么出色

只是调查了互联网，并可以使用连接到互联网的 Lama 模型返回准确的答案。所以我实际上非常，非常印象深刻，是的，他们的，他们的增强现实是他们绝对关注的。但是是的，我的意思是，他们绝对希望将这两种不同的技术结合起来，对吧？可穿戴技术和，你知道，只是独立于其社交媒体网络的独立 LLM。所以是的，

好的。说到大型科技公司，是的，这只是一周大型科技公司的事情，但我对微软印象深刻。因此，Microsoft Copilot 现在正在推出一些重大更新，包括免费无限制地访问语音和他们的 Think Deeper 功能。

所以那是 O1。是的，OpenAI O1 模型。您现在可以免费无限制地使用它。因此，如果您只是访问 copilot.microsoft.com，您必须拥有一个帐户，但您可以使用基本上他们的代码

Microsoft co-pilot 的语音模式，虽然它使用的是相同的技术，但它不如 OpenAI 的高级语音模式好，但您可以免费无限制地使用 O1 模型。OpenAI 的，几个月前，他们最强大的模型。您可以免费无限制地使用它。微软的这一举动非常巨大，我认为这被忽视了。

语音功能允许用户免提与 Copilot 交互。用例包括练习新语言、通过模拟问答为求职面试做准备或接收分步烹饪建议。我实际上已经出于这个确切的原因使用了 Copilot。

我认为它仍然没有帮助我。那不是 Copilot 的错。我只是，我不会做饭。你知道，也许，也许我确实需要那个，呃，figure O2 机器人，呃，只是默默地在你的厨房里为你工作。呃，但是，呃，think deeper。我认为它，它，它真的很好。所以，呃，我们，我们第一次发布它时对其进行了审查，我不知道，五个月前。所以你可能需要重新审视一下，但是，嗯，

我认为它很棒。因此，任何真正需要一些高级推理、一些逻辑的事情，对吧？也许您正在使用，你知道，ChatGPT 或 Claude 或 Gemini 或其他东西，并且您没有付费计划，并且您想，哇，我希望能够使用推理模型。因此，现在您可以免费使用非常有限的 O3 Mini 用于 ChatGPT。但是如果您想获得 O1，这是一个非常非常非常好的功能强大的模型，

现在您可以做到了。因此，Copilot Pro 用户，是的，包括我自己。我在 Copilot Pro 上。我每月为此支付 20 美元。我想，等等，我们得到了什么？你知道，我们现在得到了什么，20 美元？但是，你知道，我确实感谢微软至少向 Copilot Pro 用户发送了电子邮件，他们说，伙计们，我们正在使这个免费版本变得非常好。如果您想取消，这是链接。摩根。

更多大型科技公司应该这样做，对吧？就像如果他们免费提供某些东西，而付费计划突然不好，他们应该说，嘿，没关系。如果您取消，这是给您的。但是，以下是 Copilot Pro 帐户仍然拥有的内容。所以，你知道，想想这个，

不同。我仍然是 Mac 用户。是的，我有一台 Windows Copilot Plus PC。我仍然必须使用，我仍然必须设置它。我一直很忙。我真的很兴奋能做到这一点。但是也许您的公司使用 Microsoft 365 Copilot。在大多数情况下，这不会影响您，除非您在公司业务聊天之外未登录的情况下使用它。那是

也许，对吧？在这种情况下，当然，您可以这样使用它。但这对于，我认为，将吸引许多 Mac 用户，他们可能没有 Microsoft 365 Copilot 集成。但 Copilot Pro 用户，那些仍然每月支付 20 美元的人，仍然可以继续享受和使用 Copilot 产品。

在不同的 Microsoft 365 应用程序中，如 Word、Excel、PowerPoint 等。所以专业用户不像

SOL，对吧？他们并没有运气不好。他们仍然拥有一些普通免费用户不具备的 Copilot 功能。但是各位，如果您还没有使用 Copilot，我会立即尝试一下无限语音和更深入的思考功能。它们实际上非常令人印象深刻。是的。我喜欢 LinkedIn 上的 Graham 说的。

Copilot 现在已成为大多数人进入 AI 的门户。是的。几周前，我可能会说，不，可能是免费的 chat GPT。但现在我会说它们是 1A 和 1B。我仍然认为免费版的 chat GPT 可能比这个免费版的 co-pilot 好一点。但现在它们至少并驾齐驱，尤其是如果您的公司是微软组织。我认为这在这里非常重要。所以，好的。

下一条 AI 新闻。最大的名字之一

AI 在文本转语音方面正在改变其业务模式。因此，Eleven Labs，这是一家最近估值 33 亿美元的 AI 初创公司，在 1.8 亿美元的融资轮之后，推出了其第一个独立的语音转文本模型 Scribe。所以是的，你可能听说过

11 Labs 作为文本转语音，但现在他们正在反过来进行语音转文本。所以是的，即使您在播客上收听这个节目，也有一段小介绍，对吧？这是 AI 介绍，但那是 11 Labs，对吧？顺便说一句，那是 11 Labs 的第一个版本，我认为，两年前半就非常令人印象深刻。

因此，Scribe 模型支持超过 99 种语言，并且在超过 25 种语言（包括英语、法语、德语、印地语、日语和西班牙语）中拥有卓越的准确性。因此，该公司声称其英语的准确率高达 97%，其表现最佳的语言的词错误率低于 5%。据 11 Labs 称，

Scribe 在 Fluors 和 Common Voice 等基准文本中超越了 Google Gemini 2.0 Flash 和 OpenAI 的 Whisper Large V3（即 OpenAI 的语音转文本模型），使其在语音检测市场中脱颖而出。

我喜欢的其中一个很酷的功能，希望我发音正确，但它包括高级功能，如智能扬声器区分，这基本上只是自动识别正在说话的说话者，这对于像我这样制作播客的人来说非常重要，通常我会邀请嘉宾，这非常重要。这就是为什么我个人不能使用像 Whisper 或 Google Gemini 2.0 这样的东西，对吧？因为我通常会有一个客人。

所以我实际上使用的是一个名为 Cast Magic 的工具，该工具内置了该功能。所以我一定会查看 11 Labs 的这个新产品，它可以自动识别说话者。我认为这非常重要。它还具有用于精确字幕的词级时间戳和声音事件（如笑声）的自动标记。

这有点酷，也让人有点毛骨悚然，但很有用。目前，Scribe 仅适用于预先录制的音频，但很快就会提供低延迟实时选项。这很酷。当它发布时，我必须联系 11 Labs，并在我有嘉宾参加节目时始终让它直播。这对我来说将非常有帮助。

呃，你知道，我很想知道，这里有没有人，像，你们使用 11 Labs 这样的工具吗？就像我说的那样，我认为它对于文本转语音来说非常棒，呃，它是该领域的领导者之一，呃，我认为它仍然是人们只需要配音时，嗯，有声读物，你知道，我认为人们可能在早期过度使用了它，并没有投入足够的精力，但它实际上是一个非常非常好的平台，嗯，

所以这里的 George 说 11 Labs，Jibberlink 允许 AI 与 AI 交谈。是的，速度比人类语言快。我看到了。这是一个非常酷的演示。从本质上讲，你知道，两个 AI 代理正在互相交谈。他们确定他们都是 AI 代理。我相信这是一个开源项目。然后他们只是使用了他们自己的 Jibberlink 技术。

互相交谈。听起来像两台传真机，你知道，互相交谈。这很酷。是的，Samuel 这里说，我每月支付 5 美元给 11 Labs，只是为了能够收听我的文档。非常重要的一点，Samuel。我也这样做。这实际上是我最常使用 11 Labs 的事情之一。我为此付费。有时我有一大段文本

我不想进入，例如，OpenAI 后端的游乐场，因为您一次只能做一定数量的文本。所以是的，如果，你知道，

很多时候，我会把它扔进 notebook LM 并获得更多摘要或更多关于它的对话。但如果我实际上需要逐点阅读某些内容，并且我非常忙，很多时候我会抓住它，你知道，几千个单词，把它扔进 11 Labs，你知道，将输出提高到 2 倍。因为你知道，这就是我说话如此快的原因。因为我听这些东西听得很快，我想。但是的，我认为 11 Labs 的一个很好的用例。

看看这个。我们在这里，你知道，只是总结了本周的大型科技公司阵容。因此，亚马逊否认了 Anthropic AI 为其新的 Alexa Plus 功能提供支持的报道。所以是的，如果，

您关注这个节目，我们会报道这个。因此，亚马逊终于宣布了他们的更智能的 Alexa，对吧？由大型语言模型提供支持。早些时候的报道是它由 Anthropic Clawed 的 AI 模型提供支持，但显然不是，因为亚马逊，至少不是完全如此。因此，亚马逊公开驳斥了有关其最近宣布的 Alexa Plus 功能由 Anthropic 的 Clawed AI 模型提供支持的说法。

这正在引发网上大量的讨论。

因此，亚马逊坚持认为其内部模型（称为Nova）为大多数Alexa Plus对话提供支持。这是对CNBC的一份报告的回应，该报告声称Anthropic的Claude模型处理了大部分客户互动。亚马逊表示，Nova在过去一个月中处理了70%以上的对话，包括复杂的请求。所以，呃，

是的，这只是在未来一两周内开始向付费亚马逊用户推出。所以也许这只是在测试中。他们也没有真正说明另外30%是什么。所以我假设另外30%可能是Claude。我们将看看这份报告是否刚刚发布。但显然，Anthropic是亚马逊的关键投资者。

亚马逊是Anthropic的关键投资者，该公司坚持认为其专有的AI Nova负责其中一些高级功能。升级后的Alexa Plus拥有生成式AI功能，被称为Alexa Plus，新版本旨在更具对话性和能力，能够处理诸如购物、预订服务、发送短信和浏览网站等任务。是的。

在Alexa Plus的演示中很有趣。我想，为什么所有这些演示都像你在亚马逊上购买更多东西一样？为什么你不能只给我展示Alexa不愚蠢的例子呢？演示中有很多内容都像是，“哦，你从亚马逊买了更多东西”。我不知道。

字面意思是我会问，我不知道天气或商店的营业时间。然后老式的愚蠢Alexa仍然会说，“你想让我把它添加到你的购物车吗？”我说，“我问的是天气”。呃，所以，我不知道。呃，

我对这个并不太兴奋，但它肯定比我们目前拥有的要好。这本应该在很多很多个月前发布，但由于Alexa Plus在测试期间出现幻觉和错误答案的问题，导致发布被推迟，并面临早期挑战。然而，亚马逊首席执行官安迪·贾西强调了生成式AI的变革性影响，

使这种进步成为可能。是的，米歇尔说Alexa和Siri都毫无用处。别担心，米歇尔。看起来Siri可能要到2027年才会变得有用。所以稍后几分钟我们将详细介绍这一点。好吧，说到语音助手，

一个新的语音助手正在接管网络。是的，整个周末，甚至今天早些时候，当我在网上搜索以向大家带来最新消息时。Sesame，这个AI聊天机器人，他们的聊天机器人名叫Maya，因其以不可思议的真实感模仿人类对话的能力而占据了很多头条新闻。

呃，所以Sesame的Maya旨在跨越对话式AI的恐怖谷。呃，该公司在演示中展示了Maya，强调其复制人类语音和互动能力，使其感觉更像是在与真人交谈，而不是与聊天机器人交谈。是的，很多人喜欢，我实际上在网上尊重地关注，呃，

周末都在为Sesame和Maya疯狂。所以Maya以其对话流畅性和真实性给许多用户留下了深刻的印象。在测试对话期间，你现在就可以进行测试，你甚至不需要帐户。它显示它如何做到这一点。我该如何表达呢？如果你不是一个沉重的对话用户，你可能会对这个新的Sesame语音助手印象深刻。好吧。

它更神经化。它的响应延迟非常低。语音听起来更逼真，更人性化。对我来说，这肯定很疯狂。

我绝对讨厌它。我可能不会使用它。对不起，Sesame。你不会很快赞助Everyday AI节目。它很棒吗？是的。它有非常高的上限吗？当然。好吧，我不知道。对我来说，我在测试这个新的Sesame AI语音模型时注意到的一件事，我很想知道，直播观众，你们中有谁在周末或今天早些时候使用过这个吗？它，它，

似乎没有很好地回答你的问题。我认为很多人被许多AI语音公司提出的低延迟说法所迷惑，因为通常你提出的问题的初始响应只是一种延迟策略。

对。或者它只是说，我的意思是，就像人类一样，他们会嘲笑你的问题，或者他们会说，“哦，这是一个好问题”。对。那么它实际上是低延迟的吗？我的意思是，既是也不是。对。我认为他们实现了这种即时的从人到，你知道，AI对话的速度。

就像它几乎可以立即回应你一样，因为它只是用一些无用的、不必要的、无关紧要的话来回应你，对吧？这只是一个小的俏皮话，给自己争取时间来回答你的问题。此外，至少对我来说，我发现这个Sesame的默认设置非常令人沮丧，因为至少对我来说，当我与AI语音助手交谈时，我不想听废话。

我不想。这可能让我成为少数人，对吧？也许人们想要，你知道，这个，我不知道，无关紧要的俏皮话和故事。不，我想要事实。我想要统计数据。我想要速度。我不想有任何，我不想有任何废话，对吧？所以如果你像我一样，也许更喜欢与，你知道，

有时是机器人而不是人类交谈，对吧？就像，“伙计，我只需要事实，统计数据，而且我想要速度”，对吧？所以至少对我来说，Sesame并不是真正有吸引力，可能不是我会经常使用的东西。它似乎在事实回忆方面也遇到了困难。

对吧？一些简单的事情。我总是做的一件事就是说，“告诉我关于Everyday AI播客的事情”，对吧？它没有，对吧？它应该在训练数据中，对吧？因为我们已经有数百集节目可以追溯到2022年，对吧？对吗？我们已经做了这么长时间了吗？不，2023年。所以它在事实回忆和其他一些我尝试的事情上遇到了困难，但它是免费的。自己去试试，让我知道你们的想法。

所以Sam，Samuel说Maya的情商是下一级。这是真的。所以如果你更注重情感，你知道，如果你想从AI模型中获得一些情商益处，而不是仅仅是智商，我已经谈到过这个了。我更喜欢智商。情商非常好。你知道，它非常好。George说它感觉，它非常感性，但声音非常好。是的，我同意。我同意这些，同意这些。

同意这些观察。呃，是的。Nisiani Nisiani知道那是我作为前记者的本能。是的。每当有人发布一些东西时，我都会想，“呃，我不确定这个。让我去测试一下。”呃，我会告诉你们它是什么样的，但是，呃，我仍然认为它非常令人印象深刻。你可以去，去看看。好吧。我们最后几条AI新闻。所以苹果宣布了5000亿美元的投资，呃，在美国，包括在德克萨斯州的一家服务器工厂。呃，

据报道，苹果宣布将在未来四年内向美国投资5000亿美元，这将包括在德克萨斯州新建一家AI服务器工厂，据路透社报道，这将创造20,000个全国范围内的研发工作岗位。这项投资将涵盖多个领域，包括从美国供应商处采购、制造扩张以及为Apple TV制作内容。

据报道，苹果将与富士康合作，在休斯顿开发一个25万平方英尺的工厂，该工厂将为其AI驱动的服务组装服务器。这些服务器目前在美国境外制造，标志着向国内生产的转变。

该公司还计划将其先进制造基金从50亿美元增加到100亿美元，其中大部分将用于在亚利桑那州的台湾积体电路制造厂生产先进硅片。

所以苹果的大部分产品都在海外组装，但许多组件（如博通和Skyworks Solutions的芯片）都在美国制造。作为这项投资的一部分，苹果将在密歇根州启动一所制造学院，为中小型企业提供项目管理和制造流程优化的免费课程。嘿！

关于AI语音助手的更多新闻，这些助手显然不会很快变得超级智能。好吧，至少Siri不会，对吧？我们刚刚听说Alexa正在变得更智能，这将在未来几周内向付费亚马逊用户推出。但是你可能要等到2027年才能从苹果那里获得真正智能的Siri和苹果智能。是的，先生。

我没有说错。新的报告。

来自彭博社的报告，总是很及时，表明苹果期待已久的Siri大修（被描述为现代化的对话版本）现在据报道被推迟到2027年。所以，是的，我们今天早上可能在直播中有人，我认为迈克尔说我们实际上可能在获得真正智能的Siri之前获得AGI。升级后的Siri预计将与iOS 20一起推出，它将生成式AI方法与助手的经典功能相结合，以获得更先进、更无缝的体验。我认为经典功能只是意味着一个不太有用的助手。

所以，虽然苹果计划在iOS 18.5中发布Siri的有限LLM版本，这很快就会到来，但据报道它将作为一个单独的模型运行，并且达不到用户期待和苹果正在营销的重大改进。好的。

所以彭博社的报告指出，Siri的真正升级将在19.4开始成型，但要到iOS 20才能完全成熟。哇。增强的Siri预计将具有上下文理解和改进的自主性，可能会与目前主导市场的先进AI助手相媲美。但那是今天的AI助手，对吧？是的。

我不，我完全不明白苹果和他们的苹果智能是如何如此严重地搞砸了的。我不知道，还有什么委婉语来形容搞砸，但要糟糕10倍？

苹果拥有所有资金，所有资源。他们知道这项技术的发展方向。他们与OpenAI和ChatGPT合作。有一个ChatGPT Siri集成。所以他们必须从这种合作关系中获得大量数据。然而，2027年，对吧？好吧，我明白了。所以我的一个想法是，好吧，最好……

少许承诺，多做一些，对吧？然后很多公司都说，“我们明天将发布世界上最好的模型。”然后它需要三年时间。我明白了。我只是不能理解，苹果为什么落后这么多，至少在将所有这些东西推向市场方面是这样。是的，我认为苹果是将隐私和安全放在首位的领导者之一，对吧？但是

我不知道，代价是什么，对吧？如果其他公司的智能手机与苹果一样直观，对吧？

三星有很棒的手机，对吧？苹果之外有很多很棒的手机，但我不知道。也许只是因为苹果的界面非常简单。当我拿起三星手机或其他手机时，如果我在百思买浏览，我会想，“我甚至不知道如何使用这个东西”，对吧？我不知道。也许苹果故意这样做。也许他们让……

所有iPhone用户，他们让它变得如此简单，以至于似乎不可能拿起并使用非苹果设备。也许这就是我们在这里看到的。好吧。我们最后一条AI新闻。OpenAI已经推出了其最新的模型GPT 4.5。

这是该公司最新、最大的AI语言模型，它提供了改进的写作技能、更好的世界知识和更精致的对话体验。所以GPT-4.5是苹果最大的模型，但它被描述为迄今为止知识最丰富的模型。

它现在作为研究预览版提供给ChatGPT Pro用户。好吧。随着更广泛的访问权限在未来几周内推出，我确实认为大约到3月中旬，ChatGPT Plus用户将能够访问这个新的模型GPT 4.5。我知道其他……

第三方提供商，如Perplexity、Poe等等。所以，如果你有类似Perplexity、Poe、u.com等的付费订阅，你可能现在就可以以非常有限的能力开始使用这个4.5模型。你不需要等待OpenAI将其推广到其他层级。但他们确实表示，它将在未来几周内向大多数付费层级推出。

但是现在，如果你正在使用chatgpt.com，对吧？所以如果你正在前端使用chatgpt，那么只有当你使用每月200美元的专业版计划时，你才能访问4.5。

所以，呃，说到早些时候的情商，这就是这个模型闪光的地方。是的，我说，啊，我不太需要它，但是你知道，在我使用GPT 4.5的过程中，我确实看到了一个感觉更自然、更直观、更人性化的模型的好处，对吧？因为这就是重点。OpenAI直接说，这不是一个前沿模型。呃，

这有点令人惊讶。他们确实说，嘿，重点是，我用两个词概括了。我希望苹果或对不起，OpenAI能这样概括。所以你可以去听。我在第472集（我相信是星期五）中介绍了这一点。我说他们试图做的是让它

更可靠，更贴近人心。这就是它的含义。在可靠性方面，OpenAI分享了一些基准和指标，这些指标显示幻觉率正在下降，并且基本上它的知识率正在上升。

所以它比过去的模型（如GPT-4.0甚至它们的推理模型03、01、01 Pro等）更可靠。它更可靠，这非常重要，对吧？我认为许多公司和个人一开始甚至不使用这些模型的主要原因之一就是他们觉得他们不能信任它们。所以它不是没有幻觉，对吧？但它在OpenAI的一些基准测试中得分要高得多，

在仅仅是正确的事情和幻觉方面得分要高得多，而且幻觉率大幅下降。这是第一点。然后第二点，它更贴近人心，对吧？有时当你与ChatGPT交谈时，对吧，无论是口头还是打字，对吧？让我们只说打字，因为现在语音模式仍然由GPT 4.0提供支持，而不是新的4.5，但它确实感觉更人性化。所以重点是，

如果你是一个喜欢使用ChatGPT作为朋友、人生导师、治疗师之类的人，那么这对你来说是不二之选，对吧？尤其是在它推广到每月20美元的ChatGPT Plus计划时，你会爱上它的。

对于其他人来说，我实际上已经开始看到拥有这个，你知道，同样智能的情商大型语言模型的价值的地方是作为商业战略家，对吧？这是我经常使用大型语言模型做的事情。嗯，你知道，我已经注意到OpenAI的最新模型GPT 4.5在某些时候做得更好，它能更好地理解我想要表达的意思，

但也许我没有表达出来，对吧？有时我可能只是给ChatGPT大量数据，并要求它提出建议，对吧？要求它提供策略。你应该始终使用的一件事，我不在乎是什么模型，

使用。你应该始终使用模型来质疑自己，对吧？来反驳你正在做出的决定，因为如果你这样做，我认为你的决定，你要么必须为它辩护并使其变得更好，要么你会考虑你之前可能没有考虑过的事情。在这种情况下，GPT 4.5远远领先于其他人。所以在某些用例中，我认为它很棒。传统的基准测试，这个东西很一般，对吧？

字面意思就是，我的意思是，是的，与他们的GPT-4.0模型相比，各方面的基准测试都有所改进，但这个东西并没有超出图表，我认为很多人都在期待这一点，对吧？但这是关于这个模型的另一件事。

这是未来模型的基础，对吧？就像Anthropic采用这种混合方法一样，对吧？他们实际上是将转换器模型与推理模型结合起来。OpenAI也表示这是他们的未来。所以当我们得到，引用一下，当我们得到GPT-5时，它将成为一个混合模型，就像现在的Cloud 3.7 Sonnet一样。我认为这是人们忽略的一点

这不是OpenAI说的。他们说，“这不是一个前沿模型。”它不应该超出图表。这是一个新的、新鲜的模型，它理解人类，我认为这非常重要，因为我认为未来的推理模型，即使它们可能不会被命名，对吧？基本上，OpenAI说，是的，将来它们都将成为一个模型。但是推理模型，对吧？

由于这个更强大、更强大的GPT 4.5模型，在OpenAI未来版本的产品中将得到指数级的提升。这就是这些模型的构建方式，对吧？O系列模型是基于4.0构建的，对吧？所以现在当你认为，当你拥有一个更……

人性化的4.5模型时，想象一下这对未来这些推理模型或混合模型意味着什么。我认为这将非常令人印象深刻。就像我说的那样，在为专业用户推出之后，根据OpenAI及其发布公告，GPT 4.5将扩展到Plus和团队用户。

所以这可能就在本周。我猜可能是下周。基本上，OpenAI说，“伙计，我们的GPU用完了。我们无法提供这项服务”，我认为这很有趣，对吧？还有API定价。

这很疯狂。很疯狂，对吧？你知道，我们有点，你知道，抱怨或，你知道，对Cloud 3.7 Sonnet没有降低价格而翻白眼，对吧？但是通过API获得GPT 4.5的价格却很疯狂。

高得惊人，对吧？每百万输入75美元，每百万输出150美元。这太疯狂了。与GPT-4.0相比，好吧，我们来看GPT-4.5，每百万输入75美元，GPT-4.0，2.50美元。

对。这太疯狂了。然后在输出方面，GPT 4.5，150美元。好吧，GPT 4.0，10美元。所以输出价格高出15倍。在输入方面，我认为那是多少，大约是25倍或30倍？是的，贵30倍。

所以API价格高得离谱。所以我猜也许OpenAI一旦能够做到，可能会降低价格。他们说他们正在努力获得更多GPU。我相信成本最终会下降，但也许他们说，“嘿，现在有一些人，有一些公司和客户，我相信他们会在这个新模型的关联性和可靠性中找到价值。”

所以，哇，它贵得令人难以置信。好吧，让我们快速地、非常快速地回顾一下本周的头条新闻。首先，Anthropic发布了Claude 3.7 Sonnet，这是世界上第一个AI混合模型。谷歌联合创始人谢尔盖·布林正在推动谷歌更加努力地工作，以赢得AGI竞赛，据报道他要求员工更加努力地工作

长达60个小时，甚至更多。据报道，Meta正在开发一个独立的AI应用程序，以与OpenAI和谷歌竞争。顺便说一句，Sam Altman在Twitter上对此做出了回应，并说，“也许我们会做一个社交媒体应用程序。”微软Copilot，太疯狂了。

表现出色，你知道，为免费用户提供免费的无限语音和高级Think Deeper功能。它使用的是OpenAI的O1模型。Eleven Labs推出了Scribe，这是一个独立的语音转文本模型，支持99种以上的语言。然后亚马逊否认了Anthropic的AI为其新的Alexa Plus功能提供支持的报道，并表示是他们自己的内部模型。

下一个新闻故事，互联网正在为提供语音功能的新Sesame AI聊天机器人而疯狂。我，还不错，但自己去试试吧。它是免费的，可以试用。苹果宣布了一项5000亿美元的美国投资计划，其中包括一家将在德克萨斯州创造20,000个就业岗位的AI服务器工厂。

彭博社的一份报告显示，我们可能要到2027年才能获得苹果真正现代化的Siri。最后但并非最不重要的是，OpenAI推出了GPT 4.5，这是一个真正强调关联性和可靠性的模型。

哇。那是很多AI新闻，你们。我希望这对你们有帮助。如果是这样，请分享这个，对吧？我知道你们中的一些人Everyday AI，就像你们的秘密一样。这是你们的秘诀。这是你成为公司里最了解AI的人的方式。

请分享这份爱，对吧？人们总是说，“嘿，Jordan，我该如何帮助？”点击转发按钮。这有帮助，对吧？如果你在收听播客，请关注播客。给我们留下评价。告诉别人这件事，对吧？你可以发送单个剧集。请尽可能多地分享这个。我知道AI可能很棘手。很难跟上。这可能很可怕。我和我们的团队花费10%的时间

无数个小时试图让你们保持最新状态，这样你们就可以自信地发展你们的公司和职业生涯。说到这一点，如果你还没有这样做，请务必访问youreverydayai.com。去听听我们的2025年AI预测和路线图系列。那是第443到447集。它们太棒了。

我告诉你，很棒，很棒。好吧。感谢收听。请访问youreverydayai.com订阅我们的时事通讯。谢谢。我们明天和每天都会回来，带来更多Everyday AI。谢谢你们。

今天的Everyday AI就到这里了。感谢您的收听。如果您喜欢本集，请订阅并给我们评分。这有助于我们继续前进。更多AI魔法，请访问youreverydayai.com并注册我们的每日时事通讯，这样您就不会被落下。去打破一些障碍，我们下次再见。

EP 473: Claude 3.7 drops, OpenAI releases GPT-4.5 and more AI News that Matters 53:07 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 473: Claude 3.7 drops, OpenAI releases GPT-4.5 and more AI News that Matters