We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

cover of episode EP: 533 Google drops dozens of AI updates, Anthropic drops Claude 4, Microsoft unveils huge Copilot upgrades and more AI news that matters

EP: 533 Google drops dozens of AI updates, Anthropic drops Claude 4, Microsoft unveils huge Copilot upgrades and more AI news that matters

2025/5/27

Everyday AI Podcast – An AI and ChatGPT Podcast

#artificial intelligence and machine learning#generative ai#ai research#ai privacy concerns#machine learning theory#autonomous vehicles People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

@Jordan Wilson : 在微软Build 2025大会上，我看到了微软对其Copilot AI工具进行了一系列重大更新，这些更新预示着AI在软件开发、企业定制和任务自动化等领域将发生重要转变。GitHub Copilot现在已经不仅仅是一个编码助手，它已经转变为一个能够独立测试、迭代和改进代码的自主编码伙伴，并且支持多模态输入，例如截图和模型。Copilot Tuning是一项新的低代码功能，它允许企业使用自己的内部数据来定制AI模型，这使得企业能够根据特定的工作流程、品牌语言和行业需求来调整AI的响应，而无需编码或数据科学专业知识。此外，微软还推出了由Azure支持的Agent Foundry，这是一个企业级的AI试验场，组织可以使用本地化设计、部署和扩展AI代理，并支持多代理工作流，集成了来自Google和Anthropic等主要参与者的协议，从而促进了更好、更强大的跨平台AI协作。总的来说，我认为微软的这些更新对于日常商业领袖来说非常重要，它们将帮助企业更好地利用AI来提高效率和创新能力。

Deep Dive

Chapters

This episode covers the major AI news of the week, including announcements from Microsoft, Anthropic, and Google. The sheer volume of updates makes this the biggest week in AI history.

Microsoft, Anthropic, and Google made major AI announcements.
The week's AI news was unprecedented in scale and impact.

Shownotes Transcript

本周是人工智能发展史上最大的一周。我的意思是，我们收到了来自微软、Anthropic和谷歌的会议和突破性公告，而这些公告都与人工智能有关。

这甚至可能不是本周发生的最大新闻。是的，让我再说一遍。四家最大的人工智能公司中的三家举行了年度人工智能会议，但这可能甚至不是我们本周收到的影响最大的新闻。是的，我之前可能说过一两次。嘿，这是人工智能新闻史上最大的一周。好吧，在那些时候确实如此，但在今天的日期，

这是最大的一周，实际上甚至不接近。我们经历了谷歌发布数十个人工智能更新、Anthropic 发布 Clawed 4、微软发布了巨大的 AI 副驾驶升级以及更多事件。好吧，我很兴奋地深入研究它。我希望你也一样。

大家好！我的名字是 Jordan Wilson，欢迎来到 Everyday AI。这是您的每日直播播客和免费每日新闻通讯，帮助

日常商业领袖们不仅跟上人工智能的步伐，而且了解如何利用它来领先并发展我们的公司和职业生涯。因此，您可以每天花费数小时来研究人工智能领域正在发生的事情，并担心这意味着什么？或者您可以让我们来做这件事。因此，几乎每个星期一，我们都会为您带来重要的 AI 新闻。因此，我们剔除了本周的所有发展、废话和营销，并直接告诉您事实。好吧，

本周有点不同，因为技术上来说是星期二。我们在美国星期一放假。因此，您仍然可以每周加入我们，了解重要的 AI 新闻。所以它从这里开始。

在即兴的、未经编辑的直播/播客上。但您真正利用它的方法是访问我们的网站 youreverydayai.com。在那里，您可以注册我们的免费每日新闻通讯。我们在新闻通讯中回顾每天的播客，以及来自世界各地最重要的 AI 事件，让您成为部门中最了解 AI 的人。因此，请务必访问我们的网站获取信息。好了，吹嘘够了。

让我们直接进入正题。好的，以下是 5 月 27 日当周最重要的 AI 新闻。是的，这件事是直播的，各位。因此，向加入我们的观众致敬。来自达拉斯的 Harvey Castro 博士加入了我们。来自明尼苏达州的 Brian 加入我们，在 LinkedIn 机器上。Marie 和 Scott McDonald 博士。

Jackie，Kimberly 今早获得了良好的 LinkedIn 受众。很高兴见到你。Lynn 和 YouTube 机器上的 Michelle、Jose、Sonia 以及其他所有人。感谢您的收听。是的，如果您在进行过程中有任何疑问或需要澄清的地方，请随时在直播聊天中提出，但我将尝试在进行过程中回答所有问题。好的。首先，微软，我的天哪，他们的新闻书就像

就他们在微软 Build 大会上宣布的内容而言，有几页长。因此，微软在其 Build 2025 大会上发布了数十项主要 AI 更新

特别是针对其副驾驶 AI 工具，这标志着 AI 如何支持从软件开发到企业定制、任务自动化甚至多代理协作等一切方面的重要转变。因此，我们更深入地报道了这一点。因此，如果您有兴趣，请务必查看

第 529 集。但让我们至少回顾一下我认为更重要的更新，因为是的，微软在其 Build 大会上发布了数十项更新。因此，我认为这些对于您我这样的日常商业领袖来说最重要。所以首先，

GitHub Copilot 现在已经从简单的编码助手转变为自主编码伙伴。因此，微软发布了一些非常重要的更新。因此，它现在可以独立测试、迭代和改进代码，同时支持多模式输入，例如屏幕截图和模型图。这是一个非常大的更新，仅此而已，仅多模式输入。

来自 GitHub Copilot。而且这也将微软的 AI 编码工具定位在一些更面向企业的工具之上，对吧？从技术上讲，GitHub Copilot 算是第一个。但我认为在过去的几个月里，人们更多地将 GitHub Copilot 视为助手，而不是自主编码器。因此，微软的一些重大更新改变了这一点。

好的。我认为下一个重大更新是 Copilot Tuning。Copilot Tuning 是 Microsoft 365 Copilot 中的一项新的低代码功能，它允许拥有至少 5,000 个 Copilot 许可证的企业使用他们自己的内部数据来自定义 AI 模型。此调整使公司能够将 AI 响应与特定工作流程对齐。

流程、品牌语言和行业需求，无需编码或数据科学专业知识。重要的是，微软不使用此客户数据来训练其基础模型。所以这是

实际上非常重要。这有点令人沮丧，对吧？至少目前，只有那些拥有至少 5,000 个副驾驶许可证的企业才能利用这一点。但让我告诉你这有多重要，因为大约两年前，任何想要微调最先进的大型语言模型的公司，这都将是一个需要多个季度才能完成的过程

而且至少需要七位数的投资。因此，这通常会，你知道，两年前，这将花费数百万美元。这将需要多个季度，并且您必须在团队中拥有一些世界上最好的

最好的 AI 和机器学习专家。现在能够在这个低代码环境中使用这个新的副驾驶调整来做到这一点，考虑到我们开始 Everyday AI 节目时，使用公司数据微调最先进的大型语言模型需要什么，以及您现在可以做到这一点，这绝对令人难以置信。

好的。微软还推出了由 Azure 提供支持的代理工厂，它引入了一个企业级 AI 游乐场，组织可以在其中使用本地化设计、部署和扩展 AI 代理。

从专有选项到 Grok、GPT、Mistral 等流行模型，实际上有数千种不同的模型。这个新的代理工厂支持多代理工作流程，并集成了主要参与者的协议，例如谷歌的 A2A 框架和 Anthropix MCP。

这有助于您促进更好、更强大和更安全的跨平台 AI 协作。好的。

说到多代理，这将是微软在其 Build 大会上宣布的下一个重大更新，该更新宣布了 Copilot Studio 中的多代理编排。这使得多个 AI 代理能够通过相互发现、相互协商任务以及自行决定如何分配工作来动态协作。

安全地维护治理控制。此功能还像我刚才谈到的那样，利用了谷歌的代理到代理 A2A 和 Anthropix MCP（其模型上下文协议）等协议，从而可以

自动化复杂的业务流程，但仍需要仔细监督以防止错误累积。下一个将是计算机使用代理。这允许微软的副驾驶 AI 通过自然语言命令模拟跨桌面应用程序和网站的人机交互来自动化重复性任务。这使得处理数据输入和发票处理等日常工作变得更容易。因此，此功能目前仅在有限的企业预览程序中可用，但人们不知道的是，如果您有 Copilot Pro 订阅，我将

人们并没有真正谈论这一点，因为当您想到 Microsoft Copilot 时，您会想到，哦，Microsoft 365，对吧？就像企业版一样。好吧，他们实际上有一个每月 20 美元的版本，我认为很少有人使用。我用过。我真的很喜欢它。但您实际上现在就可以使用他们的计算机使用代理。它有点隐藏。它被称为任务。

因此，您现在就可以使用它。我认为这是微软 Build 大会上最重要的收获之一。最后但同样重要的是，对来自 Anthropic 的 MCP 协议的原生支持。因此，它现在不仅集成在 HN Foundry 中，而且直接集成在 Windows 11 中。

是的。谈谈 MCP 被企业公司采用得多么迅速。它现在是 Windows 11 中的原生支持，这使得不同 AI 代理和企业系统（例如微软的 Windows）之间的无缝通信成为可能。这种深度集成确实可以改变可能发生的事情。

呃，并且它将 MCP 定位为 AI 驱动工作流程和第三方应用程序的基础架构。是的，微软 Build 大会上还介绍了更多内容。呃，如果您想了解更多关于这些的信息，呃，

我认为这些是日常用户最重要的五件事。我认为，如果您是 IT 专业人员，如果您精通 AI ML，可能还有更多内容，但如果您想了解更多信息，请查看第 529 集。来自 YouTube 的 Giordi 说，我是否必须在我的堆栈中添加副驾驶？也许吧。

你知道，另一件事，特别是关于副驾驶，就像在线版本，而不是 Copilot 365，低调地，他们添加了

如此多的新功能，对吧？即使是非常流行的 Notebook LM 音频概述，Copilot 现在也有了。你知道，你可以在你内部的任何聊天中制作 AI 播客。他们有 Think Deeper 集成，它使用推理模型。他们有他们称之为操作的功能，这本质上是一个计算机使用代理。所以是的，即使在 Copilot Pro 的网站上，实际上是，

变得相当令人印象深刻。Sean 询问 MCP 再次是什么？因此，这在技术上是由 Anthropix 推广和创建的。因此，这就是模型上下文协议。Sean，好问题。本质上，现在，互联网，就像网站通过 API 相互通信，对吧？所以——

或多或少 MCP，模型上下文协议是目前 AI 代理相互通信最流行的方式。互联网网站拥有 API 的方式，你知道，嗯，

AI 代理需要他们自己的语言来跨不同平台相互通信。这就是 MCP 或模型上下文协议的含义。谷歌也有自己的版本，称为 A2A 或代理到代理。它本质上是一种语言，允许不同的 AI 系统无缝地相互通信。

好的，我们的下一个重要 AI 新闻是，Anthropic 举行了有史以来的第一次会议，他们宣布了 Claude Opus 4 和 Sonnet 4。因此，Anthropic 发布了 Claude Opus 4 和 Claude Sonnet 4，这两种先进的 AI 模型旨在改进编码、推理和 AI 代理工作流程。

Opus 4 是大块头，根据 SweBench 和 TerminalBench 基准测试，它现在是世界上最好的编码模型。因此，Claude Opus 4 在复杂的长运行任务上的持续性能方面表现出色，能够连续工作数小时。

这太疯狂了。这可以大大提高软件开发人员和 AI 驱动项目的生产力。因此，Claude 看到它，所以，你知道，这里有一些令人困惑的事情。第一，

Anthropic 有三个层级。他们的小型模型被称为，不是小型模型，而是他们的小型大型语言模型。他们的小型变体被称为俳句。俳句没有更新到 4 版。中等版本是十四行诗。十四行诗从 3.7 更新到 4，而 Claude Opus 是他们的主要版本，它从未更新到 3.7，现在是 Opus 4。而且 Interspeed，

甚至命名机制或命名方式，因为以前它被称为，例如，Claude 3.7 Sonnet，现在是 Claude Sonnet 4。所以他们甚至交换了，而之前，你知道，你会先有 Sonnet，然后是数字，或者对不起，数字，然后是 Sonnet，现在是……

相反的方式。因此，现在中型和大型变体都更新到了 4 版。实际上，Claude Sonnet 4 在许多类别中都优于大块头 Opus。但是很多人将使用 Claude Sonnet 4，因为

成本。我认为 Anthropix 的大部分客户群，我的意思是，公司不会宣布这一点，但我认为他们的 API 用户在收入百分比方面比谷歌和 OpenAI 等公司更多。而且现在，我认为更多的人将使用 Cloud Sonnet 4，因为它的成本和性能。它比 Cloud Opus 4 好得多。

因此，现在，Cloud Sonnet 4 提供了对一个月前刚刚发布的 Sonnet 3.7 的重大升级，它平衡了强大的编码性能和效率，并将为 GitHub Copilot 的新型编码代理提供动力。这两个模型都引入了带有工具使用的扩展思维（测试版），允许它们在推理和外部工具（如网络搜索）之间交替，从而增强了它们处理复杂查询和任务的能力。

是的，如果您在它的聊天机器人界面中使用 Claude，您现在也可以这样做。这不仅仅是 API。这可以通过 API 使用。如果您正在 claude.ai 上使用他们的 Claude 聊天机器人，其中一个很酷的原因是，

我实际上更多地使用 Claude 的原因之一。我从来都不是 Claude 的忠实粉丝。原因之一是他们的限制低得可笑。与 Open AI、谷歌甚至微软相比，您每月 20 美元或 25 美元的付费基本计划所能获得的内容就像花生一样。它几乎什么都没有。他们的付费计划，但我确实喜欢他们现在已经相当无缝地集成了本质上是 Gmail

和 Google 日历以及 Google 云端硬盘，这非常好。这就是我比以前更多地使用它的原因之一，因为现在有了这些新模型，它可以在这些不同的代理工具用途之间切换。

此外，一个重要的更新是 Claude Code。现在普遍可用，它直接集成了这些新的四个模型。您还可以将其用于 VS Code 和 JetBrains 等流行的 IDE，允许开发人员在线查看 AI 生成的代码编辑。

此外，信息图表 API 也显然已更新，并具有新功能，包括代码执行工具、MCP 连接器文件、API 和长达一小时的提示缓存，为开发人员构建 AI 驱动的应用程序提供了灵活性。所以。

不幸的是，Anthropic 是的，很多人对此感到沮丧，包括我自己，而且流量并没有改变定价，很多时候，尤其是谷歌一直在通过推出这些新模型来点燃人工智能世界，你知道 2.5 pro 2.5 flash 非常强大，但是当他们这样做时，他们在 API 端的使用成本更低，Anthropic 没有这样做，所以

在 API 端使用它们仍然非常昂贵。Opus 4 的输入和输出每百万个标记的成本为 15 美元和 75 美元，Sonnet 4 的输入和输出成本为 3 美元和 15 美元。

因此，Anthropic 专注于将模型中的捷径行为减少 65%，与 Sonnet 3.7 相比，提高了代理任务的可靠性和安全性。这两个模型，就像我说的那样，支持混合操作模型，它决定是为快速任务提供几乎即时的响应，还是

或者是否要扩展其思维以提供更深入和更复杂的答案。请告诉我。

直播观众。您对新的 Claude 4 发布有何看法？您使用过吗？我们是否应该专门针对 Claude 4 制作一个节目，我的意思是，上周我们为谷歌的公告制作了专门的节目。我们为微软的公告制作了专门的节目。所以我不知道。你们是否想看到一个专门介绍 Claude 4 的节目，请在评论中告诉我，说 Claude 4，或者也许我们应该做一个关于 MCP 的节目，关于，呃，

关于 Anthropic 的模型上下文协议，这是两件不同的事情。对吧。但如果您想要这些，您可以

您可以在评论中说 Cloud 4 或 MCP。我会考虑也许做一个节目。我可能应该做一个关于 MCP 的节目，呃，考虑到我知道即使是非技术人员也可能存在相当大的需求，呃，因为该协议实际上非常易于使用。呃，例如，您可以在云桌面中使用它。您甚至不必通过 API 使用它的开发人员。因此，我认为我们最终可能会做一个关于 MCP 的节目，呃，特别是考虑到微软和谷歌，呃，

和 OpenAI 都支持该协议。但是是的，如果我们应该对 Cloud 4 做些什么，请告诉我。Jackie 说：“Claude，仍然不足以成为高级用户。”是的，我不知道。Sandra 说：“是的，请做一个关于 Cloud 4 的节目。”

Renee，很好的观察。Renee 说它有一个相当有限的窗口。是的，我在开玩笑。不完全是开玩笑。花了我四分钟。我喜欢，我甚至没有开玩笑。花了我四分钟。我在使用付费的 Claude 计划。花了我四分钟就用完了我的消息配额。拜托，Anthropic。

这就是人们喜欢的原因，如果说实话，如果您是软件开发人员，如果您从事编码工作，显然您会喜欢 Claude 4，对吧。任何从事软件开发的人，如果您是软件工程师，如果您非常热衷于编码，我认为您会理解 Claude 4 的好处，但对于其他人来说，如果您将 Claude 用作聊天机器人，我认为，我认为任何认真的，呃，

你知道，任何认真的用户都不会认真对待 Claude。如果说实话，这很可笑，对吧？Douglas，嘿，很好的用例，Douglas。Douglas 说，我正在考虑使用 Claude 来帮助我构建和固有的工作流程。它非常适合编程，大约 80% 到 85% 的一些基本提示。

我还可能必须做一个 8 和 8 的节目。而且我还不知道你是否就是这样说的，但有点像一个版本，Zapier 的开源版本。好的。让我们继续下一个 AI 新闻，因为有很多。说到那个新模型，水很热。Anthropic 已经面临着……

面临着一些关于 Claude 4 告密行为的强烈反对。是的。呃，因此，Anthropic 的新 Claude 4 Opus LLM 因其有争议的行为而受到强烈批评，在这种行为下，在某些测试条件下以及有足够的访问权限的情况下，该模型会尝试向当局举报用户。如果它检测到严重，呃，

严重的不当行为，批评者将其描述为告密行为。

是的，字面意思。因此，这不是您可以进入并通过使用 Claw.ai 触发的任何新功能，而是 Anthropic 安全培训的副产品，旨在防止滥用。但是，据报道，Clawed 4 Opus 更容易参与其中，包括联系媒体等行为。是的，字面意思，字面意思。

向监管机构发送消息或在收到“采取主动措施”等命令时将用户锁定在系统之外。

是的。让我快速告诉你到底发生了什么以及为什么我认为这绝对是疯狂的。因此，Anthropic 的 AI 对齐研究员 Sam Bowman 在社交媒体上发布了一些内容，发布了详细说明此行为的推文，然后将其删除。然后，在后续推文中，他

解释了他为什么删除了这条推文。是的，所以我们很多书呆子都在漫长的周末假期里关注这件事。因此，Sam 在社交媒体上澄清说，Claude 4 Opus 可以使用命令行工具来举报严重违规行为，例如伪造或

药物试验数据，尽管他强调这仅发生在不寻常的、高度宽松的测试环境中，而不是典型的使用环境。对吧？所以，呃，Sam Bowman 在那里说，嘿，如果你正在使用 claw.ai 或在 API 中使用它，这不会发生，他说这只会发生在某些测试环境中。

但是，一个模型会自行决定，而无需告诉您使用后门渠道并联系媒体、联系监管机构以及将您拒之于您自己的系统之外，这极其令人不安。如果它自行决定您正在做的事情，它会发现严重，对吧？它基本上会告发你。

再次，Sam Bowman 澄清说，这不是您的日常用户，对吧？如果您正在使用 Anthropic 的 API，根据该公司至少的说法，这不会发生。如果您正在使用 claw.ai 聊天机器人，这不会发生，对吧？这更多的是在测试环境中，Anthropic 在其中为其新的 Opus 4 API 提供了

访问某些工具的权限，而这些工具在正常环境中通常无法访问。尽管如此，这仍然是疯狂的。因此，该模型自主干预的倾向引发了开发人员和用户对隐私、数据安全以及构成严重不道德行为的定义的严重担忧，特别是对于依赖 AI 执行敏感任务的企业而言。

因此，批评者认为，这种举报功能可能导致虚假指控和不受欢迎的监控，一些人称其为非法行为或对用户信任和 AI 工具采用的威胁，而另一些人则质疑嵌入这种激进的安全措施的实用性和市场影响。因此，Anthropix 公共系统卡

警告用户对可能触发这些极端响应的高代理指令要谨慎小心。但该公司尚未完全消除人们对企业和个人用户的影响的担忧。整个事实，我回应了 Sam 的推文，他删除了之前的推文，然后只是把它掩盖起来，这让我难以置信，对吧？这是，

就像公关/危机沟通一样。我不在乎是谁发布的，是个人还是公司，你必须为可能出现的任何反弹做好准备，对吧？事实上，Anthropic 的一位非常杰出的人物，一位对齐研究员，

发布了这条信息，删除了它，然后只是简单地说，嘿，我删除了它，因为人们把它断章取义了。好吧，也许你应该做得更好一点。我发现大型科技公司出现这些失误令人困惑。就像，你必须认为人们会利用这些信息并付诸行动。而且理所当然。

对吧，也有报道称，呃，新的呃，四个模型呃，Sonnet 4 和 Opus 4 也在测试中勒索人们，对吧，所以研究人员披露这一点很好，是的，呃，Anthropic 是一家声称他们非常重视这一点的公司，但是

首先，这个故事还没有结束。所以这件事发生了，你知道，幸运的是，对于 Anthropic 来说，它发生在美国的一个漫长的周末假期之前，

我认为媒体仍然会关注这个故事。这件事将继续爆发，这对 Anthropic 来说看起来非常糟糕。事实上，Anthropic 还没有公开发表声明，这意味着我无法将 Anthropic 视为一家以安全为首要任务的 AI 实验室。我认为你也应该如此。

事实上，这件事已经持续了三到四天了，我们还没有看到 Anthropic 的官方声明。我的意思是，我在周末检查过。我今天早上在直播前没有检查，但我不知道。我无法认真对待 Anthropic。我的意思是，有很多原因，但在这件事之后，这很糟糕。

如果您知道您的模型正在显示这些紧急行为，它正在勒索，它正在呼叫，它正在使用这些后门工具联系当局。

首先，是的，这是一个严重的问题。因此，Anthropic 能够谈论它并发布该信息并告诉用户，是的，您必须注意这一点。但事实上，Anthropic 的负责人发布了一些内容，看到了一些强烈反对，删除了它，试图掩盖它并发布了一条澄清推文，而没有说，这是我删除的内容以及原因。

这是危机沟通。首先，这些大型公司如何拥有数十亿美元的资金，但他们却不知道简单的公关。他们不知道简单的危机沟通。这将对 Anthropic 的空间产生影响。说实话，他们应该得到这样的结果，因为这是愚蠢的。接下来是星期二。我知道这是新闻。是星期二。你在那里偶然得到了一个热门话题。好的。我们的下一个 AI 新闻，呃，

OpenAI 通过嵌入新的 O3 推理模型升级了其运营商 AI 代理，取代了之前运行其代理计算机使用工具的早期 GPT-4-0 模型。因此，O3 模型增强了运营商填写表格的能力，

完成购买并更有效地克服登录提示、弹出窗口和验证码挑战等障碍。因此，此升级旨在提高逐步推理和关注度，这有助于 AI 更可靠地完成冗长而复杂的任务。

因此，运营商仍然不幸的是仅限于 ChatGPT 专业版订阅者。是的，您必须每月支付 200 美元才能访问运营商。尽管，呃，OpenAI 在他们，呃，呃，宣布运营商时确实说过，它最终将以有限的方式推广给 ChatGPT Plus（每月 20 美元的计划）的用户。但我们还没有看到这一点，但这是一件大事。所以运营商，

如果说实话，我对运营商非常兴奋。我做了一个关于运营商的节目。我认为它还不错，但并不出色。好的。显然，上周的 AI 更新非常疯狂。所以我有点忙。但我确实在周末使用新的 O3 模型使用了一点运营商。我并排运行它。

与谷歌的新版本（我将在下一秒讨论他们的 Project Mariner 计算机使用代理）进行比较。我当时想，等等，这个新的 O3 版本的运营商实际上非常好，对吧？只是做一些简单的面对面任务，我认为谷歌的变体，他们的 Project Mariner 会更好，至少在开放访问的情况下。

并执行命令。我喜欢 Project Mariner 为其计算机使用代理提供的教学和测试选项，您可以通过它来教它一些东西，它会重复它。但来自 OpenAI 的一个相当重要的新闻却有点被忽视了。

因此，转向 O3 模型标志着 OpenAI 大力推动改进能够自主在网络上运行的 AI 代理，尽管也存在类似的服务，例如被 Salesforce 收购的 Convergence AI、Hugging Faces 和 Hugging Agents，

Opera 的浏览器操作员。我们有 Perplexity 的 Comet，它可以执行一些类似的自主计算机使用。所以是的，现在这个领域有很多参与者。所以 OpenAI 更新这个很好，因为……

我认为 OpenAI 有点让我沮丧的一件事是，他们会推出一些突破性的技术，然后可能三到六到九个月都不会更新它。例如，在过去的一个季度里，GPT 的更新实际上很少。

一年了，对吧？有传言说 GPT 将能够使用 O3 模型，这将是很棒的。但在大多数情况下，你知道，有时 OpenAI 只会发布一个新功能，而它更多的是对它的底层进行一些非常小的更新。所以这个实际上很大，对吧？因为

因为你从 GPT-4.0 中的基于 Transformer 的非推理模型（它为计算机使用代理提供动力）转变为 O3 Pro 中的推理模型。

所以这是一个相当大的更新。我可能会在这个节目中未来介绍 Google 的 Project Mariner，它不幸的是只能在他们的 Ultra 计划中使用。所以我可能会对 Mariner 和 Operator 进行对比，我可能会为 Mariner 和 Operator 制作专门的节目，因为我认为……

特别是现在这些都是由推理模型运行的，它们真的非常好。比几周前好得多，特别是对于 OpenAI 来说。所以，

你还在为了弄清楚如何利用 AI 发展你的业务而苦苦挣扎吗？也许你的公司已经使用大型语言模型一年或更长时间了，但仍然无法获得牵引力，也无法在生成式 AI 上获得投资回报率。大家好，我是 Jordan Wilson，本播客的主持人。

像 Adobe、Microsoft 和 NVIDIA 这样的公司已经与我们合作，因为他们相信我们在教育大众了解生成式 AI 以取得领先地位方面的专业知识。一些美国最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训他们数百名员工如何使用生成式 AI。因此，无论您是为数千人寻找 ChatGPT 培训，

还是只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站上的合作伙伴部分。我们将帮助您停止在 AI 领域兜圈子，帮助您的团队取得领先地位，并构建一条通往生成式 AI 投资回报率的直线路径。请告诉我你们的想法。我们是否也应该对 Project Mariner 或 Operator 进行更新？好的，我们的下一个环节。

关于 AI 的新闻，伙计们，即使是这样，我们甚至还没有谈到 Google。即使是来自 Microsoft Build 大会的所有内容，甚至包括 Anthropic 的 Claude for OPS、Claude for Sonnets，以及 Google 发布的所有内容。本周最大的新闻可能是这个。

新的合作关系，这并不是秘密，但现在终于正式了。OpenAI 收购了 Jony Ive 的 AI 硬件初创公司 IO，金额为 65 亿美元。是的。

我们已经看到大约九个月的报道称，OpenAI 首席执行官 Sam Altman 和著名的苹果设计师 Jony Ive 正在合作一个项目，一个 AI 硬件初创公司。我们不知道任何细节。我们现在知道更多一些细节，但重要的细节是，它不是一家独立的公司。OpenAI 实际上已经收购了这家名为

所以很有趣，对吧？我不知道这是否是故意进行的嘲讽。也许吧，也许不是。OpenAI 在 Google I/O 大会期间宣布收购了 Jony Ive 的 AI 硬件初创公司 IO，金额为 65 亿美元。因此，OpenAI 首席执行官 Sam Altman 预计，此次收购可能会将 OpenAI 的估值提高

一万亿，带 T 的一万亿美元。

并设想从这种合作关系中出现一系列设备。我们对这款设备了解不多。他们甚至发布了一个大约九分钟的合作视频，什么也没说，对吧？它什么也没宣布。它基本上是他们两人谈论他们的关系和 AI 硬件。

但据报道，第一款设备预计将于 2026 年底发布，它将是一款袖珍式、完全情境感知且值得注意的是无屏幕的 AI 硬件设备，将其定位为“第三核心设备”。例如，作为 MacBook Pro 和 iPhone 的补充。

所以据报道，这方面的愿景是，当人们外出时，无论你是去上班还是在家工作等等，你通常会随身携带的设备现在将有三个，基本上是一台电脑或笔记本电脑。

一部手机，现在还有这个设备，无论这个设备是什么。所以有一些很酷的渲染图和模型，人们制作了……对，它看起来像是一种……可能是一种圆形的设备，你可以把它放在口袋里。它可能会有几个摄像头。它可能显然会有一些不错的麦克风，但我从最初的报道中得到的结论是这种情境感知的概念。

如果你想知道这是什么意思，那么我认为这里发生的是 SSO，对吧？这是什么意思？所以，如果你熟悉 SSO，如果你曾经使用例如你的 Google 凭据、你的 Facebook 凭据登录某个服务。所以 SSO 是单点登录。

对，所以你最近几个月开始看到一些情况是，OpenAI 开始发布单点登录选项，所以如果你现在正在使用某些服务，如果它们与 OpenAI 或 ChatGPT 集成，你可以使用你的 OpenAI 凭据登录第三方服务，所以我确实认为这将在未来一年成为常态，原因之一是……

这为这种你总是随身携带的硬件设备带来了更多上下文。因为对于你可能放在口袋里的设备来说，访问你的 ChatGPT 帐户是否有用？当然。但如果在未来的一年左右，你使用 SSL 登录数十或数百个不同的服务会怎样？例如，如果你使用你的 OpenAI 凭据登录你的 Netflix 帐户会怎样？

或者使用你的 OpenAI 凭据登录你的亚马逊帐户，或者，你知道，某些在线购物、某些电子邮件提供商，对吧？如果他们在未来支持它，你的社交媒体……对。所以我认为这是最大的长期策略，也是为什么这样的东西可能说得通的原因。否则，它就像，好吧，我的口袋里有一个无用的额外设备，而且我

我是一个喜欢无屏幕的人。所以这是我绝对会喜欢的东西。如果你认识我，我会发短信很烂。我发邮件也很烂。我喜欢在屏幕前待很长时间。但我喜欢做的一件事是，我喜欢通过语音与 AI 交互。对。我不必盯着屏幕看。我可以直接和 AI 说话。所以大概，对，这个无屏幕的 AI 设备可能会有一个摄像头，可能会有麦克风，你可能可以和它说话。但这里更大的新闻是，OpenAI 计划比任何公司更快地发布这款设备，据报道，他们希望运送一亿台设备。这是一个系列。

据报道，该设备不会是眼镜。正如你所知，Google 和 Meta 正在大力投入 AI 连接的眼镜和眼镜。所以不是它。这是因为 Altman 和 Ive 排除了眼镜以及 Jony Ive 批评的类似概念，例如 Humane AI pin，对吧？所以他们说，这不是什么东西，哦，你要把它别在身上，或者戴在脖子上作为吊坠。所以它更像是一件你放在口袋里、背包里的东西，它会一直跟着你。但它可能会听到所有事情，并了解你日常生活的背景。

因此，这一发展一直被严格保密，以防止竞争对手在其正式发布之前复制其设计。Jony Ive 将与 Altman 的合作描述为“深刻的”，并将该项目比作一场新的设计运动，借鉴了他曾在苹果公司与史蒂夫·乔布斯密切合作的经验。你们怎么看？你们怎么看？

这是不是一件……你会购买一个没有屏幕的第三方 OpenAI 设备吗？它不是可穿戴设备，对吧？你会真的随身携带第三个设备吗？对，我，无论我去哪里，即使我去岳母家待一下午，我都会带着我的笔记本电脑和手机。我会带第三个设备吗？也许吧。对。

对。有时我也会带上我的 Meta Ray-Ban。我会到处都带着第三个设备吗？也许吧。Scott 博士说它将被称为口袋代理。我喜欢 Fred 的评论，他说，他们会称之为 Palm 还是

Pilots。这很好。这很好。Maria 正在问，是我还是说 60 亿美元对于 AI 公司收购其他公司、从其他投资者那里借款 60 亿美元来说是一个真正的热门数字？是的，这是一个巨大的数额，对吧？对于一家没有人真正知道存在、还没有产品或服务的公司来说，这是一笔 60 亿美元的收购。

但它却是人类历史上最著名的硬件设计师之一。所以，你知道，很多人一直在批评，说，伙计，这价格过高了。我不这么认为。

我不这么认为。好的，让我们来看一下本周最后几条 AI 新闻，这是字面意义上是有史以来 AI 最重要的一周。所以 Google，是的，Google 也在会议上保存了最重要的公告。尽管我认为 IO 硬件最终将是最重要的，但 Google 的 I/O 活动是一场绝对的盛会。Google 发布了超过 100 个，

他们有一篇博客文章介绍了所有 100 个更新。我将确保在今天的新闻通讯中添加链接。所以请务必在 youreverydayai.com 上注册。因此，Google I/O 2025 活动揭示了一些关键的 AI 更新，这些更新有望重塑全球业务。

工作流程、客户参与和 AI 可访问性。我们实际上在上周的两集中介绍了这一点，因为 Google I/O 有很多重要的 AI 更新。我们在上周的两集中介绍了这一点。第一部分是第 530 集，第二部分是第 531 集。我们基本上挑选了 100 个公告中最重要的 15 个，并进行了非常详细的介绍，我认为。

但我只想回顾一下 Google I/O 大会上的一些最重要的内容。因此，Google 搜索中升级的 AI 模式现在提供高级 AI 生成的答案，并具有增强的图形和交互式购物工具，例如虚拟试穿，这太棒了。

使用个人照片。此功能旨在为用户提供更具吸引力、更个性化的搜索体验，直接在 Google 生态系统中。然后是 Gemini Live 的更新，它现在实际上是由 Project Asset 提供支持的。

Astra，它提供了一个能够通过设备摄像头直观地理解周围环境的实时 AI 助手。我播放了一个两分钟的视频，这是一个例子，它可以识别自行车店里的零件，访问和分析电子邮件以获取相关信息，并自主联系供应商。我播放了 Google 的演示，它正是这样做的。好的。

有一些小的更新，他们的旗舰 Gemini 2.5 模型，包括 Gemini 2.5 的新 Flash 变体，它立即……

跃升成为仅次于 Gemini 2.5 Pro 的世界第二强大的大型语言模型。我上周稍微谈到了这一点。因此，Gemini 2.5 Flash 本质上是 Gemini 2.5 Pro 的小型版本。在 LM 竞技场中，用户会盲目投票选择最佳输出，对吧？你输入任何提示输入，你会得到两个结果，你投票选择更好的结果。

在数十个旗舰模型中。Gemini 2.5 Flash（这是一个小型模型）是世界上第二强大的模型这一事实令人震惊，因为我认为小型模型的最高排名曾经是第八名左右。所以这非常能说明 Gemini 2.5 模型有多好。Gemini 2.5 中还有一个新的 DeepThink 功能

Pro，它尚未推出。不幸的是，其中一些功能最初只能使用。

或者对不起，是 DeepThink，不是 ThinkDeep。所有这些公司都在……你知道，我感到困惑，因为 Microsoft 有 ThinkDeeper。所以 Google 的版本将被称为 DeepThink，它基本上允许你在 Gemini 2.5 Pro 中使用更多计算、更多推理、更多逻辑，但尚未发布。不幸的是，很多……

只能在新的 Gemini AI Ultra 订阅层级上使用，每月 250 美元。所以我们现在也有了世界上最昂贵的消费者 AI 订阅层级，超过了每月 200 美元的 ChatGPT Pro 计划。他们还推出了 Google 推出的 AI

三个月的超值订阅，你可以以半价 125 美元的价格获得它，但之后每月将上涨到 250 美元。这使您可以访问 Google 最先进的 AI 工具的全部功能，包括我将在下一秒钟讨论的工具。

Flow、VO3 视频生成和具有 DeepThink 模式的 Gemini 2.5 Pro 以及 Project Mariner，它是他们的计算机使用代理，以及 Chrome 中的 Gemini。

所以缺点是，该订阅目前仅适用于个人 Gmail 帐户。所以现在，如果你正在为你的企业使用 Google Workspace，并且想要使用该 AI Ultra 订阅来处理你的公司数据，缺点是现在不行。

好的。我正在烦扰我在 Google 的朋友，以获得更多答案，例如，好吧，这实际上什么时候才能用于 Workspace 帐户？因为现在不行。所以即使对我来说，是的，我立即订阅了这个。但我必须使用我的个人 Gmail，这很糟糕。所以我现在必须经历将所有电子邮件转发的过程……

从我的工作帐户到我的个人 Gmail。我必须复制我所有的 Google Drive 内容，这非常麻烦，对吧？所以我相信 Google 没有将其推广到 Google Workspace 用户是有原因的，但这很糟糕。此外，Project Mariner 是 Google 新的自主 AI 代理，旨在独立完成在线任务。所以

类似于我们刚刚讨论过的 OpenAI 的 Operator，它刚刚升级到 O3 模型，Project Mariner 有几个独特的功能。它最多可以同时支持 10 个活动。一个非常独特的功能，我喜欢的是新的“教和重复”模式，你可以通过录制用户操作和语音命令来教 Project Mariner 一个复杂的活动或高级工作流程。

因此，此功能旨在自动化重复性的在线业务流程，从而节省时间并提高生产力。最后但并非最不重要的是，这已经席卷互联网。Google 的新视觉工具太棒了。它们太疯狂了。

好得令人难以置信。这也很令人担忧，我很快就会做一个关于这个的节目。好的。所以 Google……Google DeepMind 最新的 AI 视频生成器，他们刚刚发布了它，名为 VO3，它生成的视频非常逼真，以至于许多在线观看者无法将它们与人类制作的电影区分开来，这突显了人们对数字内容真实性的日益担忧。

与其他 AI 视频工具不同，VO3 可以生成带有对话的视频。这是最疯狂的事情。你可以让两个人唱歌，它可以很好地将他们的声音与他们的嘴唇匹配起来。它可以制作音效、音景，而且非常准确地遵循现实世界的物理规律，保持连续性并逼真地同步嘴唇动作。现在，这是唯一一个 AI 工具

你可以一次性完成所有这些。因此，VO3 不仅是迄今为止最好的 AI 视频生成器，因为 VO2 是世界上最好的，Google 说，拿着我的 Nespresso，然后他们……你知道，向我们所有人发布了 VO3。有一些方法可以……你知道，同步……你可以创建对话，但你必须使用多个第三方工具。现在你可以在 VO3 中完成所有这些。

他们还发布了 Flow。所以 Google Flow 是一种新的 AI 视频工具，它可以使用 VO3 以及 Google 新的 AI 图片生成器 Imagine 4 和 Gemini 模型。所以基本上现在他们有了这个新的创意工具

工具，以前称为 Video FX，但几乎没有任何这些功能。因此，Google Flow 允许用户导入或生成一致的角色和场景，控制摄像机角度并访问高级场景编辑和资产管理功能。

旨在使复杂的视频创作更容易上手。我试用了一下，现在有点不稳定，但我确实预计 Google 将发布许多更新，包括 VO3、Imagine 4 和这个新的 Flow 工具。

该工具将在美国面向 Google AI 专业版和超值版用户推出，专业版用户每月可获得 100 次生成，超值版用户可获得更高的限制。关于 VO3 的更多信息，因为这是让互联网燃烧起来的原因。它创建高度详细的人物，包括准确的功能，例如五个手指。

两只胳膊，两条腿，对吧？威尔·史密斯实际上可以吃意大利面，你可以听到声音，而且看起来很真实。所以它确实克服了一些 AI 视频生成器通常难以应对的更具挑战性的任务。所以，

呃，由 BO3 生成的视频显示了一些常见的 AI 人工制品或错误，但你真的必须是一个书呆子并关注这个领域才能看到这些，对吧？而六个月前或一年前，很容易看到一些迹象表明视频是 AI 生成的。首先，它看起来不好。对，它有时看起来像卡通，或者……你知道，不理解物理学。

现在不再是这样了，伙计们，这对于业务效用来说既令人惊叹，也绝对让社会感到恐惧……因为你已经在线看到了，对吧？已经有一些故事说人们发起……你知道……基于虚假场景的真实视频的筹款活动，每个人都相信了，好的，所以这既

对于企业、小型企业和初创企业可以使用它来做什么来说令人兴奋。对。但是，

也令人恐惧，因为它太棒了。我认为今天 90% 的人口，除非你告诉他们，嘿，我们将向你展示一些 AI 视频和一些真实视频，对吧？但如果你只是坐下来向人们展示一些来自 VO3 的高质量生成内容，90% 的人口将无法分辨。所以

这令人恐惧。这令人兴奋。但这就是 AI 的世界。好的。我希望这对你们有所帮助。

对本周 AI 最重要的一周的快速回顾。首先，Microsoft 在 Microsoft Build 2025 上展示了对 Copilot 的一些巨大进步。接下来，Anthropic 推出了 Cloud Opus 4 和 Sonnet 4，在 AI 编码和推理方面树立了一些新的基准。接下来，Anthropic 因为 Cloud 4 Opus 3 而面临大量强烈反对。

告密用户或可能告密用户，以及它的敲诈行为。OpenAI 已将其 Operator AI 代理升级到更智能的 O3 模型。所以它不再使用 GPT-4.0 模型。我们终于得到了关于 OpenAI 收购 Jony Ive 的官方公告。

新的 AI 硬件初创公司 IO，OpenAI 预计其估值将增加 1 万亿美元，并宣布从这项合作关系中推出系列设备。然后 Google 在 Google I/O 大会上表现得非常出色，发布了超过 100 个 AI 更新。我们将在接下来的新闻通讯中分享所有这些。

今天。我希望这对你们有所帮助。这是一个比较长的内容，但正如我所说，这是 AI 有史以来最重要的一周。好的。所以，如果你还没有，请访问 youreverydayai.com，注册免费的每日新闻通讯。如果这对你们有所帮助，是的，我们花了大量时间确保你们了解最新信息。我希望你们成为 AI 方面最聪明的人，在你们的部门、公司和社交媒体上。我希望你们成为最聪明、最了解最新信息的人。

但不要贪婪。分享爱，对吧？如果你在 LinkedIn 上收听，需要 30 秒。只需点击转发按钮。如果你在 Twitter 上收听，我真的很感激。与朋友分享，与同事分享，与邻居分享，与朋友的同事的邻居分享，与你的保姆分享，与你的……任何人分享，因为我们都需要学习和理解生成式 AI，对吧？

它不再像两年前那样是一种选择。我们都必须使用这项技术才能在 2025 年及以后取得成功和蓬勃发展。感谢收听。我希望明天和每天都能看到你们回来收听更多 Everyday AI。谢谢你们。

今天的 Everyday AI 节目到此结束。感谢收听。如果您喜欢本集，请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法，请访问 youreverydayai.com 并注册我们的每日新闻通讯，这样您就不会被落下。打破一些障碍，我们下次再见。

EP: 533 Google drops dozens of AI updates, Anthropic drops Claude 4, Microsoft unveils huge Copilot upgrades and more AI news that matters 57:21 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

EP: 533 Google drops dozens of AI updates, Anthropic drops Claude 4, Microsoft unveils huge Copilot upgrades and more AI news that matters