We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

cover of episode Ep 488: NVIDIA’s big AI advancements, Claude gets the internet, ChatGPT gets new voice models, Gemini goes Canvas and more aI news that matters

Ep 488: NVIDIA’s big AI advancements, Claude gets the internet, ChatGPT gets new voice models, Gemini goes Canvas and more aI news that matters

2025/3/24

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

我报道了本周最重要的AI新闻，包括NVIDIA在GTC大会上发布的AI超级计算机DGX Spark和DGX Station，以及他们公布的到2028年的GPU路线图。这些超级计算机旨在为开发者提供本地AI计算能力，而GPU路线图则显示了NVIDIA在AI计算领域的持续投入。此外，我还讨论了Claude终于获得了互联网访问权限，这将显著提升其功能和实用性，尽管这一功能的推出比其他竞争对手晚了数年。同时，ChatGPT也获得了新的语音模型，进一步增强了其文本转语音和语音转文本的能力。 Gemini也增加了两个新功能：Canvas和音频概述。Canvas允许用户与Gemini实时协作创建和编辑文档，而音频概述则可以将文档转换成易于收听的播客风格音频剪辑。我还谈到了其他一些重要的AI新闻，例如宾夕法尼亚州的AI试点项目、Adobe和Microsoft在AI工具方面的合作、OpenAI的Sora AI视频工具以及美国联邦政府推出的生成式AI聊天机器人。这些新闻都反映了AI技术在各个领域的快速发展和应用。

Deep Dive

Chapters

NVIDIA's GTC conference brought exciting updates to AI computing. New AI desktop supercomputers (DGX Spark and DGX Station) were introduced, along with a GPU roadmap extending to 2028, promising significant performance boosts and advancements in compute density.

Announcement of DGX Spark and DGX Station AI desktop supercomputers
NVIDIA's GPU roadmap through 2028, including Rubin and Blackwell platforms
Significant performance improvements and advancements in compute density

Shownotes Transcript

0 这是 Everyday AI Show，一个每天播出的播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。

英伟达在 GTC 大会上改变了 AI 计算的未来。我在那里。我会告诉你这意味着什么。Claude 最终获得了互联网访问权限，但这为时已晚了吗？联邦政府正在推出他们自己的 AI 聊天机器人。我会告诉你这意味着什么。

AI 服务正在全力支持 MCP。ChatGPT 获得了新的语音模型，即使它已经拥有领先的语音模型。Gemini 在 Gemini 内部添加了两个相当小的 AI 新功能，我认为这些功能实际上会非常强大。本周有很多 AI 新闻，几乎每周都有。但是

我不希望您每天花数小时时间，比如钻研兔子洞，然后想，这是什么？这对我的公司、我的职业意味着什么？别这么做。我为您做这件事。好的。欢迎来到 Everyday AI。大家好，情况如何？我的名字是 Jordan Wilson，我是 Everyday AI 的主持人。这是您的每日直播播客和免费每日新闻通讯，帮助我们所有人不仅跟上

AI 的步伐，而且了解我们如何利用它来取得进步，发展我们的公司和职业。因此，如果这听起来像是您正在尝试做的事情，那么您来对地方了。几乎每个星期一，我们都会为您带来重要的 AI 新闻。是的，我每天都这样做。因此，星期一，我会说，各位，这就是您需要注意的内容。这就是无关紧要的内容，对吧？然后希望给您一些您可以带走的好的建议

回到工作中，成为您公司或部门中最了解 AI 的人。因此，我很高兴回顾一些重要的新闻。很高兴看到我们的直播观众来到现场。如果您有任何问题，请提出。如果您确实有任何问题，我会尽量在最后回答一些问题。但感谢您的加入，您知道，来自 YouTube 的 Samuel 和 Sandra。来自明尼苏达州的 Brian。Parimi，感谢您来自印度的加入。Sandra、Renee、Marie、

Fred，就像我一样在芝加哥坚守岗位。好的。很高兴看到它。好的，各位。因此，提醒一下，如果您还没有这样做，请访问 youreverydayai.com。我不知道您是否知道这一点，但播客和直播是一回事。您可以在那里了解正在发生的事情。如果您想利用这一点，请在我们的新闻通讯中这样做。因此，请务必访问我们的网站并注册，您还可以收听大约 400 集，我不知道，

现在是 85 集 Everyday AI，全部免费。您可以观看它。您可以收听它。您可以在我们的网站上阅读所有内容，按类别排序。因此，无论您在 AI 之旅中处于哪个阶段，我们的网站都将是您最好的朋友，您的 BFF。好的。

提醒一下，我实际上将从谈论英伟达开始今天的节目。但是请务必查看我们的新闻通讯。即使 GTC 大会已经结束，您仍然可以在线免费访问所有内容。

在有限的时间内。因此，我将在今天的新闻通讯中提供该链接。因此，请务必查看一下。是的，再次感谢英伟达与 Everyday AI Show 合作。本周我们实际上还将进行几次精彩的采访。是的，上周我们甚至做了很多采访。因此，与电信领导者、医疗保健领导者、

戴尔领导者，您知道，许多优秀的和新的节目即将到来，这些节目是从 GTC 录制的。我实际上仍在整理它们。我们可能会举办一场类似“疯狂三月”风格的 AI 初创公司锦标赛。这应该很酷。因此，直播观众，请告诉我。您想看到这样的东西吗？我与一位

八家不同的 AI 初创公司进行了交谈。我当时在想，你知道，我只是录制了他们五分钟的简短演讲。我认为这都是许多你们都可以使用的工具和服务。所以请告诉我，是或否。我应该举办一场锦标赛风格的 AI 初创公司推介比赛，让你们投票选出获胜者吗？请告诉我。好的，闲聊到此为止。让我们进入 3 月 24 日当周最重要的 AI 新闻。

今天有很多内容要讨论，各位。让我们开始吧。英伟达宣布了一套突破性的新型 AI 桌面超级计算机，即 DGX Spark 和 DGX Station。这些是在英伟达 GTC 大会上宣布的，它们旨在为开发人员、研究人员和数据科学家提供本地 AI 功能。

在主题演讲中，英伟达首席执行官黄仁勋在主题演讲中介绍了两款新的个人 AI 超级计算机。因此，DGX Spark 和 DGX Station。两者都由 Grace Blackwell 平台提供支持。

这些系统专为在本地运行神经网络和 AI 应用程序而设计。因此，DGX Spark，这款实际上只是升级和更新，因为以前这是 Digits 系统。所以现在 Digits 是 DGX Spark。

Spark，其特点是 GB 10 Grace Blackwell 超级芯片，每秒可执行高达 1000 万亿次运算。所以是的，1000 tops。这是用于 AI 任务的，使其成为用于原型设计和改进 AI 模型以及运行本地 AI 模型的小巧而强大的工具。

然后您还有大块头，这是它的更大版本，是全新的，刚刚宣布。它被称为 DGX Station。这是一个更先进的系统。你知道，基本上 DGX Spark，它就像，你知道，它就像一个大冰球，对吧？如果您知道这些，如果您知道 Mac Mini 之类的东西，它就是那个尺寸。DGX Station 更像某种东西，它是一种即插即用的微软

模块化系统，但您知道，您也可以获得此设备的完整桌面版本。这个东西准备好了，各位，它拥有 784 GB 的相干内存。那，

太疯狂了，对吧？就像几年前一样，你知道，当我得到一台拥有 16 GB 内存的笔记本电脑时，我想，哦，我的天哪，我进入了未来。不，这东西有 784 GB 的内存。所以是的，就您可以在本地运行的内容而言，对吧？因为这就是重点。

这一切都是为了赋予，你知道，高级用户和普通人，我认为也是，能够在他们的计算机上运行，你知道，最先进的开源模型的能力，对吧？因为专有模型，比如，你知道，ChatGPT、Gemini 和 Cloud Anthropic，你不能下载并运行它们，对吧？但是有一些很棒的开源模型，比如 Meta 的 Lama，

Meta Lama，呃，谷歌实际上有一个开源模型，我认为在他们的 Gemma 三个、呃、mistrals 模型中非常令人印象深刻，呃，甚至，呃，英伟达自己的，呃，基于 Lama 的 Nemo Chan。现在有很多非常强大的模型。呃，对。所以，嗯，

以及，你知道，对于那些 DeepSeek 粉丝来说，DeepSeek，我不是一个大粉丝，对吧？但是，你知道，专有云模型和开源模型之间的差距，已经下降到几乎为零了，对吧？因此，现在可以运行，因此 DGX Spark 的价格为 3000 美元。我不相信我们目前有定价。

在 DGX Station 上，尽管这可能会在接下来的几个小时内下降。当我们发布今天的新闻通讯时，我会仔细检查一下。但我的意思是，各位，这允许您组织中的任何人，对吧？我认为一些公司没有全力以赴地使用大型语言模型、AI 热潮的一个最大原因是，他们首先不了解数据隐私和安全。再次，

再说一次，我不会大发雷霆，但它就像，嘿，如果您使用云存储，对吧，这正是——或多或少与您将文档上传到大型语言模型的情况完全相同。无论如何，这允许任何人运行——

AI 模型在本地，速度非常快，您可以实际使用。在我的不太强大的计算机上，我会下载并运行 llama，但它们是较小的版本，而且速度有点慢，但仍然很快。

各位像我一样，能够在没有 Wi-Fi 的飞机上运行 llama 模型，对吧？这是一种极其强大的功能。因此，我认为这非常重要，而且，你知道，主要的 PC 制造商，包括华硕、戴尔、惠普、联想、超微、微软。

也将生产和销售这些系统。因此，这不仅仅是，哦，您只需要从英伟达购买它。所有主要参与者都将推出配备 DGX Spark 和 Station 的 PC。我实际上即将与戴尔的一位领导者进行一次精彩的采访，谈谈这个公告以及这些功能对企业用户究竟意味着什么，对吧？那就是各位喜欢，我无法克服

这些东西的强大功能和体积之小，对吧？即使在三四年以前，你也不可能在一个房间里容纳所有这些计算能力，对吧？你真的做不到。现在它在理论上，DGX Spark，你知道，可以放在你的手掌中，对吧？黄仁勋真的把它放在手里。而 DGX Station，稍微大一点，但是，你知道，你仍然可以随身携带它。而那东西有……

784 GB 的 RAM。所以，很少有本地开源模型是无法在这个东西上运行的。我非常，我印象非常深刻。是的。穆罕默德刚刚说，哇。是的。是的，我同意这一点。你知道，玛丽说一些尖端技术。

好的。我们下一条 AI 新闻也来自英伟达大会。因此，英伟达确实公布了其 AI 数据中心以及其 GPU 路线图到 2028 年的计划。所以，是的，如果您没有太密切地关注，基本上英伟达为 AI 行业提供动力，对吧？他们的 GPU。

您知道，所有公司基本上都使用它们来训练他们的模型。因此，您知道，如果您喜欢使用任何生成式 AI，那么很有可能英伟达的 GPU 在某些时候被使用过，或者正在被这些公司积极地用于运行和训练他们的模型。

此外，英伟达还宣布了将于今年晚些时候推出的 Rubin 平台的更新，这将显著提高性能，提供 3.6 exaflops 的 FP4 计算能力。是的，这可能超过了，你知道，我的理解能力以及许多其他人的理解能力，对吧？但是的，它非常强大。英伟达还谈到了他们即将推出的 Blackwell B300 平台

Rubin 将引入下一代 HBM4 内存技术，这意味着更快的互连和更大的带宽，以支持日益复杂的机器学习模型。此外，还将有全新的 Vera CPU 来配合 Rubin GPU，取代英伟达的 Grace CPU。好的，更快的 CPU 来配合 GPU。

此外，Rubin Ultra 预计将于 2027 年推出，并将通过采用最多 576 个 GPU 的新型机架配置将性能提升到一个全新的水平。是的。因此，除非您正在运行 IT 部门，否则这可能不一定与您个人相关。尽管这是，就像我说的那样，

我们将使用的所有 AI 系统都将受益于英伟达新的和更新的 GPU 路线图。因此，英伟达还谈到了对能够处理海量数据和计算密集型任务的 AI 工厂的需求日益增长。

展望 Rubin，英伟达还预告了其以物理学家理查德·费曼命名的下一代 GPU 架构，这表明 2028 年计算密度和效率将取得更大的进步。所以是的，就像我说的那样，

今年晚些时候我们将看到一些 Rubin 更新。然后在 2026 年看到一些 Vera Rubin 更新。Robin Ultra，2027 年。然后是 2028 年推出的费曼 GPU 系列。好的。

我们下一条 AI 新闻是，两家相当大的公司正在全力支持 MCP。好的，别担心。我会分解它并告诉你这意味着什么。但 Zapier 和微软都宣布支持 MCP，即模型上下文协议集成。

MCP 由 Anthropic 开发，它是一个开源协议，旨在促进 AI 模型与外部数据源和工具的集成。MCP 是一种协议，使您的 AI 助手能够安全地连接到数千个应用程序并执行操作，例如发送消息、安排事件和使用任何其他复杂编码工具更新记录。

所以想想看，它有点像 API，对吧？从技术上讲，我相信它是在 API 之上的一个层。但这只是允许所有这些不同的 AI 工具相互通信。因此，您知道，请关注哪些其他大公司开始提供 MCP 支持。在 Zapier 方面，因此 Zapier MCP 连接到全球超过 8000 个应用程序。

无需复杂的集成。因此，Zapier 的 MCP 使 AI 助手能够执行现实世界中的任务，例如在 8000 个应用程序和 30000 个操作中发送消息、管理数据和安排事件。好的。然后微软在 Copilot Studio 中引入了模型上下文协议或 MCP 支持。非常有趣。因此，构建您自己的低代码或无代码 AI 代理

因此，微软在 Copilot Studio 中推出了 MCP，只需点击几下即可实现 AI 应用程序和代理的无缝集成。因此，MCP 简化了与知识服务器和 API 的连接，允许实时数据访问，同时保持企业安全性，例如虚拟网络集成和数据丢失预防。

因此，在 Copilot Studio 方面，用户可以访问市场中预构建的启用 MCP 的连接器，动态地向您构建的代理添加工具，并通过自动更新来减少维护工作。

您是否仍在四处奔波，试图弄清楚如何利用 AI 发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到生成式 AI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

像 Adobe、微软和英伟达这样的公司与我们合作，因为他们信任我们在教育大众了解生成式 AI 以取得领先地位方面的专业知识。一些美国最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训他们数百名员工如何使用生成式 AI。因此，无论您是在寻找针对数千人的 ChatGPT 培训，

还是只需要帮助构建您的前端 AI 战略。您也可以与我们合作，就像世界上一些最大的公司一样，访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中奔波，并帮助您的团队取得领先地位，并构建一条通往生成式 AI 投资回报率的直线路径。所以，呃，请告诉我，我们是否应该做一个专门的 MCP 节目？各位，嗯，

这是一件，这是一个较新的协议。呃，说实话，这甚至是我自己仍在学习和尝试的事情，呃，

我认为，我希望也许这就是 Everyday AI 的作用所在，对吧？没有，你知道，没有 MCP 技术专家。它是全新的。但我确实认为，它在未来将成为一个非常重要的协议，就像现在大多数企业、大多数企业如今无法在没有 API 或 Webhook 的情况下运行一样，对吧？这只是允许您不同的

应用程序相互通信，对吧？所以现在您基本上有了 API 的 AI 版本。我在那里简化了它，呃，它允许您的不同 AI 工具和软件相互通信以及与您的数据通信。所以我确实认为这非常重要。它有点技术性，呃，但我只是认为，你知道，就像，你知道，我们有，我们有这个，呃，

这些不同的生成式 AI 时期，对吧？所以我们有大型语言模型，对吧？AI 聊天机器人。然后我们有了 RAG，检索增强生成。现在我们有了代理 AI，对吧？我认为那些下一步中的一个可能就是这个 MCP 协议。好的。佩德罗说，当然。乔说，我支持 MCP。是的，你了解我。

好的，90 年代说唱的参考。好的，我们下一条 AI 新闻。宾夕法尼亚州的 AI 试点项目正在为工人节省每周 8 个小时的时间，据该州州长称。因此，宾夕法尼亚州州长乔什·夏皮罗公布了该州将 ChatGPT 集成到政府服务中的突破性试点项目的一些令人鼓舞的结果。

据夏皮罗分享的早期结果显示，宾夕法尼亚州的 ChatGPT 试点项目为州政府员工节省了平均每周 8 个小时的时间。该项目于 2024 年 1 月通过行政命令启动，最初为 ChatGPT Enterprise 提供了 50 个许可证，此后已扩展到 14 个机构的 175 名员工。

因此，尽管在该州研究的第一阶段中，近一半的参与者以前从未使用过 ChatGPT，但 85% 的人报告了使用该工具的积极体验，这突显了其易用性和有效性。

参与该项目的员工报告每天节省大约 95 分钟的时间，也就是一个多小时，这使他们能够专注于更复杂的任务以及与宾夕法尼亚州公民的直接互动。

具体的成功案例包括简化职位描述，这将招聘和入职时间从 90 天减少到 60 天，并将该州的 93 项 IT 政策合并为 34 项，从而简化了他们的运营。州检察官和建筑项目经理等角色都受益于 AI 辅助，这展示了其在不同领域的通用性。

夏皮罗州长强调，AI 充当的是“工作增强器”而不是“工作替代者”，重申了让参与者参与以确保细致决策的重要性。该项目的第一个阶段将于 5 月 31 日结束，计划在第二阶段向更多员工扩展访问权限。我对这每周只有 8 个小时的看法。

我不知道。我不明白。我不明白。就像任何没有节省至少——

每天两到三个小时的人一样，对吧？如果您没有通过使用 AI 操作系统每天至少节省两到三个小时的时间，对吧？我认为存在差异。我认为 ChatGPT 现在确实是唯一运行的 AI 操作系统，你知道，在云中作为 AI 聊天机器人。我显然认为 Microsoft 365 Copilot 是它自己的野兽。但除此之外，我认为谷歌 Gemini 会做到这一点。我认为 Anthropic Cloud 也许会做到这一点。但我认为现在，

ChatGPT 是我所说的唯一 AI 业务操作系统。我认为它们是独一无二的。但是，这些宾夕法尼亚州政府员工每天只节省大约 90 分钟的时间，这让我相信他们需要接受培训。因此，许多组织、公司在希望培训其员工时会与我们联系。因此，无论是 50 名员工还是 500 名员工，他们都会与我们联系。我通常都感到非常震惊。

好吧，首先，公司会伸出援手是一件好事，因为这是我们每天都在做的事情，对吧？我们生活在 ChatGPT 内部。对于 AI、大型语言模型或您的 AI 业务操作系统而言，这是我和我们团队的基地。

但我无法看到大多数员工每天无法节省至少两到三个小时的时间。如果是这样，这意味着您的员工不知道自己在做什么，对吧？我的意思是，是的，这取决于他们的实际工作是什么。这取决于数据访问、数据安全，对吧？但在企业系统中，我会说，如果您使用任何云存储，情况完全相同。

雇佣超级昂贵的摄像公司制作视频的日子，不幸地正在减少。我不是说这种公司会不复存在。显然，你仍然会有高端的视频制作和创意机构。但我认为越来越多的中小型公司将使用这些AI视频工具，对吧？因为你也可以从一张图像开始，一张AI图像，对吧？

对。现在我们通过AI图像工具拥有了这些功能，你可以上传一张图像。对。我可以上传我在NVIDIA GTC大会上采访某人的照片。而且，你知道，你可以把它作为起点。对。所以我只需要根据真实的图像创建视频。对。如果你有一张你一直在博客文章中使用的库存照片，看起来像是1998年的，对。

你可以最终更新它并为它带来一些活力。所以我认为如果我们一年前进行这次谈话，我会说，AI视频并非适合所有人。AI视频适合每个企业。如果你还没有开始使用它，你需要参与进来。你需要了解它，因为消费者需求更多。

视频。他们想要视频。如果你的公司还没有使用视频，对，你可能已经知道，也许你的团队没有这方面的人才。也许你没有预算。那么，这些视频或这些AI视频工具确实正在平衡竞争环境。是的。这里乔提出了一个好问题，他说，OpenAI什么时候会关注Dolly 4？是的，是的。

实际上，Grok刚刚增加了编辑图像的功能，并更新了他们的AI图像生成，可以通过API访问。我认为谷歌在其Gemini 2.0

我可能需要为此做一个专门的节目。他们有点在干掉Photoshop，对吧？你可以在Google Geminize 2.0中上传。请直播观众或播客观众告诉我。我总是留下我的领英信息，我的电子邮件，尽管我有点落后了。所以如果你在过去几周联系过我，我很抱歉。但是……

Google Gemini 2.0，你可以用图像做的事情，对我来说太疯狂了。作为一个使用Photoshop超过20年的人，你可以在Google Gemini 2.0中使用简单的文本命令做的事情，真是令人难以置信，对吧？你可以上传你自己的照片，任何你能想到的、在Photoshop中能做的事情，你

你基本上可以在那里做，对吧？改变你的穿着，对吧？也许你正在进行时装拍摄，产品拍摄。你知道，也许背景中有一些烦人的东西，你不想学习Photoshop或在你的电脑上运行一些超级，你知道，处理器计算量很大的东西。你可以在Google Gemini 2.0的AI工作室中，只需使用文本提示即可。我之所以提到这一点，乔，是因为苹果的

/ grok，正在开始推出类似于我们在Google Gemini 2.0中看到的类似功能，以及我们刚刚看到的，呃，谣言，呃，ChatGPT也可能开放这个功能。呃，所以这还没有得到证实。呃，

但在过去24到48小时里，互联网上有一些传闻说ChatGPT正在提供，正在开始测试图像编辑功能，这让我相信他们也会推出改进的图像生成功能。我们知道Sora，OpenAI的视频工具，我们刚刚开始这个AI新闻片段，可以生成照片。所以我不知道下一个……

你知道，Dolly的版本可能就叫Sora照片。或者例如，Dolly 4可能只是由Sora提供支持。我们将拭目以待，但我确实期待，

ChatGPT很快就会有一些图像生成更新，尤其是你们。就像我一样，我在节目中谈到过这个，我认为是上周，我的意思是Google Gemini 2.0的功能，你可以在一次拍摄中，你可以创建一个例如博客文章，对吧？我的例子是我写了一篇博客文章，你知道，芝加哥五大旅游景点。我让它写一篇博客文章，然后它为这五个景点中的每一个都做了一张图片，一次性完成，对吧？这太疯狂了。这太疯狂了。这些多模式AI聊天机器人的能力增强了。所以是的，希望我们很快就能从OpenAI那里看到这一点。好了。

让我们继续。还有几个AI故事。这个，我不是很喜欢。据报道，苹果正在努力将其先进的AI功能集成到其可穿戴设备中，包括未来Apple Watch和AirPods型号的摄像头。这是根据彭博社的马克·古尔曼的说法，他是在获取所有关于苹果的一切独家新闻方面的领导者。据报道，苹果正在开发多个，

多个版本的未来Apple Watch型号，配备摄像头以增强AI功能，允许设备“看到外部世界”。这与苹果专注于扩展其视觉智能技术相一致。

所以现在，视觉智能目前依赖于ChatGPT等第三方AI模型，正在重新定位为使用苹果专有的AI系统。这种转变可以减少对外部AI提供商的依赖，并加强苹果对其AI生态系统的控制。因此，标准Apple Watch型号上的摄像头可能会嵌入显示屏中，可能使用屏下技术或摄像头开孔。

这将使用户可以直接从手腕上访问离散的视觉AI功能。因此，Apple Watch Ultra拥有更多设计空间或更多发挥空间，预计将配备一个嵌入数字表冠和侧按钮附近的摄像头。这种放置方式将使Apple Watch Ultra用户更容易扫描物体或使用手腕与环境互动。

苹果的目标是将其类似的配备摄像头的AI功能也带到未来的AirPods中，进一步在其产品阵容中集成视觉智能。因此，这些AI驱动的可穿戴设备的发布预计至少要到2027年。我想如果我们遵循这里的线索，如果目前的报告说法不同

苹果与智能相关的产品将于2027年推出。你最好再加三年，对吧？苹果去年在WWDC主题演讲中承诺的许多事情，甚至还没有开始推出，即使苹果正在大规模地进行营销广告，宣传实际上不可用的功能，现在他们正面临一些集体诉讼。所以，再说一次，我不会把这个变成，我会不小心贬低苹果的智能，然后开始一个旁白，但是，你知道，我个人不喜欢手表上的摄像头。我不知道为什么。

我仍然认为，在AI方面，以及在摄像头方面，我们仍然需要某种隐私和信任，对吧？例如，对吧？我在NVIDIA GTC展会上待了，我想我有大约六分钟的空闲时间，从字面上看。我挤满了采访。所以，你知道，我戴着我的Meta Ray-Ban眼镜，这很棒。所以，是的。

但我认为当人们戴着它们时，他们可以看出并理解你可能正在录制一些东西，对吧？有一个小的状态指示器。所以我不知道，就像，

在手表上安装这个，在AirPods上安装摄像头，我不知道。我不喜欢它，即使我使用并喜欢苹果技术。我不太喜欢在手表上安装摄像头并尝试将AI带到我的手表上。那只是我。首先，苹果，先把手机上的问题解决，对吧？

你落后了30年。什么？是的。弗雷德说新的Apple Watch摄像头。当心更衣室。有很多像只是像侵入性的，像只是像红色的，像红色的警报声大作。我只是不知道。就像，有人真的想要这个吗？这看起来像一个，

坏主意。所以我不知道苹果是否只是试图推出，你知道，一堆新的，你知道，AI驱动的，你知道，产品。最重要的是，每个人都想收集更多视觉数据来改进他们的AI模型，因为基本上，对，我在NVIDIA GTC大会上与这个人进行了交谈。你知道，显然大型语言模型还没有达到它们可以学习和训练的数据可用性的上限。但基本上我喜欢这样说。

你知道，今天的当前模型。而今天，我的意思是，过去几年的模型基本上已经接受了知识工作者数据的训练，或者，你知道，你可能会在屏幕上阅读的数据，文本图像等等。对。呃，

数据的下一个重要领域是现实世界的数据，世界模型数据，对吧？关于我们人类如何与现实世界互动的数据。而这最终将是AI的下一个巨大飞跃，对吧？我和敏捷计划谈过这个。

GTC大会上Agility Labs的CTO进行了一次精彩的对话。如果你没有听过那个，但是你知道，呃，呃，呃，下一个重要部分是，是，你知道，公司将尝试从现实世界获取越来越多的数据。所以他们希望我们所有人基本上都带着尽可能多的摄像头，你知道，训练他们的模型，呃，

所以当我们谈论人形机器人时，当我们谈论AGI、ASI时，所有这些都离不开来自现实世界的更多数据。因此，这些新版本或这些较新的模型可以理解我们如何与周围的世界互动。

好了，下一个AI新闻。总务管理局，联邦政府，也就是GSA，推出了一款新的生成式AI聊天机器人，旨在提高效率并自动化重复性任务。

这款聊天机器人现在可供GSA联邦工作人员使用，它利用来自Anthropic和Meta等公司的大型语言模型来协助完成基本任务，包括写作。根据《连线》杂志本月初的报道，政府效率部或DOJ，对吧？是DOJ还是DOJ？我认为是DOJ。

部署了一个类似的聊天机器人，名为GSAI。这并不令人困惑。将其部署给1500名工人。该工具的发布与GSA的18F数字服务团队的关闭以及技术转型服务的缩减相吻合，这引发了人们对联邦技术创新团队未来的质疑。

GSA官员澄清说，聊天机器人并非用于……

取代工作，尽管这正是它正在做的事情。他们确实表示，它也不打算用于官方机构的决策，并且它与GSA知识库分开运行。安全控制措施到位，以防止共享敏感信息，并记录提示，但不将其归类为联邦记录。

该机构的目标是通过采用率而不是减少劳动力来衡量该工具的成功，这表明其关注的是文化融合而不是立即节省成本。

我不知道。对我来说，现在联邦政府和Doge的立场似乎是尽可能地裁掉联邦工作人员，并用AI工具取而代之。因此，尽管他们并没有真正公开地说，是的，我们正在使用AI来取代工作，但这实际上是美国政府正在做的，在各行各业，在联邦机构中进行了巨大的

削减。因此，你看到成千上万的人被解雇，并且你看到越来越多的AI工具被用于美国联邦政府。

好了。还有几个故事。我个人对这个很兴奋。因此，谷歌在Gemini中推出了一些新功能。它们可能很小。你可能没有看到它们，但我个人很兴奋地使用它们。因此，谷歌为付费Gemini用户推出了两个新的AI功能，Canvas和音频概述。

因此，Canvas，就像我们从其他一些公司看到的那样，你知道，ChatGPT有他们的Canvas工具。Claude有……

他们的版本，叫做artifacts。因此，Google Gemini中的Canvas能够与Gemini进行实时协作，以创建和编辑文档。因此，用户可以上传，我的意思是，任何你可能想要的文档。因此，课堂笔记、研究想法，以及让Gemini起草演讲稿、编辑内容或提出改进建议。呃，

该功能允许用户直接调整文本的语气、长度和其他方面。所以是的，如果你使用ChatGPT Canvas，我会说这是目前其他AI工具中最接近Google Gemini的Canvas的工具。它还支持编码项目，

提供互动式学习体验。因此，谷歌重点介绍了Canvas如何通过创建简单的编码项目（如井字游戏）来帮助用户学习，并提供解释和预览来指导学习者完成整个过程。好了。这是第一个功能。第二个功能是音频概述。如果你使用Notebook LM，你肯定熟悉谷歌的音频概述工具。所以，是的。

我不是说我与此事有关，但我确实经常与谷歌团队进行直接消息和交流。我告诉他们，大约六个月前，我说，你们真的需要在Gemini中推出音频概述。我得到了肯定的肯定。所以我相信这已经在路线图上了，但我甚至告诉他们，嘿，六个月前，你知道，

你应该这样做。这，这，呃，音频概述太棒了，对吧？它应该在谷歌的套件产品中推出，看到这一点很酷。因此，音频概述可以将文档转换为播客风格的音频剪辑，以便轻松收听。呃，此功能允许用户上传PDF文件、幻灯片或研究报告，并生成对话式音频摘要，使复杂的信息更容易理解。

因此，音频概述工具建立在谷歌之前的AI实验的基础上。就像我说的那样，这最初是通过Notebook LM引入的。

现在，付费Gemini用户可以在移动和网络平台上使用此功能。以下是使用方法。因此，在新版中，就像我说的那样，你首先需要一个付费计划。对于Canvas，应该有一个新的Canvas按钮，你通常会在其中输入你的文本提示。

对于音频概述，我猜会有一个更好的视觉方法来做到这一点。但目前最简单的方法是，你可以上传一堆文档，然后说，你知道，请为这些文档创建一个音频概述。

所以，你知道，我为我们的直播观众提供了一个小屏幕截图，向你展示如何触发。这将很酷。我相信谷歌会找到一种更好的视觉方式来触发音频概述，因为我相信大多数人不会注意到。所以从字面上看，你可以，你知道，上传一个很长的PDF或几个文本文件，然后说，创建一个该文档的音频概述。然后你将获得那个，你知道，非常酷的概述。

有点像播客风格，但它没有Notebook LLM中的交互式功能。显然，Notebook LLM，我认为仍然是我最常用的AI工具之一，与Google Gemini中的新功能相比，它仍然有一些好处。

好了。最后两个故事。首先，OpenAI推出了三个新的文本转语音模型。这些模型被称为GPT-4-0 Transcribe、GPT-4-0 Mini Transcribe和GPT-4-0 Mini TTS。

呃，旨在提高转录和文本转语音能力。因此，OpenAI，呃，他们的新模型可以通过API立即提供给第三方开发者，并在他们推出的一个新网站上提供，我认为这很酷，叫做open AI.fm。这是一个演示网站，供个人用户测试和自定义语音输入。所以这基本上是你这样的，好吧，这是什么意思？好吧，呃，

基本上，你现在可以将这项新技术集成到你的任何应用程序中。因此，如果你是开发者、软件工程师或大公司，这个模型非常，非常令人印象深刻。OpenAI凭借其Whisper技术已经成为该领域的领导者。

我喜欢这个，对吧？当一家公司说，是的，即使我们是该领域的领导者，我们也可以坐视不管，你知道，也许几年内都不会更新Whisper。不。他们完全改变了文本转语音的游戏。所以，呃，

它几乎好得令人害怕，但该模型允许用户通过文本提示更改AI语音的口音、音调、语气和情感品质。这些模型基于去年5月推出的GPT-4-0基础模型，但经过后期训练，可在100多种语言中实现卓越的转录和语音性能。所以是的，你可以进行文本转语音，但你也可以转录音频。

或语音转文本，对吧？因此，新模型的英语单词错误率低至2.4%，优于OpenAI之前的Whisper模型，而Whisper模型已经是该领域的领导者。因此，OpenAI引入了流式语音转文本，用于实时转录。我必须构建

呃，我自己一个小应用程序来帮助我为Everyday AI节目的嘉宾提出更好的问题。这使得对话感觉更自然一些。因此，该模型的定价从每100万个音频输入令牌6美元起，对于较小的模型，价格会降低。这就是更强大的模型。因此，这现在基本上是OpenAI与11 Labs和Hume竞争，呃，

就像我说的那样，OpenAI.fm正在举办一个非常罕见的，对于OpenAI来说，一个非常罕见的公开竞赛，以寻找其演示网站最具创意的用途。所以是的，我们将在我们的新闻通讯中分享链接和更多信息。好了，最后但并非最不重要的是，Claude。

欢迎来到2020年代，Claude。Claude终于拥有了互联网，WTF。好了，所以Claude，由Anthropic开发的AI工具，现在提供了网络搜索功能，就像五年后其他人一样。实际上不是，而是几年。

因此，此新功能目前仅在美国付费用户中可用，并扩展了Claude在各个行业提供可行见解的能力。因此，Claude的网络搜索功能使用户能够通过将其从互联网获取的实时数据集成到其响应中来访问最新的事件、趋势和信息。因此，在使用网络搜索时，Claude会提供直接引用，这很重要，

用于来源，使用户能够轻松地核实信息，并确保响应的透明度。因此，网络搜索，就像我说的那样，现在它是一个功能预览。因此，你必须在屏幕底部启用它。并且计划访问，计划将此功能推广到世界其他地区，以及未来的免费用户。

据报道，Anthropic正在使用Brave浏览器进行此网络访问集成，这在其子处理器列表的更新以及在两种工具中发现的相同引用中有所体现。所以。

Claude在这个问题上掉链子了。Anthropic团队掉链子了，对吧？拥有最新的信息至关重要，对吧？大约一年前，我发布了一个播客，这就是其中三个原因之一，我说，不要使用Claude。

像企业公司不应该将其用作前端聊天机器人。如果你通过API在后端使用它，则有所不同，对吧？因为那时你可以做更多的事情来确保准确性。你可以确保，对吧？设置你的rag管道，所有这些事情。直到这个网络搜索之前，我仍然，

有点危险，对吧？有点危险。如果你正在推出Cloud Access，我的意思是，除非你将其用于编码，我认为它是迄今为止最好的AI模型，用于编码软件开发，甚至都不接近，对吧？但总的来说，对于其他所有事情，在2025年拥有一个离线大型语言模型是完全愚蠢的，对吧？我认为最终……

像Anthropic一样，它错过了数十亿美元的收入，对吧？你们可能会认为我说这话很疯狂，但当我一年前做那个节目时，我收到了多家财富500强高管发来的信息，他们说，你说的完全正确。我们不会在前端接触Claude，因为它没有互联网访问权限。因为在这些情况下，你依赖的是……

非常旧的数据，对吧？你总是会有这个知识截止日期，对吧？哦，2024年8月，你知道，2024年10月，但这是最好的情况。许多大型语言模型都接受了这些庞大的数据集的训练。呃，其中的数据实际上可能已经有几年历史了。因此，很多人只是盲目地相信AI模型输出的内容，不知道它可能正在提取数据。那是两三四年甚至五年前的数据。呃，所以，呃，

我想你必须向Anthropic致敬，因为他们终于推出了这个，对吧？我开了一个玩笑。我说，这就像你是一家手机制造商，你第一次发布短信一样，就像，你怎么能在没有这个的情况下继续存在？太疯狂了，你知道，Anthropic现在才推出这个。但是，是的。

话虽如此，我可能会将Claude用于一些我之前没有使用Claude执行的任务，原因正是如此，因为它实际上可能有点危险，特别是如果你不知道自己在做什么，在它拥有网络访问权限之前盲目地使用Claude做很多事情。所以至少这很好，但我们一开始就到达那里有点疯狂。好了。

让我快速回顾一下本周最重要的AI新闻，AI新闻，呃。呃，首先我们谈到了英伟达发布了他们新的AI重点桌面系统，GTX，呃，对不起，呃，DGX，它们在GTC大会上发布。同样在GTC大会上，英伟达公布了，呃，它的GPU路线图一直到2028年，呃，Zapier和微软，呃，

现在正式支持MCP，模型上下文协议。宾夕法尼亚州刚刚发布了其AI试点项目的一些初步调查结果，他们正在向州政府工作人员推出ChatGPT访问权限。Adobe与微软合作，正在推出一些

Adobe营销AI代理在Microsoft 365副驾驶平台中。OpenAI悄悄地为付费ChatGPT用户提供了无限的Sora。据报道，苹果计划将其AI驱动的摄像头带入其可穿戴设备，如手表和AirPods。

联邦机构GSA在对裁员和监控的担忧中启动了一个生成式AI工具。谷歌宣布，我认为，在其Canvas和音频概述中为付费前端Gemini聊天机器人用户提供了两个非常好的功能。

OpenAI推出了三个新的语音AI模型和文本转语音模型，即使他们的Whisper模型是该领域的领导者。最后但并非最不重要的是，Claude终于推出了

实时网络搜索功能。好了，各位，我希望这对你们有所帮助。如果是这样，请告诉我。转发这个，好吗？这没有帮助，对吧？人们总是说，哦，乔丹，我学到了很多东西。我能做什么？分享这个。点击转发按钮，对吧？我认为很多人害怕AI，很多人迷失了方向，

并没有真正利用它。如果你不保持最新状态，你就有落后的风险。你们相信我，因为我做这个，这是我的工作。对于你来说，拥有一个真正的工作并同时了解AI世界中的所有事情以及它将如何影响

你如何工作，它将如何影响你的公司，它将如何影响你未来的职业生涯，这几乎是不可能的。所以我们为你做这件事。所以请通过告诉别人关于这个电子邮件，你的部门，对吧？如果你正在做一个关于AI的演示，请将我们的播客作为免费资源放在那里。嗯，

在我们的网站上。所以请确保你注册我们的免费每日新闻通讯，以回顾今天的节目。但在我们的网站上，你现在可以收听超过480集的播客，视频。我们也提供了文本摘要。这是一个免费的生成式AI大学。所以我希望这对你们有所帮助。请确保你明天和本周剩余时间加入我们。很多令人兴奋的，

在GTC上我做的公告、节目和采访，以及我认为我们将要做那种锦标赛风格的事情。我看到我们的一些直播观众说，太棒了，带来这个。所以我们将这样做。所以感谢你们的收听。希望明天和每天都能看到你们回来，了解更多日常AI。谢谢大家。

这就是今天Everyday AI节目的全部内容。感谢你们的收听。如果你喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。更多AI魔法，请访问youreverydayai.com并注册我们的每日新闻通讯，这样你就不会落后。去打破一些障碍，我们下次再见。

Ep 488: NVIDIA’s big AI advancements, Claude gets the internet, ChatGPT gets new voice models, Gemini goes Canvas and more aI news that matters 57:51 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

Ep 488: NVIDIA’s big AI advancements, Claude gets the internet, ChatGPT gets new voice models, Gemini goes Canvas and more aI news that matters