EP 537: Perplexity goes agentic, Google Gemini updates, NYT/Amazon team up & more AI News That Matters

2025/6/2

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

Jordan Wilson：Perplexity正在大力转向代理，这是值得期待的。纽约时报与一家大型人工智能公司建立了合作关系，尽管它正在与大型人工智能公司作斗争。谷歌 Gemini 在工作区用户体验方面变得更好，而且用户无需费力。如果你每周花费大量时间来了解人工智能领域的动态及其对你、你的公司和你的职业生涯的影响，那就停止这样做。每周一加入我们的“人工智能要闻”环节。我是 Jordan Wilson，欢迎来到 Everyday AI。这是一个每日直播播客和免费的每日新闻通讯，帮助像你我这样的日常商业领袖不仅学习人工智能，还学习如何利用它来发展我们的公司和职业生涯。你需要确保注册免费的每日新闻通讯。我们会回顾每天节目中最重要的一些点，并在新闻通讯中为你提供你需要了解的一切信息。我们的网站上有超过 530 集节目。大部分周一，我们都会发布“人工智能要闻”。如果你每周只能参加一次，或者你总是花费太多时间试图阅读、解读和理解人工智能领域的新闻，并且想知道这些新闻是否有意义，还是只是营销噱头，那么请参加我们周一的节目。加入我们周一的节目。Perplexity 正变得疯狂。

Deep Dive

Chapters

Perplexity Labs, a new agentic mode from Perplexity, enables users to create complex reports, dashboards, and web apps using AI-driven research. It leverages third-party capabilities and offers features like an app tab for building dashboards and an assets tab for downloading generated content. While not perfect, its slide creation capabilities are impressive.

Perplexity Labs offers AI-driven research capabilities for report and app creation.
It features an app tab for dashboards and slideshows and an assets tab for downloading generated content.
The slide creation feature is particularly noteworthy, surpassing other similar tools.

Shownotes Transcript

这是 Everyday AI 节目，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听，获取提升您的职业、业务和日常生活的实用建议。

Perplexity 正在大力转向代理，我们对此表示支持。纽约时报，即使它正在与大型 AI 斗争，也刚刚与大型 AI 公司建立了合作伙伴关系，而 Google Gemini 对于工作区用户来说也变得更好，您甚至不必动手。上周之后，AI 新闻世界里还有很多事情发生，

经历了我们有史以来最大的一周 AI 新闻。本周发生了许多较小但有意义的更新。因此，如果您每周都要花数小时的时间来了解 AI 世界正在发生的事情以及它将如何影响您、您的公司和您的职业生涯，请停止这样做。只需在周一加入我们的“AI 新闻 matters”环节即可。

大家好？我的名字是 Jordan Wilson，欢迎来到 Everyday AI。这是您的每日直播播客和免费每日新闻通讯，帮助像您和我这样的日常商业领袖不仅学习 AI，而且学习如何利用它来发展我们的公司和职业生涯。因此，如果您想这样做，那就从这里开始，从这个即兴的

未经编辑的直播和播客开始，但您实际利用我们所学知识的地方是访问我们的网站 youreverydayai.com。在那里，首先，您需要确保注册免费的每日新闻通讯。我们会回顾每天节目的最重要要点，并在该新闻通讯中提供您需要了解情况的所有其他信息。此外，在我们的网站上，现在有超过 530 集。您可以去收听。

阅读，观看视频。您需要的一切都按类别排序，以便成为公司中最了解 AI 的人。好的。就像我说的，大多数星期一我们都会报道重要的 AI 新闻。因此，如果您每周只能加入我们一次，或者您总是花太多时间试图阅读、解读和理解 AI 新闻。而且您想，这有意义吗？还是营销策略？

周一加入我们。我无法直接告诉您。直播观众，很高兴见到你们。

Jose 来自智利圣地亚哥。很高兴看到它。Fred 来自芝加哥。YouTube 机器上的直播团队，例如 Keith。感谢您的收听。来自肯塔基州的 Christopher。Brian 为明尼苏达州坚守阵地。劳德代尔堡的 Joe。他说，今天是成为代理的好日子。是的，很多代理新闻。好了，让我们直接进入正题。首先，Perplexity 正在疯狂发展。

因此，Perplexity 推出了一个名为 Perplexity Labs 的新工具或新模式，该工具或新模式使用户能够创建复杂的报告、电子表格仪表板，甚至 Web 应用程序，所有这些都由 Perplexity 提供的大量 AI 驱动研究支持。

因此，这种新的代理模式的工作原理是花费大约 10 分钟或更长时间进行自我监督的任务，利用第三方功能，例如深度 Web 浏览、代码执行和生成图表和图像等可视化效果，甚至幻灯片和电子表格。

因此，Perplexity Labs 基于公司现有的 AI 搜索产品，包括其旗舰型对话式搜索引擎及其深度研究模式，该模式在大量数据收集后会生成深入、来源可靠的文档。

因此，Labs 背后的 AI 代理可以组织数据、应用公式、生成图表、创建文本文档、电子表格、仪表板，甚至小型网站，而无需用户具备编码技能或开发工具。

因此，用户可以通过项目库访问示例和模板，该项目库展示了用例，例如交互式战争地图、股票投资组合仪表板、比较传统和 AI 管理的投资以及未来派社交媒体平台设计。因此，新的工具或模式具有一个应用程序选项卡，用于使用 Jeff 构建简单的仪表板、幻灯片和交互式网站。

所有生成的资产、图像、图表、CSV 文件和代码都可以在资产选项卡中下载。因此，目前 Labs 仅适用于 Web、iOS 和 Android 上 Perplexities 专业版计划的订阅者，并计划很快将其可用性扩展到 Mac 和 Windows 应用程序。直播观众。你们有没有使用过。

呃，实验室？因此，我实际上对其中一部分印象非常深刻。呃，然后还有一部分我就像，好吧，这并没有那么好。嗯，

我真正喜欢的一件事是我刚才在最后读到的内容，即它是如何排序的。对。因此，很多时候，当您可能使用其他类似工具时，我想我现在可以将其与之进行比较的最相似的东西是 Claude artifacts 或类似的 Google、Google Gemini 的画布或 Open AI chat GPT 的画布。非常相似，因为它，它，

结合了来自网络的研究和答案收集，但它可以创造出比纯文本更有价值的新事物。因此，至少在我最初的测试中，Web 应用程序功能还可以。

我喜欢能够拥有该资产选项卡，因为这是所谓的“竞争性”工具或模式不一定具有的功能。因此，如果它是一种非常多媒体的东西，那么资产选项卡确实很好。

但我认为它在生成幻灯片方面做得相当不错，对吧？我们不太常谈论的一件小事，但我们却都在上面花费了大量时间。它们不会是外观极佳的幻灯片，对吧？想想如果您打开 PowerPoint 并查看 10 个模板，其中有两个很糟糕，有两个很棒。然后大约有六个是，好吧，这些还可以，对吧？

我认为在最佳情况下，Perplexity Labs 会达到这种程度，哦，还可以的模板。因此，这不是一个设计过度的东西，但它实际上比我想象的要好得多，尤其是在幻灯片创建方面，这是我提到的其他平台不太擅长的事情。除了

像 Gamma 或 Beautiful.AI 这样的专用幻灯片工具，对吧？目前还没有很多 AI 研究工具也能创建幻灯片。就像我说的，

这就是如此多的商业知识工作者所做的。我们创建幻灯片。即使是现在，我的屏幕上也有我们的播客观众的幻灯片。我总是对新闻文章的屏幕截图进行某种处理，然后在新闻通讯中链接到它。因此，您可以，首先要感谢我阅读文章的公司，然后您可以返回查看它。但我几乎每天都会创建幻灯片。

所以我试图将某些东西提升到我想要使用的水平。它还没有达到那个水平，但当我这样说时，它实际上比我想象的要好得多，嘿，这是我今天要回顾的 10 个新闻故事。去研究它们，逐点列出它们，并创建一个幻灯片。因此，它还没有达到我想要使用它的程度，但这绝对是可能的。

可以接受，对吧？我的用例不同。我喜欢为许多人观看直播而展示我的幻灯片，但这很好。这很好。我印象非常深刻。Mahan 在这里说 Perplexity 具有创新性，将会发展壮大。我对此确实有想法。

因为我在 1 月份说过，我说 Perplexity 将不得不转向，否则他们将被压垮。我们在这里看到的是，好吧，我认为这是一个相当令人印象深刻的转变，对吧？是的，正如 Harvey Castro 博士在这里指出的那样，说 Manus AI 刚刚添加了幻灯片。这也是一件大事。因此，如果您没有非常密切地关注这个领域，那么这是一个非常流行的版本，Manus 是

是一个 AI 代理，类似于 OpenAI 的操作员，一个使用互联网的代理计算机，他们大约一周前刚刚推出了幻灯片模式。Manus AI 幻灯片的好处是它们也可以编辑。而像 Perplexity 中的东西，它们不一定可以按照您想要的方式进行编辑，而无需重新生成整个内容。如果您重新生成整个内容，它可能会更改您不希望更改的 10 件事情，而只更改您希望更改的两件事。

但我认为到目前为止还不错。Douglas 说，我已经使用 Gemini Canvas 并排比较了仪表板。对我来说，我更喜欢 Perplexity Labs 的输出。是的，当然。这取决于您要构建的内容，对吧？很多时候，我试图在这些，你知道，工件或画布等中构建的东西更具交互性和视觉性，而不一定是基于资产或基于研究的。它更像是，你知道，构建小型迷你网站或类似的东西，或者生成某些类型的代码。因此，至少对于，

我的用例，我可能会更多地使用 Perplexity Labs 来收集信息。因此，将深度研究与幻灯片形成相结合。这就是我将它用于的目的。然后，当您需要能够下载这些资产时，这就是我个人会做的事情。但我认为有很多好的用例

此外，这里还有一个很好的说明。我的笔记中稍后有提到，但是，是的，Perplexity 确实有他们一直在慢慢推出的评论浏览器。他们大约一周前进行了首次推出。到目前为止，令人印象深刻。

好的。我们的下一条 AI 新闻是，Hugging Face 发布了一个名为 Reachy Mini 的开源机器人，为开发人员提供了价格合理的 AI 硬件。因此，这款新的开源机器人旨在帮助开发人员测试和构建 AI 应用程序。它的价格在 250 美元之间。是的，250 美元。哇。

不是 25 万美元。这是一个小机器人。对于播客观众来说，这是，你知道，可爱的小，呃，桌面大小的机器人，但它使其比市场上的其他机器人硬件更容易获得和更经济实惠。因此，Reachy Mini 类似于一个小型瓦力风格的半身像，它可以转动头部并通过语音与用户互动。

因此，该产品被定位为一种类似于树莓派的机器人，通过提供价格合理、可定制的硬件来进行实验，从而瞄准 AI 开发人员。此外，Ritchie Mini 的开源性质意味着开发人员可以修改其软件和硬件，我认为这意味着这最终将推动人形机器人和，呃，

像机器人一样进入主流，进入家庭，对吧？我认为将会发生的是，这款新的 Ricci Mini 可能会非常受欢迎，因为它只需要 250 美元到 300 美元。它是开源的。因此，您必须了解基础知识。您不必成为极客，但您必须有点傻才能设置并运行它。但之后，我确实看到很多家庭可能会使用这件硬件

呃，去做，我需要再次检查一下价格，好吧，呃，有时当我把我所有的呃，笔记呃，放在一起时，我有点呃，累了，我想再次检查一下这个价格，呃，因为我在这里的屏幕截图呃，来自文章说 3000，而我的笔记说的是其他内容，所以是的，我犯了一个错误，不是 250 美元，好吧，糟糕的人类

我只是幻觉了，因为我有时会很累。但我这里有咖啡。对不起，3000 美元，不是 300 美元，3000 美元。尽管如此，如果您进行比较，例如特斯拉 Optimus Gen 2，预计其成本可能约为 25,000 美元，而且它甚至还没有发布，对吧？即使我们说，哦，我们很快就会得到这些机器人，对吧？然后你还有其他

有其他更先进的人形机器人，其成本高达数十万美元。因此，对于一个开源机器人或人形机器人来说，只需 3000 美元，还不错，还不错。

而且我确实看到成本下降了，可能不会像我意外说的一样降到 250 美元，少了一个零，但可能会降到不到 1000 美元。我可以看到这种情况在几年内发生。因此，我确实认为这对机器人技术以及家用人形机器人来说都是一个巨大的福音。你知道，玛丽说，哦，乔丹，我从未想过你会产生幻觉。是的，这是一个特性，而不是错误。好的，我们的下一条 AI 新闻。

好吧，Google Gemini 变得更易于使用了。因此，Google 已在 Gmail 中启动了自动 AI 驱动的电子邮件摘要卡，这些卡片现在会出现在电子邮件顶部，而无需用户点击以获取摘要。

因此，此更新意味着 Gemini 将主动总结冗长的电子邮件线程，并在收到新回复时保持摘要更新。这就是我期待的部分。因此，目前，工作区管理员可以通过管理员委员会控制用户是否可以访问这些摘要，从而为组织提供一些监督。因此，如果您想知道，嘿，为什么我没有看到这个？这可能是因为您的工作区管理员可能尚未启用它。

因此，默认情况下它是开启的，许多人从隐私角度来看认为这是有问题的，但我要说的是。

这并不对，因为无论默认情况下是否启用此功能，您都将使用此功能。因此，在欧盟、英国、瑞士和日本等某些国家/地区，它将是默认情况下选择加入或关闭。在美国，当此功能完全推出后，它将默认选择加入，但您可以选择退出。因此，再次强调，一旦您的工作区管理员启用它。

因此，生成摘要的手动选项仍然可用，Google 称之为电子邮件顶部和 Gemini 侧面板中的可点击芯片。好的，Google Drive Workspace 的另一个小型但仍然相当大的生活质量改进。

是 Google 在 Gemini 中推出的一项新功能，它允许工作区用户从 Google Drive 中保存的视频中快速获取摘要和见解。因此，同样，保存 Google 或抱歉，保存 Google Drive 中的视频，Gemini 现在将自动使用其 AI 技术并立即总结该内容，而无需您进入并要求它进行总结，这真是太棒了。

在 Google Drive 中拥有此功能真是太好了。出于这个确切的原因，我花了大量时间在 AI Studio 中使用它。

因此，Google Drive 中的 Gemini 现在不仅支持视频文件，而且还通过扩展其之前的文档和 PDF 摘要功能来支持视频文件。因此，用户可以与 Google Drive 内的聊天机器人界面进行交互，以请求摘要或特定详细信息，例如列出记录会议中的行动项目或突出显示公告视频中的主要更新。

但是，此功能需要启用视频字幕，并且可以通过 Google Drive 的概述预览器或新的浏览器选项卡进行访问。目前，它仅适用于 Google Workspace 和 Google One AI Premium 用户的英语，以及任何具有 Google 的用户

Gemini 商业或企业附加组件，预计将在未来几周内全面推出。因此，您可能还看不到它，但如果您使用的是付费 Google 计划，您很快就会看到此功能。所以。

我不知道。这些 Gemini 功能值得大书特书吗？你会使用它们吗？我知道对我个人而言，我将使用它们，因为如果说实话，这些功能在 Gemini 的默认工作区应用程序中并不是那么好。Google AI Studio 非常出色。因此，我不断地将冗长的电子邮件线程带到 Gemini AI，例如超长的电子邮件线程，因为上下文窗口能够使用 Gemini 2.5，呃，专业版是，是疯狂的。呃，呃，

以及视频。我现在一直在使用 Google 的 AI Studio 来完成很多这些事情，但将这些功能直接推出到工作区应用程序中确实很好。希望集成和推出顺利进行。有时速度非常慢，尤其是在任何此类实用程序提供给工作区用户时。因此，不幸的是，有时更多类型的优秀

AI 功能最初不会推出给工作区用户。例如，我使用的是新的，你知道，每月 250 美元的 Google Gemini AI Ultra 计划，但我无法通过工作区访问它，这绝对很糟糕，对吧？因此，我无法真正将其与我的业务数据一起使用。我必须将其与我的个人 Gmail 帐户一起使用。因此，如果我想利用更多

强大的 AI 功能，我必须设置一个自动化程序，将我的所有工作电子邮件和文件发送到我的个人 Gmail 帐户。因此，至少 Google 将这些功能推出到工作区中是一件好事。很高兴看到它。下一个。

这对联邦政府来说不是什么好事，但一份由罗伯特·F·肯尼迪 (Robert F. Kennedy Jr.) 领导并由卫生与公众服务部发布的政府医疗保健政府医疗报告。它引起了很多争议，因为这份报告被发现包含大量虚假和有偏见的

拙劣的科学引文，引发了人们对在官方政策文件中使用生成式 AI 的担忧。据美联社和《华盛顿邮报》报道。白宫回应批评，更新了报告并纠正了引文错误，但轻描淡写地说这个问题是，啊，这只是一件小格式问题，而不是巨大的格式问题

一个巨大的错误。因此，至少有一项研究，因此它是为患有哮喘的儿童过度处方口服皮质类固醇。它在报告之外并不存在。好的。所以……

根据报告，522 个脚注中的 37 个被重复多次。此外，报告中的几个 URL 包含标签 OA 站点，该标签

这是一个与 OpenAI 相关的标签，因此他们甚至没有费心去尝试说，啊，这不是 AI 生成的，他们包含了那些清楚地表明这是由大型语言模型生成的引文，呃，看起来不太好

此外，报告中谈到的某些研究被正确引用，或者它们歪曲或不准确地总结了。例如，这项研究中有一个说法，关于儿童躁郁症和注意力缺陷多动障碍诊断增加了 40 倍，这与精神病学有关……

我甚至说不出话来，一本直到被引用的时期多年后才出版的精神病学手册。所以，是的，只是一份与健康相关的政府报告，其中包含大量虚假信息。因此，当这种情况不仅发生在联邦政府层面，而且发生在

对于像健康这样极其重要的事情来说，这看起来并不好。您是否仍在四处奔波，试图弄清楚如何利用 AI 发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到 GenAI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

Adobe、Microsoft 和 NVIDIA 等公司已与我们合作，因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些美国最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训他们数百名员工如何使用 Gen AI。因此，无论您是在寻找数千人的 chat GPT 培训，

或者只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在这些 AI 圈子中奔波，并帮助您的团队领先，并构建一条通往 GenAI 投资回报率的直线路径。玛丽说，似乎政府正在仓促行事，没有首先检查数据。

这就是它看起来的样子。好的。说到检查数据，您必须检查这个故事。我没有想到这一点，因为亚马逊和纽约时报达成了一项协议。我将在详细介绍之后告诉您为什么这很重要。以下是详细信息。

《纽约时报》已与亚马逊达成一项多年期协议，允许这家科技巨头在其 AI 平台上使用其编辑内容。因此，该协议使亚马逊能够将《纽约时报》及其其他房产（如《纽约时报烹饪》和体育出版物 The Athletic）的实时摘要和简短摘录整合到亚马逊产品（如 Alexa）中。

Alexa 最终会变得更聪明吗？希望如此。因此，亚马逊将使用《时代》的内容来训练其专有的基础 AI 模型，从而帮助提高其 AI 驱动服务的质量和相关性。协议条款未披露，但该合作伙伴关系反映了新闻媒体选择与科技公司达成许可协议而不是就 AI 内容使用提起诉讼的日益增长的趋势。

这就是为什么这非常值得关注的原因。好吧，这是《纽约时报》达成的第一个大型许可合作伙伴关系。这是因为他们拥有最值得关注的，从技术上讲是最著名或臭名昭著的（取决于其结果）。

针对微软和 OpenAI 提起的诉讼。因此，《纽约时报》于 2023 年 12 月提起此诉讼。它仍在法院审理中，《纽约时报》正在起诉微软和 OpenAI，指控它们复制了数百万篇《纽约时报》文章。因此，《纽约时报》在其诉讼中要求的一件事是销毁 GPT 技术。

这再次强调，我认为几乎没有机会真正发生，因为现在全世界都依赖于 GPT 技术。即使从理论上讲可以销毁它，现在也为时已晚。但这实际上会使世界经济陷入停滞。

然而，这极其值得关注，因为这是《纽约时报》第一次与大型科技公司达成协议，就像，是的，继续吧，用我们的数据训练你的模型。所以我并不是说他们是最后一个加入行列的媒体巨头，但我一直都在这么说。哟，我当了七年记者，对吧？所以你可以说我对哪一方都有偏见，对吧？但是——

新闻机构也没有其他选择。当涉及到 AI 时，有三种路线，对吧？因为很多新闻机构都认为，哦，好吧，我们将阻止所有这些，你知道，网络爬虫。因此，他们无法抓取我们的信息。这行不通，因为首先，爬虫并不总是听从您的指示，您的机器人不是文本文件。首先，如果您想出现在 Google 上，

你没有选择。您无法选择退出 Google AI 培训，但可以选择加入 Google 搜索。因此，如果您想被发现，您必须选择加入。所以你或者

慢慢死去，因为人们将不再找到你。如果您想选择退出，您会说，啊，我不希望大型语言模型抓取我的内容。我将选择退出。好吧，首先，祝你好运。其次，你会死，因为你不会获得新用户。因此，您要么慢慢死去，要么起诉，对吧？您起诉所有这些公司，许多媒体和新闻机构都在这样做，或者您建立合作伙伴关系。没有其他方法。

真的没有其他方法。即使您试图阻止所有这些 AI 抓取程序从您的网站获取信息并将其放入其训练集中，即使您这样做，仍然有其他抓取程序抓取整个互联网。他们制作了这些第三方数据集。然后，大型语言模型和 AI 公司仍然会根据这些数据集进行训练。

所以没有办法避免。因此，《纽约时报》的这一声明非常有趣且值得关注。但是，我们能否请，最后，我们什么时候才能获得由 Claude 提供支持并拥有所有这些信息的 Alexa？它应该作为付费服务推出。我仍然没有它。我会为此付费。

我会付钱，对吧？能够与 ChatGPT 或 Gemini Live 交谈显然很棒，对吧？当我手机在我附近时，但我仍然经常呼叫 Alexa 或 Siri，而且我可以从与砖块交谈中获得更好的答案。它令人难以置信地愚蠢。

对吧，Alexa Siri。所以请，我们能否尽快获得这个更智能的版本？我不指望苹果能做到，但至少亚马逊和 Alexa 能否请尽快推出？好的。Douglas 说乔丹现在说 Alexa，并在科技播客期间启动了数千台亚马逊设备。是的，我听说这种情况经常发生。对不起。

我需要一个暗号。我如何在不这样说的情况下谈论这些事情？我可以拼写出来，对吧？但这需要很多工作。好的，下一个。而且我通常不会谈论很多关于创意方面的公告，对吧？因此，你知道，照片和视频工具或音频工具。但我本周有两个我认为是重大公告的。

或者从质量角度来看，值得讨论。但是，直播观众，如果您想查看有关这些视觉工具的更多更新，请在 AI 新闻综述中告诉我。通常，我关注的是大型语言模型。因此，通常，我关注的是 OpenAI、Google、Anthropic、

微软、Meta，对吧？一些大型科技亿万富翁公司，因为我认为这些公司会影响我们大多数商业领袖。因此，如果您想了解有关多媒体或创意方面的更多新闻，请告诉我。但我认为 Black Forest Labs 的这个公告足够重要，值得讨论，因为质量是，

非常令人印象深刻。好的。如果您想说最先进的 AI 图像生成，它就在那里。因此，Black Forest Labs 推出了 Flux One Context。播客观众，这是带有 K 的上下文。好的。一个新的图像生成和图像编辑 AI 模型系列。

因此，最先进的模型称为 Flux One Context，它可以根据文本提示和可选参考图像生成图像，其速度比领先竞争对手快达 8 倍。据 Black Forest Labs 称。因此，该套件包括两个主要模型，Flux One Context，它允许多步骤图像细化，同时保留样式和字符，以及 Flux One Context，

Max，它强调速度和提示准确性。因此，与以前的模型不同，这些新版本无法离线下载。好的。所以是的，很多人都在说，哦，等等，我可以，你知道，这是一个开源的。这个不是。好的。因此，您现在无法以这种方式下载并使用它。据 Black Forest Labs 称，目前它仅在私人测试版中提供，用于安全和测试目的。

因此，他们还推出了一个模型游乐场，为用户提供 200 个免费积分，以便用户可以在其网站上在线试用这些模型。因此，此次发布正值人工智能图像生成领域的竞争日益激烈之际，谷歌和 OpenAI 最近发布了他们自己的高级模型。

据报道，该公司 Black Forest Labs 去年寻求 1 亿美元的资金，估值至少为 10 亿美元，该公司位于德国，由 Stability AI 团队的前成员创立。

那么，我为什么要谈论这个呢？好吧，我们已经多次谈到过，尽管没有详细说明，但谷歌 Gemini 在使用简单的文本提示编辑图像方面有多么出色。然后，我们显然介绍了 OpenAI 的 GPT-4O 图像生成，对吧？它在网上多次走红。但我认为至少在今天，

Black Forest Labs 的 Flux one context 与那些不相上下，甚至更好。这就是我认为它值得在新闻节目中讨论的原因。不要再相信任何东西了。你不能写下你在网上看到的任何东西，而应该思考，这是人工智能生成的还是真实的？

对。从现在开始，你可能应该假设。对。我认为这将增加，这就是为什么他们没有将其作为开源模型提供的原因。这将加剧深度伪造问题。对。对席卷全国，至少在美国的错误信息和虚假信息疫情来说，

随着这些模型越来越好，你可以获得角色一致性，你可以编辑照片，你甚至无法分辨。然后这些可以作为视频的基础，以及像 Google VO3 这样功能强大的工具，对吧？这很可怕。你应该假设。

你现在在网上看到的一切，对吧？最近有很多报道。也许我会专门做一个关于这个的节目，但是人们正在发起欺诈性的 GoFundMe，对吧？人们显然正在将其用于敲诈等许多不良行为。这将成为一个问题。但对于我们的观众来说，从现在开始你应该始终假设，

所有内容都是人工智能生成的。你看到的一切，除非你知道并非如此，对吧？甚至可能是我，我会告诉你，对吧？但你应该始终假设，因为这些模型现在已经如此出色了。我认为公众可能花了 20 年，或者至少 10 到 15 年的时间才想出这个概念，哦，东西可以被 Photoshop 处理。

你在网上看到的东西，或者杂志上的东西，你在电视上看到的东西。哦，某些东西可能是用 Photoshop 处理的。某些东西可能是经过数字修改的。现在，我认为你必须以默认值开始。对于你看到的一切，无论是广告、UGC 广告，还是你在电视上看到的东西，YouTube 上的预告片信息，

你从名人那里看到的东西，你会想，哦，这很有趣。我没想到这个人会有这种看法，甚至是你的最喜欢的新闻主播。假设所有内容都是人工智能生成的，除非你能确认它不是。所以，如有疑问，请假设它是人工智能生成的。而且……

除此之外，我们的下一个 AI 新闻故事是，11 Labs 推出了他们的 Conversational AI 2.0。这对其企业语音代理平台来说是一个相当重要的更新。这是在其 Conversational AI 平台首次发布四个月后发布的。

如果你不了解 11 Labs，我会说他们传统上一直是领导者或领导者之一，可能是 1A 或 1B，在文本转语音方面。尽管现在你看到了很多竞争对手，包括开源的和来自 OpenAI 和谷歌等大型科技集团的竞争对手。但是新的 11 Labs 文本转语音对话平台，其 2.0 版本中的这些新更新，具有最先进的技术。

轮流发言模型。这很好。你可能会想知道，好吧，这为什么重要？好吧，就像我说的那样，假设你与之交互的所有内容都是人工智能生成的。我假设可能在一年的时间内，无论何时你拨打呼叫中心，你首先都会拨打或与人工智能语音通话，对吧？或人工智能语音树。好吧，这并不一定是一件坏事，

对。与在不同国家/地区的呼叫中心与某人交谈相比，你无法真正听到任何声音，或者与那些，呃，你知道的，计算机生成的呼叫中心交谈。你只是，你知道的，人类，人类，我

接线员，对吧？你只是大喊大叫，试图绕过，呃，机器人提示。所以我认为这并不一定是一件坏事，但我认为它是，呃，像 11 labs、Conversational AI 2.0 这样的东西。这将是我们与世界其他地方互动的方式的未来，尤其是在电话和网站上。所以这个轮流发言，呃，

进步，我认为这就是它值得关注的原因。所以，这个新模型在识别另一端的人是否已经说完话方面做得更好一些，对吧？他们有一些演示，有人在说话，看起来好像，哦，也许他们只是在思考或暂停，或者正在检索一些信息，而通常情况下，语音 AI 可能会立即打断，或者

当你完成后，可能会出现很大的延迟。这就是 11 Labs 中我看到的演示中令人印象深刻的地方。此外，它现在集成了语言检测功能，允许进行无缝的多语言对话，并且更新

还引入了内置的检索增强生成或 RAG 系统供公司使用，使语音代理能够即时访问外部知识库，同时保持低延迟和隐私，这对于医疗保健和客户支持等行业尤其有用。

现在也支持多模式通信，因此代理可以通过语音、文本或两者进行交互。是的，公司可以构建这些对话式 AI 代理，并将它们非常简单地嵌入到他们的网站上，或者你可以将其用作传统的电话接线员或电话操作系统。

因此，现在，企业可以使用批量外拨呼叫自动化大规模外展，允许同时进行多次呼叫以进行调查、警报或个性化消息。因此，目前，订阅价格范围从具有有限分钟数的非常有限的免费层到每月超过 1300 美元的企业计划层。所以这取决于。

你将使用它的频率或数量。这些只是基本计划。因此，如果你是一家真正的企业，并且想要将其扩展到整个呼叫中心类型，那么每月将花费超过 1300 美元。这些只是基本业务计划。好的。我们的下一个 AI 新闻。

就业末日即将来临。至少根据 Anthropic 首席执行官 Dario Amodi 的说法，他警告说，人工智能可能会在五年内消除多达 50% 的所有入门级白领工作。

因此，Anthropic 首席执行官上周进行了一次简短的媒体巡回演出，就在他们的 Claude 4 产品发布后不久，并且，你知道的，对，嘿，我们都在构建这种强大的 AI，它将夺走很多工作，发出了警报。因此，Amodi 预测，由于人工智能驱动的自动化，美国失业率可能会飙升至 10% 到 20%，这比目前的 4% 有了大幅跃升。

4.2% 的失业率。所以他说，社会或立法者没有承认对白领工作的威胁，并且其影响将比大多数人预期的更快到来。所以

关于这个故事的更多内容。实际上，我会在明天预告一下。所以我不会花更多时间谈论这个，因为我们将在明天进行我们的“热议周二”节目，正是因为我认为这个需要进一步探讨。我对这个有一些看法，特别是所有这些小型媒体巡回演出的时机。好的。

好的。所以请务必收看明天的节目，我们将详细介绍这一点。最后但并非最不重要的是，根据彭博社记者 Mark Gurman 的报道，苹果的 AI 大会，或者说苹果的 WWDC 大会今年将不会真正关注 AI。这可能最好不过了。所以。

在 WWDC 2025 上，苹果预计只会展示人工智能方面的微小进步，这距离他们全力投入人工智能并遭遇失败整整一年了。据报道，这表明苹果意识到他们在人工智能方面远远落后。而且他们还面临着许多集体诉讼，对吧？因为所有这些 AI 功能，他们甚至大胆地……

我的天哪，试图重新命名 AI，称之为苹果智能，去年在他们的全球开发者大会上，他们，你知道的，炒作了所有即将推出的 AI，呃，你知道的，AI 将推出到 iPhone 上，他们甚至还制作了一堆营销广告，现在他们正面临着许多集体诉讼，因为他们宣布和营销的大部分内容从未实现，呃，所以

根据这份报告，最大的 AI 新闻预计，这是下周 6 月 9 日。所以从今天算起一周后，苹果 WWDC 大会将正式启动。所以最大的 AI 新闻将是苹果将其拥有约 30 亿个参数的设备上基础模型开放给第三方开发者。看起来似乎不会有很多 AI 宣布，这可能最好不过了，因为苹果……

我迫不及待地想看有人拍一部电影，讲述这可能是现代商业史上最大的失败之一，对吧？苹果无法成功推出任何真正有用的 AI 部分，而他们落后于谷歌等主要竞争对手多年，

三星在设备方面，微软，对吧？他们落后太多了。这简直是可笑。所以这份报告中还有几件事。所以苹果计划在其新的操作系统中引入一些较小的 AI 相关功能，他们也正在重命名操作系统。它现在将被称为 iOS 26。所以他们正在调整设备。

操作系统编号与年份相符。显然，他们花了数百万美元与咨询公司合作，这就是他们得到的，对吧？而不是，我不知道，我们现在使用的是 iOS 17 或 18。Mac OS 上也是如此。所以他们只是将其更改为发布年份。无论如何，苹果确实计划在下一个操作系统中引入一些 AI 相关功能，包括新的电池，

供电管理模式、与 AirPods 和 Series 集成的改进型 Translight 应用程序，以及将 Safari 和照片中的一些应用程序功能标记为 AI 供电。

所以，著名的彭博社记者 Gurman 几乎每次都能正确预测，并且是发布所有苹果新闻的人，他将此描述为苹果的“空档年”，这太搞笑了，对吧？就像，是的，我们将继续坐视不管，对吧？苹果试图在两周前宣布的内容之间宣布的任何内容

微软和谷歌在他们各自的，呃，Build 和 IO 大会上宣布的内容之间。如果苹果试图像去年那样做 AI，他们会被嘲笑，他们的股票也会暴跌。我会预料到，对吧。我不，我不是，我不是你的财务分析师，但我预计苹果的股票在未来一两个月内不会表现良好，呃，因为这个空档年。所以我喜欢，呃，

我喜欢这样描述它。但是根据报道，苹果正在积极开发更先进的 AI 项目，包括 Siri 的大型语言模型版本、重新设计的快捷方式应用程序、专注于健康的 Mulberry 项目以及类似 ChatGPT 的带有网络搜索功能的竞争对手。

但在大多数情况下，我们将看到的是，他们基本上，你知道的，苹果拥有他们自己的边缘 AI 模型，并且他们拥有他们自己构建的内部大型语言模型的更大版本。他们基本上会将其开放给第三方开发者。因此，使用其应用程序的开发者可以利用设备上的 AI，最终这实际上可能比苹果自己尝试更好，因为他们失败了，而且失败得很惨。所以。

呃，这就是总结，艾莉森只是说，说真的，苹果，是的，说真的，呃，YouTube 上的大坏蛋只是用一堆捂脸表情符号来谈论苹果智能，这已经算是委婉的说法了，好的，这就是我们对发生的事情的回顾，但我们有一个新的短片，嘿，如果你仍然在直播中

如果你想在未来的“AI 新闻”节目结尾添加这个小片段，请在下面输入“是”或“否”，对吧？我只是称之为“谣言和未来展望”。好的，直播观众需要两秒钟。你甚至可以说 Y 或 N。你想听吗？所以这些是一些谣言和未来展望？你应该期待大型语言模型的发展。

所以很多事情可能在本周就会发生。很多事情预计在本周发生，或者它们可能会在六月晚些时候发生。但我们开始了。OpenAI 的 03 Pro。

Pro 可能很快就会发布。我们已经谈到的 Perplexity 的 Comet 浏览器，它有点像计算机使用代理，可能会得到更广泛的发布，但它上周已经开始向等待名单上排在最前面的人发布。所以这应该很快就会向其他人推出。

OpenAI 的 GPT，在过去一年半的时间里基本上被广泛忽视，最终可能会更新并获得新功能，以及能够使用 O3 模型，我不得不再次强调这一点。如果 OpenAI 真的更新了他们的 GPT，这可能是六个月内最大的大型语言模型新闻之一。这可能是巨大的。

GROK，对不起，GROK 3.5 可能随时都会发布，但这也在埃隆·马斯克说它已经快发布了几个星期之后，但我们看到一些报道称它可能会在一到两周内推出。Claude 可能正在获得一个

工件工作室，这是一种更简单的保存不同 Claude 工件生成的方法，以及你可以看到并向其他使用 Claude 工件功能的人学习的灵感画廊。这已由谷歌的 Logan Kilpatrick 证实，我们将在两周内看到新版本的 Google Gemini 2.5 Pro。我假设任何

Claude 能够使用 Claude for Opus 或 Claude for Sonnet 达到的基准。我认为这些基准中的许多都将被这个新版本的 Gemini 2.5 Pro 完全抹去。对不起，InfraPic，你将无法跟上谷歌的步伐。不是这个新的谷歌。对不起。然后就像我们说的那样，下周我们将举行 WWDC，时间是 6 月 9 日。这对于 AI 来说将是一场毫无意义的活动。

所以我们下周的节目中将无法报道此事，因为它实际上将在直播结束后三到四个小时发生，但我们将在本周晚些时候报道此事，即使它将毫无意义。好的。这就是对 AI 世界中正在发生的事情的快速回顾。所以，我们再次看到 Perplexity AI 推出了他们的实验室和代理模式或工具。

Hugging Face 推出了他们的开源机器人，价格为 3000 美元，而不是 300 美元，但我认为无论如何，对于机器人和人形机器人来说，这仍然将是一个非常重要的新闻。谷歌在 Google Workspace 中推出了两个非常有用的新功能，这两个功能都可以在 Gmail 中自动总结长电子邮件，以及能够总结 Google Drive 中的视频。但是

Google Workspace 管理员必须为付费用户启用这些功能。联邦政府的形象受到了严重打击，因为报告显示，他们在重要的美国卫生报告中出现幻觉或捏造了一些事情。这可不是什么好兆头。

亚马逊和《纽约时报》达成了合作关系，将 AI 内容引入亚马逊的 AI 平台，包括 Alexa。请尽快启动这项工作。我们看到一些新的创意实验室和功能问世，包括来自微软的

Black Forest Labs 及其新的图像生成套件，我认为它与 Gemini 图像编辑和 OpenAI 图像编辑不相上下，甚至更好。我们看到 11 Labs 推出了他们的 Conversational AI 2.0，为企业语音代理带来了重大升级，这是一个相当大的更新。

Anthropic 首席执行官警告说，人工智能可能会在五年内消除一半的入门级白领工作，即人工智能就业末日。我们将在明天的“热议周二”节目中讨论这个问题，所以请务必加入我们。最后但并非最不重要的是，据报道，苹果将在下周的 WWDC 大会上基本上不会发布任何关于 AI 的内容，这将是 AI 的“空档年”。好的。

好的，我希望这有帮助。如果是这样，请访问 youreverydayai.com。注册免费的每日新闻通讯，我们将在这里回顾这些故事，并随时了解 AI 世界中发生的其他一切事情。如果这有帮助……

不要做混蛋。与他人分享吧，对吧？如果你在这里的 LinkedIn 上收听，请点击转发。我们将不胜感激。或者在 Twitter 上告诉别人这件事。即使你认为 Everyday AI 是你的小秘密，你也不能保守秘密。与他人分享。我之所以这样做，之所以免费提供，之所以每天都这样做，其全部原因在于我知道人工智能和生成式 AI 非常难以跟上。当我们谈到就业流离失所和所有这些事情时，

每个人都需要获得免费、公正的生成式 AI 教育。这就是我所做的。我为你做这一切。所以请通过与你的朋友分享来回报我。如果你在播客上收听，我希望你能关注、订阅该节目并留下评论。感谢您的收听。请明天加入我们，了解更多关于 Everyday AI 的信息。谢谢大家。

今天的 Everyday AI 节目到此结束。感谢您的收听。如果您喜欢本期节目，请订阅并给我们评分。这有助于我们继续前进。要了解更多 AI 魔法，请访问 youreverydayai.com 并注册我们的每日新闻通讯，这样您就不会落后。去打破一些障碍，我们下次再见。

EP 537: Perplexity goes agentic, Google Gemini updates, NYT/Amazon team up & more AI News That Matters 51:04 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

EP 537: Perplexity goes agentic, Google Gemini updates, NYT/Amazon team up & more AI News That Matters