We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Ep 530: Google I/O AI Updates: 15 new features and how they can grow your business (Pt 1 of 2)

2025/5/21

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript

People

Jordan Wilson

一位经验丰富的数字策略专家和《Everyday AI》播客的主持人，专注于帮助普通人通过 AI 提升职业生涯。

Topics

Jordan Wilson: 大约15个月前，我认为谷歌甚至没有进入前三名。当你看到微软、OpenAI和Anthropic时，我认为大约15个月前，谷歌实际上排在第四位。但现在，毫无疑问，谷歌是绝对最好的。他们在生成式AI和大型语言模型领域处于领先地位。他们在I.O.大会上宣布的内容非常疯狂。我认为如果没有其他因素，这确实巩固了谷歌至少目前作为领导者的地位。我们将拭目以待其他人如何以及何时做出回应。但至少目前，谷歌在AI方面做得非常出色。我将分解Google I/O大会中最有用的15个AI更新。

Deep Dive

Shownotes Transcript

这是 Everyday AI Show，一个日常播客，我们简化 AI 并将其力量带到您的指尖。每天收听实用建议，以提升您的职业、业务和日常生活。谷歌在很短的时间内取得了长足的进步，这对于世界上最大的公司之一来说似乎很奇怪。但就人工智能竞赛而言，

说实话，大约 15 个月前，我甚至认为谷歌不在前三名，对吧？当你看到微软、OpenAI 和 Anthropic 时，我认为大约 15 个月前，谷歌实际上排名第四。但现在，毫无疑问，谷歌是绝对最好的。

生成式 AI 和大型语言模型领域的领导者。他们在 I/O 大会上宣布的内容令人震惊。我认为，如果没有什么比这更重要的，它确实巩固了谷歌至少目前在行业中的领导地位。我们将看看其他人如何以及何时做出回应。但至少目前，谷歌

在人工智能方面做得非常好。他们发布了数十项值得关注的 AI 更新。在今天的节目中，好吧，在今天和明天的节目中，我们将分解我认为最重要的 15 个。是的，我们将有一个第一部分，也就是今天，和一个第二部分，也就是明天。但我们将回顾一下

来自 Google I/O 大会对您这样的日常商业领导者最有用的 15 个 AI 更新。好的。

我很高兴深入探讨。我希望你们也是。如果您是新手，发生了什么事，各位？我的名字是 Jordan Wilson。我是 Everyday AI 的主持人。这件事，是为你准备的。这是您的每日直播播客和免费每日新闻通讯，帮助我们不仅跟上 AI 的步伐（这非常困难），而且了解我们如何实际利用它来发展我们的职业和公司。所以，让我们开始吧。

那是你吗？这击中要害了吗？如果是这样，那么您来对地方了。这是您的家。它从这里开始，在未经编辑的、未经编排的直播播客中。在这里您可以学习，但您实际将利用并使用它的地方是在我们的网站 youreverydayai.com 上。因为一旦您在那里，您可以注册我们的免费每日新闻通讯。我们将回顾今天的节目，但我们也会让您了解 AI 世界中发生的其他一切事情。是的，即使谷歌占据了头条新闻，但仍然还有很多事情发生。

然后还在我们的网站上，您可以免费收听按类别分类的 500 多集过去的节目，无论您想学习什么。我们已经与专家们谈过了。所有内容都已准备就绪。好的。所以，

通常情况下，我们从每日新闻开始直播，但说实话，谷歌是今天的 AI 新闻。好的，我很期待今天的节目。直播家庭成员们，你们好吗？很高兴见到你们。是的，如果您通过播客收听，也许可以偶尔在上午 7:30（中部标准时间）来访。当我们有嘉宾时，还有什么地方可以让您向世界上最聪明的人实时提问关于 AI 的问题呢？今天只有我一个人，抱歉。但是

直播家庭成员们，你们好吗？Christian，加入 YouTube。很高兴见到你。Brian 和 Michelle、Harvey Castro 博士、Big Bogey，以及其他所有人。爸爸，很高兴见到大家。让我们不要再取笑你们了。以下是来自 Google I/O 大会对您这样的日常商业领导者而言最重要的 15 个 AI 更新的前半部分。我们从 15 到 8 开始。

第 15 个，Imagine 4。第 14 个，与 Gemini 集成的 Chrome。第 13 个，电子邮件个性化。第 12 个，Notebook LM 更新。我真不敢相信这没有进入前 10 名。第 11 个，Gemini diffusion。一种全新的大型语言模型。第 10 个，实时聊天。

Google Meet 中的实时翻译。第九个 Gemini 应用更新和第八个 Gemma 3N。是的，很多。各位，我没有错过任何东西。我们仍然有我们的，你知道的，第七到第一名。但这里有一些甚至没有列入名单的东西，对吧？如果您一直在关注过去，你知道的，大约 12 到 20 个小时的 AI 新闻，您

这些甚至没有进入我们前 15 名的大进步。好的。Gemini 代码助手、Synth ID 检测器、Lyria 2、购物中的虚拟试穿、Google Beam（它是……

本身就是巨大的新闻，以前被称为 Project Starline Jewels 的新型自主编码代理、A2A 代理到代理增强功能，所以当我说是几十个时，我确实不得不挠挠头，看看我的 50 个列表，然后说哪些是前 15 个，对吧，所以……

很难做。很难做。好的。所以可能有一些重要的事情，你会想，等等，有些重要的事情在哪里？好吧，那些是明天的，对吧？你会注意到我甚至没有提到 Gemini 2.5 这个词。那里有很多更新，或者 VO3。是的，VO3，这令人震惊。好的。所以我们明天将讨论这些以及更多内容。好的。但让我们今天坚持我们的前 15 名。希望……

一个简洁的节目，或者比平时更简洁的节目，而不是做一个一个半小时的节目或类似的东西。我们会尽量把这个节目缩短。好的，首先，Imagine 4。所以这是谷歌更新的文本转图像平台 Imagine 4。

这对我们的直播观众来说非常好。如果您正在收听播客，今天可能看不到任何过于直观或过于具有指导意义的内容，但也许您想看看屏幕上有什么。您可以随时通过查看您的节目说明并访问我们的网站观看视频来做到这一点。但是看看这张图片。

这看起来非常真实，对吧？所以这是一个年轻女孩，一个年轻女子，看起来像是在宿舍里，也许是粉红色的头发和耳环，以及一件有点脏的 T 恤，阳光透过窗户照射进来。它看起来像是一张用高端单反相机拍摄的令人惊叹的照片。这看起来一点也不像 AI 生成的。让我们从这里开始。它有点……

我不在这里谈论太多我的背景。我刚刚意识到，各位，我刚刚意识到我的麦克风甚至没有插上。这就是我做了多少工作，也许我有多么睡眠不足。所以直播观众，请稍等一下。让我知道你现在是否能听到我的声音。

希望你能。我能从直播观众那里得到一个竖起的大拇指吗？我没有插上我的麦克风，但它一定是在我的电脑上的其他地方拾取声音。好的。感谢我的电脑仍然提供某种音频，即使我的麦克风没有插上。好的。希望，希望你们都能听到我的声音。好的。让我们继续。所以这很好。所以想象一下，让我们稍微谈谈有什么新东西。

谢谢。谢谢 Marie 和 Laura 让我知道。你们能听到我的声音。感谢你们。好的。所以。

以下是 Imagine 4 中的新内容，以及如果您以前没有听说过它的话，它是什么。也许您听说过 Midjourney。这是 OpenAI 内部新的病毒式 GPT-4-0 图像生成器。有很多这样的 AI 照片生成器，稳定扩散，Flux。有 5 到 10 个相当不错的。

我很想知道 Imagine 4 在基准测试中的排名，就像我们谈论大型语言模型的 LM 竞技场一样，这是一种大型语言模型的盲测，它们也对图像和视频模型进行了这样的测试，所以……

根据早期的眼部测试。作为一个……我以前的生活中，我曾经是一名摄影师，我可能用单反相机拍摄了超过一百万张，是的，超过一百万张照片。所以我会说，在我看来，在看待照片真实感或甚至能够辨别什么是真实的，什么不是真实的东西方面，我的眼睛比普通人的眼睛训练得更好一些。我会告诉你们，Imagine 4 的图像，

超乎寻常的好。同样，Midjourney V7 非常好，但是天哪，这些 Imagine 4 照片，太好了，太好了。关于 Imagine 4 是什么，有什么新内容，何时推出，所有这些好东西，让我们稍微谈谈。所以这是谷歌最新、功能最强大的图像生成模型，它改进了图像中的细节和文本渲染。这是一件大事。Midjourney 无法渲染文本，他们有点说，是的，我们并不真正关心

这一点。这很好。渲染文本的能力。是的。GPT-4-0 图像生成器在渲染文本方面做得很好，无论您可能想要什么。对吧？所以也许您想让这个人穿的衬衫上印有，你知道的，伊利诺伊大学或类似的东西的名字，或者芝加哥，对吧？一些 AI 图像生成器难以做到这一点。到目前为止，Imagine 4 像 GPT-4-0 图像生成器一样做得很好，但在照片真实感方面，

质量方面，Imagine 4 相当不错。相当不错的意思是，它可能是目前最好的。时间会证明一切。所以现在它正在 Gemini 应用中推出。同样，这也很有趣。它即将进入谷歌的所有不同产品中。所以谷歌，谷歌文档，

幻灯片和其他工作区应用程序。是的，我并不真正使用谷歌幻灯片，但现在我想，好吧，可能有一些用例，你知道的，我可能想要，或者在某些情况下可能需要。对吧。所以这将包含在新的……包含在 Google AI 专业版和超值订阅中。我们明天将更多地讨论

这一点。但是为了让这些事情有意义，您必须知道以前，你知道的，谷歌有几个层级，对吧？有一个免费层级，然后还有一个 Gemini 高级版，按照谷歌的典型风格，他们把我们都搞糊涂了。所以现在他们显然仍然有一个免费层级。新的每月 20 美元的

计划被称为 Gemini 8，或者抱歉，Google AI 专业版，我已经开始感到困惑了。Google AI 专业版是基本的每月 20 美元计划。现在您有了超值版，它非常昂贵。而且

每月 250 美元，技术上是 249.99 美元。我认为在最初的三个月里，它会打五折，但你知道的，基本计划将是 250 美元。这已经开始向拥有这两种订阅中任何一种的人们推出。

就像我说的那样，这里的一些突出功能包括：图像中明显更好的文本渲染、增强的照片真实感、改进的复杂提示处理。所以提示遵守，有绘画和绘画能力。所以如果您想更改照片中的某些内容，您可以很容易地做到这一点。如果您想扩展照片，对吧。所以无论是您开始使用的照片还是您在 Imagine 4 中创建的照片，您都可以进行绘画或扩展。

以引入更多最初从未捕捉到的场景。它还支持一系列纵横比，最高可达 2K 分辨率。所以很快就会有这个功能的更快版本。我不知道他们是否会称之为涡轮增压，但显然它很快就会快 10 倍。

您可以使用它来发展您的业务吗？首先，摆脱您网站上那些难看的库存照片。它们看起来很糟糕，对吧？此外，从这里开始，如果您正在为社交媒体创建任何视频，任何类似的东西，请从 Imagine 4 图像开始。

图像，对吧？是的。从图像开始。如果您正在制作 AI 视频，效果会更好，但是公司可以使用视觉效果的方式并不少见。您正在使用的一切，无论是用于内部目的还是外部目的，很可能都是非常旧的、非常无聊的，或者两者兼而有之。好的。第 14 个。

与 Gemini 集成的 Chrome。好的。这是什么，好吧，Chrome 浏览器最终会变得更聪明一些。好的。我不能假装这是一个突破性的新功能。更像是，哦，该来的终于来了，因为让我们直说吧，牌手们。

微软及其 Edge 浏览器，实际上非常棒。它基于 Chromium，对吧？所以您所有的 Chrome 扩展程序，所有这些东西都会同步。微软 Edge 已经有一年了。并非所有功能，但他们已经有一年多的内置副驾驶了。这就是我大量使用 Edge 的原因。但是……

该来的终于来了，我们将获得与 Gemini 集成的 Chrome，而不仅仅是能够总结网页和类似的东西。但它还可以帮助您完成 Web 浏览器任务。所以这也是，您必须使用付费计划，您可以总结网页，这可以帮助您解释复杂的信息，回答问题，

关于页面上下文、内容。最终，这里最终会发生什么，以及为什么它可能仅供付费用户使用，而不是免费提供给所有人。最终，它将能够帮助您自主浏览网站，这是一件非常大的事情。即使是在过去一两个月里，这也是一个巨大的转变。许多公司，浏览公司 DIA 浏览器，Perplexity 推出了一个评论浏览器，

甚至微软 Edge 都有其内置的视觉功能，您可以查看网页。因此，浏览器默认执行任务的能力并不是什么未来的科幻小说。这已经可用，但它在过去大约三个月里非常流行。因此，与 Gemini 集成的 Chrome 最终将能够做到这一点，至少谷歌是这么说的。

此功能的一些业务用例是什么？很简单。首先，它将帮助您更快地总结 Web 内容，对吧？如果您还没有在 Microsoft Edge 中这样做，我大约在一年前半就告诉过你们，我说，开始这样做。所以没有什么特别新的东西，但显然，Chrome 能够代表您执行操作而无需启动单独的代理，在节省时间、赢回时间等方面非常重要。

McDonald 说，这非常令人印象深刻。好的。哦，谈论 Imagine 4。他说，20 年的艺术总监，以及 Imagine 4 之类的东西，非常令人印象深刻。是的，我同意。就像我说的那样，我用单反相机拍摄了超过一百万张照片，并因此获得报酬。它真的，真的很好。

您是否仍在四处奔波，试图弄清楚如何利用 AI 发展您的业务？也许您的公司已经使用大型语言模型一年或更长时间了，但无法真正获得牵引力以找到生成式 AI 的投资回报率。嘿，我是 Jordan Wilson，这个播客的主持人。

Adobe、微软和英伟达等公司已与我们合作，因为他们信任我们在教育大众了解生成式 AI 以领先于他人方面的专业知识。美国一些最具创新性的公司聘请我们帮助他们制定 AI 战略，并培训他们数百名员工如何使用生成式 AI。因此，无论您是在寻找针对数千人的 ChatGPT 培训，

还是只需要帮助构建您的前端 AI 战略，您也可以与我们合作，就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系，或者您可以点击我们网站的合作伙伴部分。我们将帮助您停止在 AI 领域中四处奔波，并帮助您的团队领先，并构建一条通往生成式 AI 投资回报率的直线路径。好的，那是第 14 个。让我们来看第 13 个，电子邮件个性化。

所以这是一个实际的，不是我屏幕上的内容，但电子邮件个性化实际上是谷歌首席执行官 Sundar Pichai 在他的主题演讲中谈到的内容之一，我觉得这很有趣，因为当有几十个更新时，

这很重要，电子邮件个性化首先，我想，好吧，这没什么大不了的。但是当您查看一些营销材料时，同样，承诺的内容和实际发生的事情之间存在巨大差距，对吧？谷歌正在变得更好。尽管他们一年前半、两年前在这方面的原始记录不好。

现在他们只是在发货，对吧？所以我确实对很多事情充满信心。很多事情都将按时完成，但电子邮件个性化是 Sundar Pichai 在他的主题演讲中提到的内容。

对于我们的直播观众，你们可以看到这里的一个例子。所以这里有一个蓝色的阴影区域，一个绿色的阴影区域，然后是一个黄色的阴影区域。它向您展示了谷歌和 Gemini 如何能够使用个性化

基于您的上下文，对吧？它不仅仅是那些自动回复，对吧？这在 Google Gemini 中已经存在很长时间了。我并不真正使用它们，因为我认为它们不好。当且仅当它发布时，它将非常出色。例如，蓝色部分，它基于

您自己的写作风格来回复电子邮件。它会查看您如何回复电子邮件。所以您使用的词语类型、格式，是长是短，等等，对吧？所以它首先基于您的写作风格。其次，从您过去的电子邮件中提取上下文，这显然很重要，对吧？我们希望 AI 更聪明。

然后，对于我们的直播观众来说，黄色部分是基于 Google Drive 中的文件。这就是我感到震惊的部分，这真的很好。例如，它谈到有人询问该公司提供的包裹或服务。它说，我们的呵护套餐价格从 90 美元到 230 美元不等，具体取决于您狗的体型和您正在寻找的特定服务。所以，

根据谷歌在这里发布的内容，它基于 Google Drive 文件提取该信息。仅此而已，非常令人印象深刻。根据您的写作风格、过去的电子邮件以及 Google Drive 中的文件个性化电子邮件。当且仅当发生这种情况时，我就会喜欢它。我不会，我很尴尬在直播中这样做，但我将告诉你们真相。好的。

我被电子邮件轰炸了。不知何故，人们找到了我的个人电子邮件，播客的电子邮件。主要是，只是一群人想向你们推销他们有时垃圾的 AI 产品和服务。我拒绝了很多，但也有一些很棒的人

出现在电子邮件中。但是，你知道的，今天我已经收到了几十封电子邮件，其中大部分都是未读的，因为现在 Google Gemini 的能力不好，你知道的，无法回复电子邮件。所以当这种情况发生时，哦，是的，我要去看看。所以我收到了 2328 封未读电子邮件。我讨厌电子邮件。我讨厌它，对吧？我收到的电子邮件太多了。回复需要太长时间，因为首先，

我必须做这三件事，对吧？我必须用我自己的风格来写，对吧？我不希望人们认为我正在使用 AI，即使我最终会使用 AI，对吧？你知道的，我需要从过去的电子邮件中提取上下文。而且，你知道的，在很多情况下，人们都在问，嘿，我想赞助这个播客。我想做这个和那个。你会来参加我们的活动吗？我有所有这些信息，以不同的方式。

Google Drive 文件，但我有时会忘记。所以需要花费大量时间去做这三件事。所以，这个个性化部分将非常重要。所以，

这将在 Google Labs 中推出。您必须注册 Google Labs。这是一个免费程序。从本质上讲，您可以在那里获得对某些工具和功能的测试版访问权限。所以现在它说它将在今年 7 月通过 Google Labs 在谷歌推出。最初，它将仅在网络上使用，所以您不能在不同的应用程序中使用它，并且最初它将仅支持英语。

所以我对此感到兴奋。而它的业务用例显然是超乎寻常的。Cecilia，我完全同意 Cecilia 的说法。Cecilia 说电子邮件是每个专业人士的祸根。所以任何有帮助的东西都更受欢迎。绝对的。绝对的。而且我知道，你知道的，花点时间。

昨晚在 Twitter 上，查看所有新版本和其他一切。Logan Kilpatrick，我曾在节目中邀请过他几次，他是 Google 和 AI Studio 的产品负责人。他确实提到电子邮件优先级非常高，因为有人说，伙计，这真的会发生吗？他说，是的。

它会发生的。所以，你知道的，来自芝加哥的 Logan 的信任投票，他曾在节目中出现过几次。所以，是的，我真的很期待这个。希望它能在 7 月份发布。哎呀，谷歌，我甚至可以接受 2025 年。请在 2025 年给我们一个可用的版本。商业世界将喜极而泣。下一个。嘿。

喜极而泣。如果您是 Notebook LM 用户，您会喜欢这些更新。它实际上令人难以置信的是，这没有进入我们明天的前七名。但以下是 Notebook LM 中的新内容。如果您不了解 Notebook LM，它赢得了我们 2024 年 AI 工具或模式年度大奖。而且它甚至没有接近。

Notebook LM 是一项令人惊叹的技术。它现在由 Gemini 2.5 提供支持，而以前则不是。所以这大约六周前在 Google Cloud Next 上推出。所以如果您最近没有使用 Notebook LM，您现在应该去使用它，因为它使用混合思维模型。所以它比以前更好。

但它以您的数据为基础。例如，假设我加载它，我确实为这个节目加载了它。我用大量关于 Google I/O 更新的信息加载它，然后我问它关于深盘披萨的问题。它会说，无法回应。不知道。所以它以您的数据为基础。它只使用您提供的内容，这对于信任、透明度以及能够准确地使用某些东西至关重要，因为知道

可能不会出现任何幻觉。所以一些很酷的事情是视频

即将推出，这将非常有趣。好的。所以还没有很多更新，但有一些多媒体功能。一个是音频概述，它本质上是一个深入探讨的播客。它制作了一个由两位主持人进行的听起来非常真实的播客，对吧？你们中的许多人可能感觉你们甚至认识这两位 AI 主持人，对吧？因为如果您像我一样，您会一直收听他们。所以您将能够将默认播客

时间设置为 5 分钟、10 分钟或 20 分钟。所以默认是 10 分钟。如果您点击较短，当您去自定义音频概述时，大约是 5 分钟。如果您点击较长，大约是 20 分钟。所以这很好。我已经能够通过一些简单的，你知道的，所谓的提示工程来做到这一点，这只是，你知道的，反复地指示它，或者在要求它自定义以使其更长时给出更复杂的要求，无论如何。所以是的，将有一些基于您的文件的简单视频生成，我很期待看看它是什么样子。然后，就像我说的那样，音频概述可以设置为 5、10 或 20 分钟。所以

此外，几周前他们将其更新到了 50 种语言。我认为视频概述，顺便说一句，不会像 VO3 的质量那样，对吧？您可以制作并说，好吧，这将是我们业务的新解释视频。我认为我们现在看到的不是这个。我们现在看到的是更有趣的视频。

而且……有点可爱的方式，至少他们展示的例子更……

有点，我会说动画，对吧？就像更复古风格的图形一样，这很好，但非常适合解释更复杂的话题，这也是我使用 Notebook LM 的原因。所以是的，当您谈论业务用例时，这可能不是您要导出并放在网站首页上的东西，但我不知道，也许会，或者至少是您可能放在社交媒体上的东西。我也能看到这一点。所以是的，那里有一些新的更新。

此外，对于 Google AI 专业版和超值版用户来说，显然有更高的限制。尽管我认为即使是免费计划上的大多数用户的免费限制也足够了。好的。我们的下一个，这个很有趣。Gemini diffusion 模型。好的。这相当重要。这相当重要。所以……

这不是一个大型语言转换模型。那么扩散，我该如何解释呢？这几乎就像一个实时去噪过程。好的。因此，Gemini 和大多数大型语言模型都是所谓的传统转换器模型，对吧？一个非常先进的下一个标记预测器，对吧？你可以说，理论上，是从左到右工作的。

而扩散模型，它从噪声开始，然后更新整个过程。好的。这是一个非常非技术性的描述，对吧？但这是一个使用扩散技术的实验性文本模型，就像我说的，扩散模型的灵感来自图像生成方法。这是为了以极快的速度改进答案。所以

我这里有例子，谷歌最初将要发布这个用于更有限的事情，对吧？比如数学和编码，因为我认为扩散模型可能更擅长这些。你可能会说，好吧，为什么我们需要一个扩散模型？那么速度呢？谷歌表示，他们的早期测试显示，在数学编码文本方面，速度提高了四到五倍

比同类

你知道的，非扩散模型快四到五倍。所以这是一项全新的技术，但如果你确实使用大型语言模型进行编码、STEM，特别是数学任务，我认为它会很棒。所以现在它处于有限预览阶段，并且有一个等待列表。就像我说的，这是一种非常新颖的编码方法。

将基于扩散的方法应用于以前从未使用过的语言模型。它实际上只是专注于解决复杂的推理问题。所以这不太关乎创建长篇博文，更多的是在通常有更多正确答案的领域工作，而不是在有很多灰色地带的领域使用它们，如果这说得通的话。就像我说的，一些商业用例，如果你从事任何与编码、数学相关的领域，并且你已经通过使用 Google Gemini 或其他大型语言模型获得了大量效用，但也许你需要更高的速度，

这可能是它，对吧？所以这是一项全新的技术，用于基于文本的大型语言模型的扩散。扩散技术已经存在并且非常流行，用于图像模型，对吧？它本质上是去噪。如果你曾经看过人工智能图像实时生成，我们很多人都会这样做，因为你会进入，你知道，无论你使用的是 GPT-4 图像生成还是，你知道，你使用的是，呃，想象或，呃，

中途旅程，对吧？它开始，你可以看到它实时运行，对吧？所以无论是五秒钟还是一分钟，你都会看到它发生变化，它从这个模糊的、嘈杂的轮廓开始。它就像一堆斑点，然后慢慢地变得清晰。这就是扩散模型的工作方式，而不是对类固醇进行从左到右的下一个标记预测。所以这里谷歌或 Gemini 扩散模型非常有趣，呃，

好的。在第一部分的十五个主要功能中，我们还有三个，几个，几个。好的。所以 Google Meet 中的实时翻译。这真的很酷。就像我说的，它有效。

从技术上讲，这没有什么突破性的。微软 Copilot 已经为某些用户提供了这项功能，对吧？所以微软 Copilot 已经为他们的 Teams 会议提供了一个版本，但是你必须拥有特定的 Copilot Plus PC。你必须能够做到这一点

在你的设备上本地进行。所以谷歌正在将其引入云端。这是什么？好吧，现在它非常有限，但非常酷。它是在视频通话期间进行实时语音翻译，就像有一位人类口译员在场一样。

在可用性方面，最初它只对每月 20 美元的专业版或每月 250 美元的超高级版用户可用。至少现在，它只支持西班牙语和英语。

但谷歌表示，很快就会推出更多语言。它本质上是实时翻译，并使用自然语音合成。所以，呃，如果我和，呃，你知道，我妻子的家人在，呃，玻利维亚或智利交谈，呃，

我们可以互相交谈，对吧？我会说英语，它会用一种听起来像我的声音的语音，实时翻译我说的话成西班牙语，然后将他们说的话从西班牙语翻译成英语。至少从他们展示的演示来看，没有很大的延迟，对吧？它听起来就像一个世界一流的人类翻译或口译员，对吧？

你几乎感觉不到任何延迟，对吧？所以不像你说了完整的句子，然后，你知道，10 秒钟后，你知道，翻译版本出来了。它是毫秒级的。几乎是瞬间的，对吧？再说一次，那是演示。我们将看看实际推出时会发生什么，特别是它如何

如何推出，因为我很好奇的一件事，我将与我的谷歌联系人联系以获得许多问题的答案。所以如果你对这个问题有疑问，请在评论中告诉我，因为我会找到答案。但我很好奇的一件事是，好吧，两个用户都需要

专业版计划，对吧？或者只有一个人可以每月支付 20 美元？因为如果两个人都必须拥有专业版计划，我认为这会真正限制你们可以进行的对话，并且让它变得很棒。但想想这对企业意味着什么。这绝对是疯狂的，对吧？一旦这推广到更多国家和更多语言，我确实认为谷歌将尝试

更新这个，我猜这将在 2025 年下半年进行，到 Notebook LM 支持的 50 种语言，这将是我的猜测，我没有权威的证据，但谷歌确实表示他们正在开发更多语言，并且可能更有意义，呃，开发他们已经整合到 Notebook LM 中的 50 种语言，这些语言是世界上使用最广泛的语言，呃，所以即使只是现在

想想如果你在拉丁美洲、南美洲有业务，语言障碍就消失了。是的，你可能必须，你知道，如果两个用户都需要每月支付 20 美元，谁在乎呢，对吧？想象一下能够与来自另一个国家的同事交谈而无需语言障碍。

这太棒了。这开启了如此多的新的商业可能性，尤其是在你展望我们现在的处境时，对吧？就像我说的，微软已经为更多语言推出了这项功能，但缺点是你必须在本地设备上运行它。因此，你必须拥有更新的 Copilot Plus PC，它基本上在你的设备上本地运行语言模型。所以如果谷歌能够做到这一点并将其扩展到 50 种语言，

这将彻底改变你做生意的方式，对吧？也许你现在只是一个国内企业，也许语言障碍是最大的原因之一，对吧？这太棒了。这太棒了。好的。

这里还有一两个，在我们结束之前。所以第九个，Gemini 应用更新。这里有很多内容。因此，Gemini 移动应用程序和 Gemini 应用程序都进行了许多改进。我们可能在接下来的几周内，可能会有一些专门的剧集来介绍这一点。我们明天讨论 Gemini Live 时将对此进行更多介绍。

所以那里有很多新的更新，但是一些 Gemini 应用更新现在正在向 iOS 和 Android 用户推出。你可以免费获得许多核心功能，而一些更高级的功能则适用于那些订阅计划的用户。我认为值得特别注意的是 Gemini 深度研究，对吧？

那里有没有人像我一样每天都在使用深度研究，我很期待。但是你可以通过上传 PDF 或图像来启动深度研究，这在个性化你的深度研究方面非常重要。就像我说的，我认为一个月前，

Open AI 在他们的深度研究方面处于领先地位。但现在我认为 Google Gemini 可能略微领先，因为他们确实改变了深度研究的工作方式，因为他们将其升级到了 Gemini 2.5 模型。所以它使用了更多的思考、推理和规划，对吧？但是如果你对深度研究一无所知，本质上你给它一个查询，对吧？

它会花费任何时间，从两到二十分钟，研究从十几到数百个网站。但是现在让它在 Google Gemini 2.5 中变得更好的原因是它使用了这种思维模型。它一步一步地进行规划。很多时候，

它会转弯，对吧？它会沿着一条路走下去。然后在它的研究中，它发现，哦，我错了。所以如果我发现我的最初计划错了，我不应该再查看另外 100 个网页。然后它会偏离并转向，对吧？这就是 OpenAI 的深度研究版本一直以来的做法。但现在 Google Gemini 的版本也这样做。但是这里的新东西是它

至少对于深度研究来说，能够从上传 PDF 或图像开始，这非常重要。Canvas 的许多新更新，我们很可能在不久的将来会有多个节目。只看看 Gemini 2.5 Canvas 和所有这些新更新，你知道，你现在可以创建信息图表、互动测验，然后是我们将明天讨论的 Gemini Live 的所有内容。所以，

我的意思是，通过个人上下文提高了响应质量，更自然的语音交互，以及语音功能中的情感检测。当你谈论商业用例时，我的意思是，有很多，对吧？我认为这确实是许多知识工作者应该开始他们一天工作的地方，对吧？无论是 Chad、GBT、Google、Gemini、Copilot，对吧？你应该在 Google 中开始你的许多任务。

大型语言模型，不是在中间，也不是在最后，而是从想法、策略、研究等开始。所以这些应用程序更新中的许多不仅仅是生活质量的提高。它们正在改变可能发生的事情。然后说到改变可能发生的事情，这是今天列表中的最后一个，但并非最不重要 Gemma 3N。所以这是谷歌最新的快速、低效、开放、开放、

开源多模态模型，专为设备上的人工智能应用程序而设计。这是什么意思？Gemma 3N。首先，它好得吓人。这是一个小型语言模型，有 40 亿个参数。这是什么意思？好吧，不用说得太技术化，一个小型语言模型，一个 40 亿参数的模型

可以安装在手机上，可以安装在今天的智能手机上，对吧？所以边缘人工智能和小语言模型多年来一直在这么说。这是大型语言模型的未来，因为大多数企业公司甚至个人不使用大型语言模型的原因之一是什么？好吧，他们说，好吧，数据安全，你知道，所有这些东西。好的，当然。有道理。我不想将我的东西发送到云端，即使你已经在云端拥有所有东西，而且这无关紧要。对于那些不够聪明无法建立这种联系并知道一加一等于二的人来说，情况也是一样的。我不知道新的数学，核心数学，如果一加一仍然等于二，但是一加一仍然等于二，因为

当你谈论边缘人工智能时，它消除了所有这些数据安全问题，因为你没有将任何信息发送到云端。你可以关闭互联网并在本地设备上使用 Gemma 3N。

对。呃，性能绝对令人震惊。好的。Claude 3.7 Sonnet 是世界上最强大的专有模型之一。显然，你必须在云端使用它，对吧？因为它非常庞大。

呃，我们不知道它有多大，但它很可能包含几万亿个参数，呃，或者至少是数百亿个参数，嗯，这意味着大小，对吧？想想像一个，像一个千兆字节的存储空间或类似的东西。呃，

Gemma 3N 只是其中的一小部分。我会说它的大小不到 Claude 3.7 Sonnet 的 5%。然而，对于聊天机器人竞技场 ELO 分数，也就是并排比较，它基本上是一样的，对吧？只有 4 分的差距。这意味着当人类感觉不到区别时，

而且，你知道，每个人，我不，我不，我不是一个超级四元组粉丝，仅供参考，但是 Claude 的最新模型，尽管有传闻说他们可能会发布，你知道，一个四元组，呃，四重奏或四重奏 Opus 任何一天，但是至少他们的最强大的专有模型，这个小小的模型你可以下载，你可以分叉它。你可以做任何你想做的事情，它同样强大，同样强大。

所以可用性是现在可以通过 Google AI Studio 提供的预览，还有 Google AI Edge。它对开发人员免费。你可以下载它，分叉它，用你公司的资料微调它，等等。它设计用于在手机、笔记本电脑和平板电脑上平稳运行，资源需求极低。它也是多模态的。它可以无缝处理音频、文本、图像和视频输入。

这太棒了。所以它针对资源受限的环境进行了优化，同时保持了强大的功能和模式，也

速度快，对吧？不必将某些东西发送到云端并等待推理才能在云端执行其操作。它发生在设备上。所以它更快。更安全。我很久以前就说过这句话，自从几个月前我们看到 Gemma 3 的第一个版本以来。我说，不要忽视 Gemma 3。它非常强大，伙计们。

这，这将彻底改变我们未来工作的方式，因为这表明，这将迫使其他大公司，Open AI、Anthropic 等。那些还没有开放模型的公司。这将迫使他们开放。

因为如果你有一个 Gemma 模型，对吧？而且，你知道，Mistral、Meta 的 Lama 模型也有很好的开放式模型。但我的意思是，现在，Gemma 3N 在其大小方面取得了惊人的成绩，对吧？这将迫使那些只做专有模型的大公司提供开放模型，对吧？OpenAI 首席执行官 Sam Altman 确实说过他们将发布一些东西，但这非常重要，因为这意味着

可能在一两年内，大多数新电脑，我的意思是，我不会谈论苹果，因为他们在人工智能方面仍在 20 世纪 90 年代运作，但是你必须认为即使苹果也必须赶上。大多数电脑都将配备最先进的大型语言模型，可以本地运行所有内容。所以你甚至不必担心

数据安全，因为没有任何东西会离开你的硬盘驱动器。这与将文件保存到本地设备并使用 Gemma 3N 等模型工作相同。这太棒了。这就是我们对新内容的快速回顾，至少是前半部分。

如果你想要一些相关的剧集，伙计们，我最近有一些。所以几周前我在 Google Cloud Next，并与 Logan Kilpatrick 一起介绍了那里的新内容。已经提到了。所以如果你想听听，那是第 501 集。

此外，Gemini 2.5 Pro 也有一些新的更新。我们明天将讨论其中一些更新。所以如果你想赶上进度，请收听第 494 集和第 495 集，因为我们对 Gemini 2.5 做了一个两部分的系列节目。你不需要等待任何东西。它是实时的。它在那里。它在我们网站上是免费的。去听吧。所以在我们结束时，这是一个非常快速的概述。

我们的第一部分。我们开始吧。第 15 个，想象四，第 14 个，与 Gemini 集成的 Chrome，第 13 个，电子邮件个性化，第 12 个，Notebook LM 更新，我对此非常兴奋，第 11 个，Gemini 扩散，一种全新类型的大型语言模型，第 10 个，Google Meet 中的实时翻译，目前只有英语和西班牙语，但很快就会推出更多语言。第九个，Gemini 应用更新，第八个，Gemma 3D。

三个，世界上最强大的小型语言模型。它好得令人难以置信。我等不及明天了。请务必收听第二部分。我告诉你，我们看到的一些事情令人难以置信。我甚至不知道该如何用语言来表达它，尽管这就是我一直在做的。所以感谢您的收听。如果您还没有，请访问 youreverydayai.com 注册免费的每日通讯。请务必明天和每天加入我们，了解更多日常人工智能。谢谢大家。

这就是今天 Everyday AI 节目的总结。感谢您的收听。如果您喜欢这一集，请订阅并给我们评分。这有助于我们继续前进。更多人工智能魔法，请访问 youreverydayai.com 并注册我们的每日通讯，这样你就不会被落下。去打破一些障碍，我们下次再见。

Ep 530: Google I/O AI Updates: 15 new features and how they can grow your business (Pt 1 of 2) 46:06 Share

Everyday AI Podcast – An AI and ChatGPT Podcast

Deep Dive

Shownotes Transcript

Ep 530: Google I/O AI Updates: 15 new features and how they can grow your business (Pt 1 of 2)