这是 Everyday AI 节目,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。不,我没有重复自己。我们将再次回顾 Google I/O 更新。这是因为这家科技巨头有很多非常令人印象深刻的更新。
新的 AI 产品、模式、升级、对其 Gemini 模型和整个领域的更新。数量之多,我们不得不为此制作两个节目。现在我们将为您带来 Google I/O 的第二部分
AI 更新,15 个新功能以及它们如何帮助您的业务发展。如果您错过了昨天的节目,请务必查看一下,我们在第 530 集中回顾了前八个,回顾了第 15 到第 8 个。现在,今天我们将回顾第 7 个到第 1 个,因为是的,Google 在 AI 领域正在全力以赴。就像我昨天说的那样,
一年半前,他们还在争夺领奖台,对吧?我甚至不知道你是否能自信地说 Google 在 AI 领域排名前三,OpenAI、微软和 Anthropic 可能在一年前领先他们。但现在,尤其是在 Google I/O 之后,他们无疑独自站在领奖台的顶端。
其他人都在努力追赶。我的意思是,我简直不敢相信他们发布了多少新的 AI 更新。说实话,我本周只计划了一个节目来涵盖 Google 在 I/O 上宣布的所有内容。同样,我对微软构建 AI 的公告也只做了一个节目。但是,Google 的表现超出了预期。是的,我们不得不做两个节目。所以我们今天将回顾下半部分。
好了,我对这个很兴奋。我希望你们也是。大家好!我的名字是 Jordan Wilson,欢迎来到 Everyday AI。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人不仅了解 AI 领域正在发生的事情,而且了解我们如何利用它来跟上潮流,甚至发展我们的公司和职业,对吧?
我知道有时很难跟上,但这从收听这个直播、播客开始。它是未经编辑的,未经编排的。我喜欢说这是人工智能中最真实的东西,但您真正领先的方法是访问我们的网站。在那里您可以利用您在 youreverydayai.com 上学到的知识。因此,我们将回顾今天的节目,为您提供重点内容以及 AI 领域发生的其它一切,但也在我们的网站上,现在有超过 500 个和
30 集您可以收听。您可以观看视频,所以可能有一些视觉效果。但我们采访了数百位世界领先的 AI 专家。所有这些都是免费提供的。是的,在 youreverydayai.com 上。好了。通常情况下,我们会回顾 AI 新闻。今天实际上有很多新闻,但我们可能将在几个小时后看到 Anthropic 的大幅下降。可能是 Clawed 4。我们看到 OpenAI 发布了一些重大新闻,
收购了 Johnny Ives 的初创公司,现在称为 IO,致力于他们的硬件。因此,我们已经在新闻通讯中报道了其中一些内容。我们还将报道今天的云更新。因此,事不宜迟,让我们直接进入,首先,您昨天错过了什么。好了。就像我说的,如果您想了解更多关于这些 AI 更新的信息,请务必收听第 530 集,就在一天前。那么让我们从第 15 个开始。
所以我们有,让我们把屏幕放在那里。好的。所以第 15 个是 Google 新的 AI 图片生成器 Imagine。第 14 个是很快将与 Gemini 集成的新的 Chrome 集成。第 13 个是电子邮件个性化。如果您没有看到那个,我的天哪,Google,请尽快发布。我需要它。
第 12 个是一些 Notebook LM 更新,可自定义长度,以及即将推出的视频。Gemini Diffusion 是我们的第 11 个,一种新型的大型语言模型。第 10 个是 Google Meet 中的实时翻译。目前仅适用于付费订阅者和英语、西班牙语,但很快就会支持新的语言。第 9 个是 Gemini 应用设备。
更新,我们可能在接下来的几周内会对此进行多个节目的介绍,因为其中包含大量内容。然后我们昨天的最后一个是 Gemma 3N,Google 新的开源小型语言模型,拥有 40 亿个参数,其 ELO 分数与 Claude 3.7 Sonnet 完全相同。所以 Anthropic 最大的专有模型。
好了,那是我们昨天的更新。直接进入正题。以下是 I/O 中七个最大的更新。第七个是 Flow,Google 的新型 AI 电影制作工具。第六个是 VO3,他们的 AI 视频工具和一些 VO2 更新。第五个是 Google 搜索中的 AI 模式。第四个是 Gemini Live 与该项目应用程序。
Astra 集成,在那里有一点交叉。第三个是 Gemini 2.5 模型,他们对其 2.5 系列的更新。第二个是 Google AI Ultra 订阅,价格昂贵。最后但并非最不重要的是,第一个是 Project Mariner 或 Agent 模式,在我使用了一段时间后,它基本上变成了 Google 的 Operator 版本,这是您可以在浏览器中使用的计算机使用代理。哇,很多内容。
很多内容,所以……让我喝一口咖啡,向大家问好,真粗鲁,直播观众们,你们好,大笨蛋脸也加入了 YouTube 机器,还有 giordi、Michelle,感谢你们在 LinkedIn 上加入我们,Sarah,感谢你们光临,Brian、Nathan、Marie、Juliet、McDonald,一大群人今天早上,Jose、Irish,感谢你们加入我们
请告诉我你们有什么问题。我会在最后回答它们,或者如果我无法回答,我会联系我在 Google 的一些朋友。确保得到您需要的答案。好了。我已经从昨天的节目中得到了一份问题清单,我将联系他们。所以是的,请随意。或者如果您正在收听播客,仅供参考,我总是会提供 LinkedIn 直播的链接。因此,即使事后您也可以回来,仅供参考,并留下一个、留下评论或问题,或者,如果您想查看屏幕上发生的事情,即使我今天将尽力描述所有内容,您也可以这样做。好了。首先是 Flow。各位,如果它真的像它那样工作,我将从一个热门话题开始。今天是星期四,但这是一个热门话题。这是短视频的未来,就是这样。它太棒了。
我不会轻易这么说。我不会轻易这么说,对吧?我昨天简要提到了这一点。我认为今天再次提及这一点是值得的,因为我们的前两次更新是在视觉方面。所以大约,我不知道,在我职业生涯的前半部分,我拍了很多照片,你知道的,用单反相机和很多视频。所以我想说我,我,
比大多数人更有经验,涉及视觉效果。好了。为……做事情,你知道的,
你知道我自己的,你知道我有一些自由职业的摄影工作,你知道的,刚从研究生毕业后,以及你知道的,当我为非营利组织工作时,我们基本上只是与耐克和乔丹品牌合作,我当时正在为耐克和乔丹品牌拍摄照片和视频,所以我有丰富的经验,而你可以在我们的第七和第六次更新中获得 Flow 和 VO2
太疯狂了。对我来说毫无意义。我可能会,为了让大家相信我们的直播观众,我会为第六个,也就是 VO3,播放一两个样本。但 Flow 是什么。它本质上是一个电影制作工具,它汇集了 Google 最佳的创意产品。所以它基本上包含……
他们的 VO3,这是他们更新的视频生成器,Imagine 4,这是他们最新更新的 AI 图片生成器,以及 Gemini 提示,对吧?因此,您基本上获得了最佳的 Gemini、Imagine 4(照片方面)和 VO3。这是一个工具,可以帮助您无缝地将剪辑组合在一起,并保持一致的顺序。
场景。这是最重要的事情,因为即使像
我想说有很多第三方工具在过去 3 到 6 个月里一直在努力保持一致性。但我认为一年前,即使是一些工具的质量,对吧?所以我认为 Runway 可能是第一个真正优秀且出色的 AI 视频工具,其 Gen 3 可能就是这样。然后你从中国得到很多,比如 Kling。然后,你知道的,最近有 Sora,然后是 Google 的 VO2 和 VO3。
但是,你知道的,你现在实际上有了看起来非常真实的视频。但问题是,至少当你试图将某些东西组合在一起时,对吧?许多这些工具只能创建大约 5、8 或 10 秒长的内容,如果你考虑一下这如何帮助你的业务发展,这并没有什么作用,对吧?但是当你能够将它们拼接在一起并在角色中保持一致性时,对吧?
这些工具才真正从,你知道的,炫技变成了实用工具。这就是 Flow 带来的东西。它带来了场景之间的一致性,并可以帮助您将真正有意义的内容拼接在一起。所以。
目前,Flow 仅适用于付费订阅者。这两种都是新的每月 20 美元。我说新的,是因为它是一个新名称。它以前被称为 Gemini Advance。现在它被称为 Google AI Pro,每月 20 美元。
并且您可以在 Flow 中获得 100 次生成。或者如果您有 Ultra,即每月 250 美元。是的。在最昂贵的 AI 计划方面,我们有了一个新的王者,超过了 OpenAI 的 200 美元专业计划。所以是的,呃,
我认为 Ultra 计划在 Flow 中目前没有任何限制。至少他们没有列出。我拥有 Ultra 计划。在我花足够的时间探索每个角落和缝隙之后,我会向你们介绍一下,呃,但是,
现在我的意思是,这个功能真的非常好,因为是的,我们将更深入地了解 VO3 以及它的特别之处,所以你知道的,Flow 的特别之处显然在于能够将多个场景与 VO3 组合在一起,而且还能够使用 Imagine,它是……
图像生成器,所以它真的节省了时间,我认为,你知道的,最初这将非常适合创作者
对吧,对于个体经营者、企业家、创意讲故事的人来说,对吧,一开始。但我认为一个热门观点是,所有公司都必须使用这样的东西,对吧?你确实必须先向
OpenAI 表示敬意,因为他们的 Sora 实际上内置了这样的功能,你可以将多个场景组合在一起。它没有自己的名字,它不是一个独立的工具。你知道的,我认为它被称为“混音”。你可以将不同的剪辑组合在一起或将它们组合在一起。它本质上是一个故事板。所以 Google 本质上,你知道的,也许他们首先想到了这个,谁知道呢?但他们基本上采用了这个想法,并使其变得更好。
所以这是自然提示的场景生成、相机移动控制、用于编辑和扩展镜头的工具、用于故事板的场景构建器以及 Flow TV 内容库。就像我说的,现在它只能生成 8 秒长的剪辑,但你可以将它们连接在一起。它还包括环境声音以及 VO3 的这些音频生成功能,我将很快向你们展示。还有一些需要注意的事情。
我已经谈了很多。好吧,不是很多。我已经多次在这个节目中谈到过视频特效。那是 Google 之前的视频套件。所以这是……Flow 正在取代视频特效,仅供参考。所以我认为 1080p 是……
生成的限制。所以,你知道的,现在没有 2K、4K 场景,但我的意思是,你能够进入、将许多看起来非常好的剪辑拼接在一起,这对于 Flow 来说非常令人印象深刻。我想知道,直播观众们,你们对此有什么看法?我认为你们中的大多数人都会看看这样的东西,然后说,好吧,这个,你知道的,这个不适合我,这个不适合我的业务,但是
我会挑战你,并说,好吧,它可能适合,对吧?我甚至在考虑如何在这里在 Everyday AI 中使用它,对吧?即使对我来说,制作关于某事的视频很容易,但制作具有高制作价值的视频并不容易,对吧?这很难,对吧?我每天都为这个播客制作视频。我过去拍摄和编辑视频,但我仍然会看看像 VO3 和 Flow 这样的工具,我想,
如果我不使用这些工具,我就太傻了,即使最初的版本看起来有 10% 的噱头,考虑到在此之前,它可能会有 50% 的噱头,这并不是很多,对吧?如果我们只是在看 VO2。但是现在你有了场景之间的一致性、角色一致性、音频以及对话,太疯狂了。
那么让我们来谈谈 VO3,我希望在这里播放几个例子。
所以,呃,Google 的 VO3 有些重大更新,他们更新了 VO2。所以现在,如果你想要 VO3,这是很多人,这是一种在社交媒体上爆红的东西。类似于 ChatGPT 的 GPT-4 图片生成器在几周内风靡一时。呃,你会看到很多 VO3。如果你关注 LinkedIn、Twitter 上的任何内容,你知道的,它可能会在各处爆红。嗯,
但这就是它来自 VO3 的内容。但是,它目前仅适用于……目前,它仅适用于美国 Ultra 订阅用户。所以是每月 250 美元的计划,而且你必须在美国。它也适用于该应用程序,在 Gemini 应用程序中,这很酷。所以现在你使用 VO3,呃,就在 Gemini 内部。所以,你知道的,Gemini.google.com。如果你有那个 Ultra,嗯,
那个 Ultra 订阅或应用程序。所以,呃,这就是它。这是 Google 的,呃,VO3 是 Google 新的先进视频生成模型,比 VO2 有了显著改进。它具有,这是最重要的事情,具有环境声音和角色对话的原生音频生成。你可以在一个场景中有多个角色,呃,
它会立即生成音频,有一些例子,嗯,我可能需要在接下来的几周内做一个专门介绍 VO3 的节目,嗯,在我自己玩了一段时间之后,你知道的,但人们实际上已经做到了,就像两个音乐家一样,它会生成音频,它会生成背景噪音,我想我的天哪,说实话,我不明白这是如何做到的,它就是这么好,对吧,嗯
而且我认为我对 Sora 或 Runway Gen 3、Gen 4 甚至 VO2 并没有类似的感觉。我认为当 VO2 推出时,我想,哇,这太令人震惊了,对吧?Google 的 VO2。但他们直到两个月前才推出访问权限。所以他们并没有真正为大多数人提供这项技术或使其易于访问。
它现在可以使用了。你必须为 VO3 付费,但这让我不禁想知道,未来我们消费的视频有多少将是 AI 生成的。我们不知道。对。如果说实话,我可以,这听起来可能很疯狂。我可以想象一个场景。
很快,对吧?可能不是在未来两年内,但在那之后,在 2020 年代后期,我们消费的大多数内容都是 AI 生成的。
即使,你知道的,在 Netflix 上观看节目、电视剧等等。我知道这听起来可能很疯狂,但它就是这么好,对吧?当你谈到将某些东西推向市场的速度时,对吧?你总是会看到这些节目,哦,他们完成了拍摄,但是,你知道的,哦,它被推迟了两年,因为他们不得不重拍两个场景。事情将不再是这样了。它非常好。所以现在,
它在 V3 中改进了稳定性和物理处理。当我们谈论从 VO2 到 VO3 的飞跃时,它只是改进了稳定性、物理处理。然后就像我们说的那样,有了角色对话,更好的唇形同步,更逼真的场景过渡。那么它的商业用例是什么?我的意思是,很多,但只是创建逼真的视频。
为您的公司,对吧?小宣传片,想想那些在 YouTube 上播放的预告片视频,
我的意思是,也许你考虑过播放这些视频,但你认为,我不知道从哪里开始。好的。那么,你知道的,从大型语言模型开始,说出你正在做什么,分享关于你公司的信息,然后说,嘿,给我 10 个关于我公司 10 秒钟视频脚本的想法。我看到人们制作了一些这样的视频,我想,这实际上还不错,对吧?因为你可以让一个角色说出你想要他们说的任何话。听起来非常真实。看起来非常真实。你可以在屏幕上显示文本。你,
实际上不需要至少获得互联网质量的东西。我不是说这已经是电影质量了,但如果用足够的词,它几乎可以达到电影质量。好了。是的。大笨蛋在这里说,让我们面对现实吧,如果你支付了 250 美元,你应该使用它提供的所有功能。我同意。YouTube 上的 Oliver 说 VO3 太疯狂了,而且只会变得更好。好了。
那么让我们继续,直播观众们,帮我一个忙。我将在这里分享我的屏幕。所以希望每个人都能听到音频。所以 Google 分享了他们最喜欢的几个,他们最喜欢的视频中的一些。
剪辑。好的。我们的播客观众,你们应该能够听到这个。所以直播观众,请告诉我你们是否也能听到这个。所以我要播放其中几个。大多数都是 8 秒钟。所以播客,你们在这里听到的一切都是用 VO 生成的。好了。直播观众们,请告诉我你们是否能听到。你认为我们在 VO3 中吗?如果你无法分辨,这重要吗?你认为我们在 VO3 中吗?
如果你无法分辨,这重要吗?好了。这是第一个。非常像 1920 年代、1930 年代的那种氛围。两个角色,一个女人和一个男人在一个客厅里抽雪茄。有背景音乐。有环境声音和两个人的对话。这里还有几个不错的。我正在滚动查找它们。
好了,让我们继续。让我们做这个唱歌的。看起来这个人可能将几个剪辑拼接在一起了。但让我们听听这个。这是一个女人在歌剧中演唱。背景中有人演奏小提琴。让我再检查一下每个人是否都能听到。是的,音频很好。好的。好了,开始了。这是一个女人演唱歌剧。看起来背景中有一个管弦乐队。
你还在四处奔波,试图弄清楚如何利用 AI 发展你的业务吗?也许你的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到生成式 AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。
像 Adobe、微软和英伟达这样的公司已经与我们合作,因为他们信任我们在教育大众了解生成式 AI 以领先方面的专业知识。一些美国最具创新性的公司聘请我们来帮助他们制定 AI 战略,并培训他们数百名员工如何使用生成式 AI。所以无论你是在寻找数千人的 ChatGPT 培训,
还是只需要帮助构建你的前端 AI 战略,你也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站上的合作伙伴部分。我们将帮助你停止在 AI 领域四处奔波,并帮助你的团队领先,并为生成式 AI 的投资回报率建立一条直线路径。我们将直播!
然后它进入更多音乐。好了,开始了。我不确定我还能继续。好了,所以……
好的,让我描述一下。所以第一个剪辑是一个女人演唱歌剧。我的意思是,背景中有人。他们没有对焦,但我看过这个剪辑,我暂停了一下,我想,现在没有 AI 的迹象。我的意思是,她的胳膊上有一个阴影,它正在相应地移动。好了。背景中有人演奏小提琴。我甚至在看他们,他们演奏小提琴的笔触。
和音乐,一切看起来都是同步的,对吧,所以非常令人印象深刻,如果你看得足够久,会有一些 2-9 可能会看到的瑕疵,好吧,这可能是 AI 生成的,但实际上并没有,好吧,你听到的第二个剪辑是一个女人在某种程度上表演
你知道的,在一个小型场馆的音乐会上,有一个鼓手。我要再次播放这个音频,因为它非常令人印象深刻。我听到唇形同步很完美。一个女人在舞台上表演。人群中有人。我的意思是,这非常令人印象深刻。我要听听这个鼓的同步。♪ 我要照亮天空 ♪
太好了,它奏效了。好了。第三个剪辑,因为我认为这里总共有四个剪辑。这个剪辑从特写镜头开始,然后放大。看起来也非常好,对吧?你知道的,没有六根手指。那些过去 AI 的明显迹象。我的意思是,这是有人在弹吉他。
我不会演奏任何乐器,但是屏幕上的内容和发出的音乐似乎是正确的,对吧?当你看到这个演奏吉他的人的节奏、速度和节奏时,它看起来很到位。然后我们放大到唱歌的人。同样,它看起来非常逼真。我想知道,我在 720 上。好的,所以……
我的意思是,唇形同步等等。你知道的,这个人,我的意思是,脸部的细节,唇形同步,就像,我无话可说。这太好了。所以我不知道。直播观众们,你们能相信吗?你们能相信吗?就像任何人一样,有人有什么反应吗?你知道的,Danny 只是说,哇。是的。
是的,我不知道还能说什么。但在看过迄今为止发布的许多 VO3 示例后,就像我说的那样,我认为我们人类消费的 AI 内容不会少于非 AI 内容。
我不知道现在是哪一年,对吧?我会把这个留到我的 2026 年热门观点中。但如果你还记得,我的一个热门观点是,我们将开始在大屏幕上看到 AI 视频,而我们甚至不会知道。我认为 VO3 可能是第一个迭代。有一些 Adobe,你知道的,某种场景生成工具,我认为可能会做到这一点。但就从头开始制作并在屏幕上看到它而甚至不知道它是 AI 生成的而言,
我认为 VO3 可能是最好的。YouTube 上的 Lisa 说,令人难以置信地令人印象深刻,而且有点可怕,因为它可能被滥用。
绝对的。我认为我们不能忽视这一点。这正是我在这里的笔记中要结束这张幻灯片的要点,是的,这方面的虚假信息和错误信息的潜力非常高。所以很明显,Google 还宣布了对其 SynthID 技术的一些更新,所以基本上,如果你用 VO 创建了一些东西,就会有一个隐形的
为了简化起见,有一个隐形的数字水印,有人可以进去,基本上看看这是不是 AI 生成的。然而,
我已经可以保证会有数十家初创公司出现,他们的全部价值主张将是,嘿,上传你的 AI 生成内容,无论是什么。我们将删除任何隐形水印,表明这是 AI 生成的。我已经可以保证了,因为你知道的,对于 AI 文本来说,这是一个蓬勃发展的行业,
顺便说一句,这是谎言。所以我认为,即使对于照片和视频也是如此,尽管我认为这些公司在保护消费者并让他们知道某些内容是否为 AI 生成方面做得足够好或做得更好,但是
但是我认为最终这不会是单个剪辑。最终,这就是制作公司、好莱坞工作室将用于昂贵场景的工具,这些场景可能需要太长时间。基本上,拍摄这些场景需要花费数百万美元,
相反,你得到了100位编辑,你给他们每人几个小时,他们就能以千分之一的成本和千分之一的时间做到这一点。他们至少能够从VO3中获得可用的东西。但想象一下,当我们得到VO4时。可怕。所以。
玛丽在这里说应该有一个免责声明,说明这是AI生成的材料。这将是很好的,但我认为不幸的是,我们并没有朝着这个方向发展。好吧,我得把它捡起来。所以第五个是谷歌搜索中的AI模式。它是在谷歌搜索中提供的一个专门的AI驱动标签,可在网络和移动设备或应用程序中使用,用于处理复杂的查询并提供AI生成的答案。所以这并非严格意义上的新功能,但它已经得到了极大的改进,免费用户也可以使用某些功能。因此,一些更新的选项
升级后的功能是它可以生成自定义图表和图形,并且可以自然地处理后续问题。还有一些新的购物功能,包括使用个人照片进行虚拟试穿。是的,如果你正在购物,并且想,“啊,这东西怎么穿?”
将字面上传你的照片,对吧?如果是衣服,你可能需要确保它是一张全身照,然后你就可以虚拟试穿并购物了。是的,还有一个基因结账。就像我说的,这对钱包来说很危险。所以现在这里的用例是,如果说实话,AI模式对我来说
很有趣。我认为这是谷歌对AI搜索的一种对冲策略,以及它如何可能夺走其摇钱树——传统搜索。因为在传统搜索中,谷歌也有其AI概述。好吧,这是他们试图不落后于Chat GPT和Perplexity、副驾驶的一种方式。现在Claude终于有了网络搜索。所以
在传统搜索中,他们有AI概述。显然,在他们的Gemini产品中,它可以访问网络,但现在还有一个专门的AI模式,对吧?我认为这更像是一个专门的答案引擎。所以它有点像,有三种不同的方式可以使用谷歌搜索网络,对吧?你可以进行传统的、你知道的,传统的google.com搜索,它确实集成了这些AI概述。你可以
完全使用AI端,即在谷歌Gemini内部使用它。然后是介于两者之间的东西,即AI模式。这个AI模式确实得到了很多这些伟大的更新
现在也由最新的模型Gemini 2.5提供支持。现在AI模式中有了深度搜索。它是一个……我不会说它是一个寻找问题来解决的答案。你知道,谷歌是世界上最聪明的公司之一。我认为这只是,他们需要将筹码分散到不同的篮子里,或者说将鸡蛋分散到不同的篮子里。
所以对我来说,AI模式实际上用起来很好。它是一个非常好的答案引擎。所以感觉更像是你正在使用谷歌搜索而不是谷歌Gemini,但它只是AI。所以在传统的谷歌搜索中,即使有AI概述,你仍然有非AI内容。而在AI模式下,它只有AI。但它确实感觉更像传统的搜索。所以我们可能会做一个
专门的节目来介绍它。好吧,第四个是Gemini Live。
这还有一些Project Astra集成,当然这是我们的头等大事。什么是Gemini Live?它是他们增强的实时助手,可以通过设备摄像头理解和交互你的周围环境。这适用于安卓用户。其中一些功能已经在iOS上上线,但其中一些功能将在本周推出到iOS。
那么Gemini Live到底是什么呢?这是你手机上的一个助手,它可以看、听和理解。你可以分享你的屏幕。你可以用自然语音做所有这些不同的事情。这是最重要的事情,对吧?我认为我稍后会分享一些很好的演示。
我会在新闻通讯中分享。但它本质上是,如果你有一个可以看见你所看见的一切的助手,它可以帮助你完成任何你想要做的事情。
这非常令人印象深刻,对吧?某些功能已经上线,但现在与Gemini Live内部的一些Project Astra技术有了更多的集成。就像我说的,
它具有基于摄像头的视觉理解、屏幕共享功能、具有改进的原生音频的更自然的语音输出、更好的内存以及计算机控制。这是我真正印象深刻的事情,对吧?很多人说这是,你知道的,Jarvis式的。所以我实际上,我不想不得不播放一分半钟的视频,但我实际上认为这个视频值得一看。所以,好吧,我要开始了。
在这里分享我的屏幕。这是一个一分半钟的片段。这基本上展示了一个年轻人在自行车店修理自行车的场景。在这些情况下,你会听到他的声音(针对我们的播客听众)以及Gemini Live的声音。他基本上用他的相机指着自行车店里的不同东西来帮助他更好地理解。我一直试图做到这一点,但当我们谈到代理能力时,你会看到这里有什么新东西。这就是Project Astra的功能发挥作用的地方。所以直播观众,我们继续吧,这个有一分半钟。如果你能听到音频,请告诉我。我真的很感激。这样我就不会浪费大家一分半钟的时间了。你能上YouTube找一个关于如何修理它的视频吗?当然,我现在正在打开YouTube。
这个看起来像个好视频。在螺丝头上套一个橡皮筋。你能查看我的自行车店的邮件,找到我需要的六角螺母尺寸吗?当然。根据自行车栖息地的电子邮件,你的链轮需要一个3/8英寸的六角螺母。我已经为你高亮显示了正确的垃圾箱。看来我需要一个备用的张紧螺丝。
你能打电话给最近的自行车店看看他们有什么库存吗?是的,正在给他们打电话。我会告诉你他们有什么库存。我想我的刹车片磨损了。你能再检查一下说明书,看看它是否在任何地方提到它们吗?根据说明书,如果你看第24页……嘿,你想吃午饭吗?是的,给我五分钟。你能把你说的话说完吗?正如我所说,如果你看第24页,第2节,你会看到如何更换刹车片。嘿,那个电话有什么更新吗?
是的,我刚和自行车店通完电话。他们确认有你的张紧螺丝库存。你想让我下单提货吗?你能给我看一些我可以放在自行车上的狗篮子的例子吗?当然,我可以帮你。请稍等。这里有一些选择。我认为Zuka放在这些里面会很好看。好吧,太棒了,对吧?所以……
你刚才看到的很多功能,我会快速回顾一下。你确实需要每月250美元的计划才能获得Project Astra集成。但即使在免费计划中,你刚才听到的一些功能,或者如果你在直播中看到,也是可用的。所以只是和代理、AI助手说话,它能够实时地看到和识别事物的能力,这些都在免费计划中可用。
如果你现在有Ultra计划,我会在新闻通讯中说明有哪些等级可用。这很棘手,对吧?你在免费计划中可以做什么,在每月20美元的计划中可以做什么。
现在是AI Pro。然后你在每月250美元的Ultra计划中可以做什么。我可能会专门做一个节目来介绍这个,因为我认为它具有改变我们所有人工作方式的影响力。但我只想回顾一下,如果你只是在听播客,实际上发生的一些事情。首先,通过Project Astra的Gemini Live能够打开YouTube。
自己搜索YouTube。它能够从该人的电子邮件中提取上下文。他用手机指着墙上,墙上有一堆不同的零件,它根据它查找并找到的手册正确地识别了正确的零件。
它给自行车店打了个电话。所以,你知道,那里有一些代理能力。它实际上与电话上的某人交谈并为他们获得答案,下单,检查屏幕上的手册,进行了一些购物,对吧?所以,呃,
一些不同的东西,他们称之为行动智能加Gemini。所以内容检索、界面控制。能够控制手机。我相信很多这些东西只会在Android上可用,在iOS上不可用。但代理突出显示呼叫协助、知识基础、上下文感知对话、个性化购物和原生音频对话。哦,我的天哪,对吧?相当,相当……
是的。人们只是说,哦,我的上帝,莫妮卡说一切我想要的和更多。丹尼只是说,天哪。朱丽叶说需要一个专门的节目。是的,我认为我们必须为此做一个专门的节目。
好吧,让我们来看第三个。是的,他们对Gemini 2.5模型进行了全面更新。是的,没什么大不了的,但世界上最强大的模型变得更强大了一点。具体来说,Gemini 2.5 Flash现在已经可用,而之前,这个模型并不那么强大。但如果我现在调出我的下一个屏幕,
Gemini 2.5 Flash是世界上第二好的模型。仅次于Gemini 2.5 Pro。如果你不关注
小型模型,我应该说较小的,大型语言模型空间,对吧?大多数公司都有其最强大的模型的大型、中型和小型版本。但在大多数情况下,大型模型和小型模型之间存在相当大的差距,对吧?OpenAI有GPT-40 mini或04 mini,对吧?谷歌有Flash,
所以现在Flash,小家伙,对吧?大个子的小版本是世界上第二好的模型,这从未发生过,对吧?小的,对吧?大型语言模型的小版本,他们以往最好的通常是,啊,在排名前七或八名,也许吧。这是史无前例的,对吧?
对吧?Gemini 2.5 Pro,谷歌的大个子,进入并横扫LM Arena排行榜并非史无前例,你输入一个提示,得到两个答案。你不知道哪个是哪个,然后你投票。这就是给出ELO分数的方式。所以Gemini 2.5
Pro进入并排名第一并非史无前例。这是可以预料的。这通常是正常的,对吧?所以如果我们得到一个Claude,例如Opus 4,如果它在竞技场排行榜上排名第一,我不会感到惊讶。虽然我个人并不期待,但我不会感到惊讶。我确实对Gemini 2.5 Flash,轻量级版本……感到震惊。
世界上最强大的模型,除了大个子。太疯狂了。所以还有一些其他的事情,我们昨天简要地谈到了一些这些事情,但Gemini 2.5 Flash将在6月初普遍可用。我们还谈到了Gemini 2.5 Pro也变得更强大了一些,因为有一个新的DeepThink
模式即将提供给Ultra订阅者。它还没有发布。谷歌表示它应该会在接下来的几周内发布。所以这只是,你知道的,本质上,你知道的,呃,微软副驾驶有像“深入思考”按钮,对吧?所以它本质上是说,“嘿,花更多时间在这个上面。”所以,嗯,我不知道这是否会在技术上成为一个独立的模型,或者它是否只是一个你在UI中点击的按钮。
但DeepThink可能会成倍地扩展Gemini 2.5 Pro的功能,我猜。此外,就像我们讨论的那样,Flash现在不仅针对速度和效率进行了优化,而且还针对
现在Power和新的Gemini 2.5 Pro与DeepThink一起让你更好地控制用于复杂问题解决的先进推理模式,以及思想摘要,以便获得一点透明度。虽然我不喜欢新的思想摘要,但我喜欢谷歌以前展示的更原始的思维链。所以我不是特别喜欢思想摘要。
那么,呃,你知道的,对于商业用例来说,好处是什么呢?好吧,对。你可能应该开始你的一天,呃,对。无论是在谷歌Gemini 2.5中,还是在,你知道的,OpenAI的03或GPT 40中,呃,或者,你知道的,副驾驶或Claude中,对吧。我不必告诉你商业用例,但是
无论你的AI操作系统是什么,你都需要从那里开始,因为这些模型,就像我们刚才看到的Gemini 2.5和所有这些更新一样,正变得越来越强大。好吧,将来,它们只会与其他技术更好地集成。
好吧,我们最后两个,我们将快速介绍一下。所以谷歌AI Ultra订阅,这是一个相当大的新闻,而且不仅仅是好消息,对吧?到目前为止,我一直喜欢生成式AI运动的一件事是这项技术的民主化,对吧?在大多数情况下,任何人都可以凑齐20美元,就能获得世界上最强大的技术。所以OpenAI在AI方面开始了这种奢侈的男孩和女孩俱乐部,其每月200美元的专业计划。
所以现在谷歌也效仿了。所以有好有坏,对吧?好处是,对于企业来说,令人惊叹的技术仍然普遍负担得起,对于其他人来说,你知道的,每月250美元。
除非你的公司支付费用,否则我看不到大多数个人这样做,对吧?除非你是,你知道的,你是一个小型企业的老板,或者你是一个非常相信技术的人。另一个巨大的缺点是,至少现在,这只能用于个人Gmail,拜托谷歌。
而且,我已经联系过他们,说,“嘿,什么时候会来?”所以这是一个工作区帐户。所以当我得到这方面的信息时,我会让大家知道。但我认为这是一个巨大的失误,对吧?所以
我确实注册了Ultra订阅。我会让你们知道的。我可能会做几个专门的节目。我们将在6月和7月进行更多动手学习,因为在过去的几个月里有很多新功能,我没有给予它们足够的时间。所以我们将要做很多这些只有在Gemini Ultra或,你知道的,OpenAI的不同付费等级上才能使用的事情。
但我不喜欢这个的另一个原因是,是的,谷歌工作区帐户,你现在无法访问它。没有选择。所以你只是被引用为“卡在”较低的等级上。所以,我想要利用的很多这些功能,我想在我的工作中使用它,对吧?我想在我的工作帐户中使用它。但现在这不是一个选项。如果你在谷歌工作区,我只是想,这是对的。我相信有原因,对吧?
这是行业的标准。例如,对吧,即使是OpenAI,当他们推出一些东西时,通常它会首先提供给ChatGPT Plus和ChatGPT Pro用户,然后稍后会提供给团队,然后稍后,稍后会提供给企业。
所以我可能理解,或者我想我理解为什么为了向企业组织提供这种级别的技术,你可能需要跨越很多额外的障碍,对吧?也许有一些技术原因导致它还无法实现,但至少在任何可能的情况下,我希望……
谷歌会允许访问工作区。因为即使是那些个性化电子邮件和一些Gemini Live功能,以及它能够使用你的联系人,
如果我不能在我的工作帐户中使用它,这对我有何帮助?对。好的。所以我实际上必须尝试做的是将我的所有工作电子邮件转发到我的个人Gmail,创建一个过滤器,你知道的,跳过收件箱,直接进入那里。我必须,我不知道,设置某种自动化,我的工作区中创建的所有内容都会复制到我的个人帐户,因为这是,呃,而且
你在这个谷歌AI Ultra计划中获得的技术,真是革命性的。但是,如果你只能用gmail.com,用你的个人Gmail来使用它,那有什么用呢?
对。如果说实话,这并没有什么帮助。就像我说的,我相信他们现在无法推出它是有原因的,或者也许他们永远不会推出它。但自从第一天起,很多谷歌Gemini产品都是这种情况。如果你有工作区帐户,很多这些东西都不可用。好吧,现在我不再发表我的小抱怨了,所以,
呃,这里还有其他内容。你获得了高,最高的深度研究使用限制,你获得了对VO3的早期访问。所以现在获得VO3的唯一方法是使用Ultra计划。呃,你可以访问Project Mariner和Flow,我们已经讨论过Flow了,稍后会讨论Project Manner。呃,你可以访问
Gemini 2.5 Pro和DeepThink。这是获得它的唯一方法。你还可以获得YouTube Premium。你可以在YouTube上跳过广告,30TB的存储空间,等等,等等。好吧,对于我们的直播观众,这里有一个小的……
呃,价格表。所以三个月你确实可以以125美元的价格获得它,之后每月250美元。呃,我认为对于谷歌AI Pro,以前是Gemini高级版,用户确实可以免费获得一个月。所以,呃,你至少可以尝试很多这些在付费计划中可用但并非所有AI Ultra都可用的功能,你至少必须这样做,呃,
一个月,你可以以125美元的价格试用它,这相当昂贵。好吧,你还可以获得VO3访问权限。就像我说的,你现在可以使用谷歌AI Pro的免费月份免费使用Flow,但你只能获得VO2访问权限,Whisp也是如此,另一个创意工具,但在谷歌AI Pro上只能使用VO2,你必须拥有谷歌AI Ultra才能在这些工具中使用VO3。你还可以获得更高的限制。
在Notebook LM中,你可以获得2.5 Pro DeepThink和VO3访问权限。但这里最重要的一点是Project Mariner。这让我们来到了第一点,我认为Project Mariner和代理模式是谷歌AI或对不起,谷歌I/O大会上最重要的公告。这是什么?好吧,它是一个AI代理,可以自主完成在线任务。最简单的说法是,
想想OpenAI的运营商,但它可以访问你的数据,对吧?我一直在测试它
到目前为止它有点慢,但功能非常强大。此外,它一次可以执行多达10个任务。另一件事是它获得了自己的沙箱,这真的很酷。所以你基本上可以控制Chrome浏览器。它可以移动光标。它可以点击按钮。它可以填写表格。但最重要的是它可以同时处理多达10个任务。另一件我喜欢的事情是它有一个“教和重复”模式。所以我要测试的一件事是一个复杂的过程,你可以一遍又一遍地做。它可以字面记录你的屏幕。它会记录你的声音,你可以教它
一个模式。所以假设你这样做,你知道的,“嘿,我进去,检查这封邮件,然后我去做这个研究。然后我去整理这个文件。然后我,你知道的,等等,等等。”如果你有一个你手动执行的多步骤过程,呃,对。不能保证它能够在高水平或人类水平上执行它。但这是我在其他代理中没有看到的东西,对吧?一个简单的,呃,
方法来引用“教和重复”,或者使用代理来训练计算机完成你的工作,而不是仅仅用自然语言提示它。我认为,这就是为什么这是最重要的更新,仅仅是因为“教和重复”。这是我将在未来几周投入大量时间的事情。但就像我说的,缺点是目前只有谷歌AI Ultra计划的用户可以使用它,之后每月250美元,
入门价,只有美国用户,你不能在工作区使用它,这是一个巨大的打击。好吧。呃,今年夏天还会有更广泛的推广计划。我的意思是,这太棒了,对吧?能够运行你常见的重复性、枯燥的,对吧?当我们谈论商业用例时,能够自动化一些枯燥的
任务对于多个平台来说都是巨大的,只是为了改进和处理,希望能够处理一些随着时间推移而产生的手动任务。显然,它仍然与Gemini一起工作。理论上,你可以用大型语言模型做任何事情,它仍然可以做到。它不仅仅是,“哦,我只能使用计算机。”它仍然可以像大型语言模型一样进行处理、思考和制定策略,因为它是由Gemini 2.5驱动的。是的。
这方面的商业用例实际上是无限的。它们仅受技术运行状况的限制,对吧?这就是这里的大星号。这就是我将在未来几周投入大量时间的事情,但仅仅是自主完成
这些在线任务的能力。就像我说的,它还直接与谷歌的产品集成,以及他们为诸如购买之类的活动提供了一些官方的第三方集成,你知道的,通过Ticketmaster和StubHub购买门票,对吧?这太棒了。而且,你知道的,老实说,我要测试的一件事是,还有哪些AI产品
Project Mariner可以使用?它可以自己使用谷歌Gemini吗?它可以使用OpenAI的ChatGPT吗?它可以使用其他谷歌AI产品吗?它可以使用Notebook LL吗?对吧?所以这实际上是,对吧,有点元,你知道的,告诉一个AI去使用其他AI。但这些是我将在这里测试的一些事情。是的,请关注。
是的,请关注未来更多关于此的节目。好吧,太多了。这是一个漫长的节目。让我快速总结一下。以下是顶级顶级。
呃,I/O呃,功能或对不起,顶级呃,更新AI力量呃,AI模式AI升级在谷歌I/O 2025上宣布。好吧,第七个是Flow,新的AI电影制作工具;第六个是VO3,一个非常棒的AI视频和一些VO2更新;第五个是谷歌搜索中的AI模式;第四个是Gemini Live,它有一些Project Astra功能;
然后我们对Gemini 2.5模型进行了更新。第二名是谷歌AI Ultra的新等级。优点和缺点,至少我们可以访问最强大的工具。但是
创造了一个巨大的分歧。然后是第一名,呃,Project Mariner或代理模式,以便它能够为你在线执行任务。好吧,我希望这个节目对你有帮助。就像我说的,确保你去看昨天的节目530。在那里我们回顾了前半部分。更新太多了。我们回顾了15到8号,呃,
谷歌I/O的公告。如果你想了解更多关于谷歌和谷歌Gemini的信息,还有一些相关的剧集,第501集与谷歌云Next的Logan Kilpatrick坐下来进行了交谈。然后是第494集和第495集,在那里我们对谷歌新的Gemini 2.5 Pro模型进行了更深入的探讨。好吧。
请访问youreverydayai.com,注册免费的每日新闻通讯,我希望这会有所帮助,你知道的,我可能会在今天的新闻通讯中做一个投票,呃,说,“嘿,你想了解这些功能中的哪一个?”但是嘿,直播观众,如果你还在坚持,如果你现在还在,请在屏幕上输入一个数字,对吧,你想看到更多关于这些的信息,你知道的,Flow、VO2、AI模式、Gemini Live
Gemini 2.5 的新进展、新的 Altair 订阅(是否值得)、Project Mariner 项目。你甚至可以只输入 7 到 1,或者输入你想了解更多什么内容?我已经为你准备好了。你告诉我什么能帮助你发展公司和事业。好了,我可以……
假装我知道你们都想听什么,但你们只需要告诉我。现在屏幕上显示了。在接下来的几天里,我可能会在我们的新闻通讯中添加几个投票。所以请务必在 youreverydayai.com 上注册。感谢您的收看。希望明天和每天都能看到你们收看更多 Everyday AI 节目。谢谢大家。
今天的 Everyday AI 节目到此结束。感谢您的收看。如果您喜欢本期节目,请订阅并给我们评分。这有助于我们继续前进。想了解更多 AI 奇妙之处,请访问 youreverydayai.com 并注册我们的每日新闻通讯,这样您就不会落后。去打破一些障碍,我们下次再见。