这是 Everyday AI Show,一个日常播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。出乎意料的是,谷歌在三月中旬突然宣布了一些 AI 新闻。因为突然之间……
谷歌刚刚发布了大量新的 AI 更新,包括 Gemini 模型以及一些新的小型语言模型和机器人技术。这些都是从哪里来的?因此,今天的节目中,我们将探讨谷歌令人意外的 AI 发布,了解新功能以及它如何改变大型语言模型的竞争格局。
好的。我对这个很兴奋。我希望你们也是。但是,大家都在做什么呢?我的名字是 Jordan Wilson,这是 Everyday AI。欢迎。这个节目是为你们准备的。它是您的每日直播播客和免费每日新闻通讯,帮助像您我这样的普通人不仅学习 AI,而且学习如何利用它来发展我们的公司和职业。
如果这听起来像您,欢迎。这里是您的新家。您来对了地方。您还需要做的另一个地方是我们的网站 youreverydayai.com。因为是的,您可以从播客、直播和我们邀请的优秀嘉宾那里学到很多东西,但是您如何实际利用它
这就是我们在新闻通讯中所做的。因此,请务必访问 youreverydayai.com 注册。您还可以在那里免费收听现在大约 470 多集之前的节目,这些节目来自世界领先的专家和我本人。
呃,关于任何您想学习的内容,对吧?无论是营销、沟通、法律伦理,都在我们的网站上,按类别排列。好的。如果您想要每日新闻,请查看新闻通讯。有时我们会,呃,你知道的,在我们开始播客节目之前就发布出来,但是今天谷歌的更新太多了。我想,我不希望这意外地变成一个,你知道的,50 分钟的节目。我知道你们中的一些人都在,呃,
一边在跑步机上走一边听这个直播。所以,呃,我不会,我不会让你们等太久的。
好的。直播观众,感谢你们的加入。很高兴看到你们。你们有什么问题吗?我会看看我是否有时间在最后解决它们。你们尝试过这些新的更新吗?如果是这样,你们对它们有什么看法?也许如果您有一个好的看法,我们会将您的看法放在我们今天的新闻通讯中。感谢你们的加入。YouTube 团队表现强劲。是的,这是
如果您不知道,如果您主要只是收听播客,这是一个未经编辑、未经编排的、关于人工智能最真实的东西。所以,是的,我们现场直播。感谢直播观众、Harvey Castro 博士、Christian 和……
YouTube 上的 AI 医生。很高兴看到你们。Michael,大笨蛋脸。Sandra、Marie 来自 LinkedIn 加入 Douglas、Christopher、Denny 和 Brian。感谢你们所有人的收听。Woozy,很高兴见到你。好的,让我们进入谷歌令人意外的 AI 发布。各位,这完全出乎意料。就像谷歌在过去三天发布的新 AI 更新数量一样,这就像什么都没有。
他们的超级碗。所以我们都知道,在 12 月份,OpenAI 和谷歌进行了一场大型语言模型发布的对抗。这非常激烈。OpenAI 进行了为期 12 天的 OpenAI 活动,谷歌不知从哪里冒出来,也许抢走了风头。但是通常,
你知道,当这些 AI 更新即将到来时,对吧?公司可能会说些什么,他们可能会举办一个活动,一个发布会,对吧?这是突然发生的。我没想到这个。我认为大多数人,除非你在谷歌工作,否则我们都没有预料到谷歌在过去几天更新的所有内容。而且,你知道的,我们一直在我们的新闻通讯中回顾它们。我想,等等,就像,
这太多了,到底发生了什么?我只知道,特别是如果您是谷歌模型的粉丝,如果您使用他们的谷歌工作区,您知道,对于您的组织来说,这里有一些非常重要的事情。我甚至无法全部涵盖,因为太多了。好的。
让我们也顺便说一下。还有其他人会参加 NVIDIA 的 GTC 大会吗?所以,我下周实际上从周日开始就要去了,但我将从 17 日到 19 日在那里。但是会议将持续到 20 日。
所以,嘿,如果您要参加 NVIDIA GTC 大会,请务必向我打招呼。我很高兴能与 NVIDIA 合作,为你们带来许多独家见解。我们实际上正在与 NVIDIA Inception 计划合作做一些有趣的事情,对吧?他们在 NVIDIA Inception 计划中拥有数千名世界上最优秀的一些初创公司。所以下周我会为你们提供更多关于这方面的细节。但我非常兴奋。
如果您不知道,本质上,NVIDIA 为全球的 AI 提供动力。大多数最大的公司都在使用 NVIDIA 的 GPU 来创建他们的 AI 或创建我们都喜欢和使用的 AI。所以那里将有一些令人兴奋的更新。好的。以下是新内容。
所以有一个更新版本的谷歌 Gemini 2.0 闪念。谷歌的深度研究获得了 Gemini 2.0 闪念。好的。所以它升级并更新到了谷歌刚刚发布的最新模型。现在我们有了带有个性化更新的 Gemini,有些人可能不喜欢。我个人很喜欢。
呃,然后我们有 Gemini 2.0 机器人技术。我们有笔记本 LM 更新和 Gemma 3,我认为在所有这些事情中,即使我个人不会经常使用 Gemma 3,除了进行一些测试之外,我认为 Gemma 3,它是谷歌的一种小型语言模型,可能是所有这些中最大的一笔交易,对吧?嗯,
我们稍后会详细介绍。我将在最后介绍它。但这非常重要。这非常重要。所以我很高兴谈论很多这些内容,因为 Gemma 也是开源的。所以这里有很多内容需要介绍。好的,让我们开始吧。嘿,是的,直播观众,欢迎。
让我知道。Big Bogey 说 Gemini 将成为所有谷歌产品的包装器。是的,这是一个很好的观点。Douglas 说 Gemma 3 很有趣,但我看到相当数量的用户报告说,在 Olamo 解决方案的本地托管方面存在质量问题。是的,我也使用 Olamo。我确实下载了一个较小的 Gemma 版本,因为我目前还无法在我的电脑上使用 27B 版本。
是的。现在 Michael 说谷歌不像 OpenAI 那样预告。他们只是交付。是的。显然,在整个大型语言模型竞争中,谷歌一开始就跌跌撞撞地出现了。在那里。我的意思是,他们从 Bard 到 Gemini 的过渡。你知道,他们最初的 Gemini 发布失误。对。他们在发布 Gemini 时发布了一个营销视频。对。
你知道,我认为是在 2023 年 12 月。他们基本上展示了所有不可能实现的功能,对吧?所以谷歌就像,拥有了最糟糕的发布方式。我认为他们远远落后,直到 2024 年年中,大约 9 月份。然后,你知道,在 20 或对不起,然后在 12 月,就像我刚才谈到的那样,
我认为谷歌从,哦,好吧,你知道,他们是第二名,第三名,对吧?可能在 2024 年 9 月左右。在那之前,我想,好吧,他们勉强排名前三。但现在它与 OpenAI 和谷歌并列 1A、1B。我认为他们不断地互换这些位置。
好的,让我们谈谈 Gemini 2.0 闪念的新功能。好的,不用说得太详细,对吧,如果你听过这个节目,你知道,但本质上现在有两种,或者两种非常不同的大型语言模型,对吧?您有您的所谓的旧式 Transformer GPT 型模型,对吧?那是您的普通 Gemini 2.0 和 Gemini 2 Pro。
然后您有您的推理模型,对吧?这些是使用,你知道,思维链的模型,对吧?它们使用这种逐步思考的方式。它们在幕后做很多人类会做的事情。因此,它们使用更多的计算,你知道,更多的推理。它们需要更长的时间。
但通常情况下,它们会给你更好的结果。所以这就是 Gemini 2.0 闪念,它是该模型的更新版本。所以一些新功能。第一,文件上传,性能改进,更好的推理能力,速度改进。此外,您可以在 Google AI Studio 免费试用。顺便说一句,在 Google AI Studio 上,
它是免费的。您可以使用所有功能。太棒了。没有数据保护。顺便说一句,对吧?在前端,如果您在前端使用付费的 Google Gemini,则有
强大的数据保护,对吧?它是企业级数据保护。您的数据不会与谷歌或任何其他地方共享,对吧?如果您在前端使用 Gemini,Google AI Studio 更像是一个沙盒,对吧?它不一定是您或您的公司用来完成工作的工具,对吧?
如果这说得通的话。它更像是一个沙盒,但我了解很多人将其用作他们的主要模型,我不会这样做,但您可以。因此,您可以免费在 Google 的 AI Studio 中使用这个新的 Gemini 2.0 闪念,或者它可供付费用户在 Gemini 的前端使用。付费用户现在可以获得 100 万个令牌的上下文窗口。太棒了。
很高兴在推理模型上看到它。对。我还没有谈论很多这个,但是你知道,我,我,我认为在,你知道,2023 年年中到 2024 年,你知道,所有的,狂热都围绕着,你知道,RAG 管道和,你知道,所以这个检索增强生成,呃,你知道,我认为长上下文窗口将使 RAG 稍微不那么,呃,重要。对。呃,我还认为,呃,
RAG 在准确性方面肯定有其优势,但我不知道一两年后,我们是否会像现在这样关注或谈论 RAG 管道,仅仅是因为这些上下文窗口。事实上,我们现在有一个 100 万个令牌的上下文窗口,这意味着您可以免费放入数百个文档,数百页的文档,
或者对不起,你知道,对于基本的付费用户来说,谷歌将能够,Google Gemini 将能够记住所有这些内容在这个新的 2.0 闪念版本中。好的。但我认为其中最重要的一点,而这正是我现在屏幕上显示的内容,人们将要谈论的是内联图像生成,对吧?使用谷歌的 Imagine 模型。而且它非常好。所以我昨晚玩了一会儿。
所以我说了,这是在 Google AI Studio 内部。这只是一个简单的提示,各位。这就是我实际使用模型的方式,但它更容易截屏,对吧?我说,写一篇关于为什么游客应该参观芝加哥的长篇博文,使其非常详细,并创建最具历史意义的停靠点的照片,对吧?所以这是人们可能会做的事情。对。所以你可能会写,我不知道,你公司的一篇博文,或者更新你网站上一些非常旧的内容,它需要视觉效果。但是好的,所以不仅。再说一次,我正在通过 Google AI Studio 在这个空间中访问 Gemini 2.0 闪念。
实例和输出格式,您将看到,您可以设置为图像和文本,对吧?这太棒了。然后看看这个,呃,这个输出。它实际上为我写了一篇关于芝加哥顶级旅游景点的博文。然后它按顺序创建了这些历史遗址的 AI 图像,对吧?这太好了。太好了,对吧?嗯,
这是那些小的功能之一,当我使用它时,我想,哈?对。
有点不知所措,你知道,仅仅是因为这是我过去做的事情,对吧?我,你知道,显然我有营销和内容写作以及记者的背景,对吧?而这是我必须一直做的事情,你知道,花很长时间写一篇,你知道,好的博文,你知道,去寻找你可以合法使用的照片,对吧?有时这是一个需要一天或更长时间才能完成的过程,对吧?
Gemini 2.0 闪念在几秒钟内就完成了。而且质量非常高,对吧?你可能在我的屏幕上看不清,因为我只是截了个图,但是这些 AI 图像非常好,对吧?而且它与内容相符。想想这意味着什么,以及对您的业务意味着什么,对吧?我的意思是,首先,您不再需要那些旧的、可怕的库存照片了。对不起,你知道,
你不应该,对吧?但我的意思是,你也不能只是复制粘贴大型语言模型中的任何内容,然后把它贴到你的网站上。你知道,我们,呃,互联网已经够糟糕的了,对吧?所以你可能想做得更好一点,利用那个上下文窗口,输入大量关于你的公司或,你知道,你的旧博文的信息,也许如果你想更新它,呃,对。所以你,
你确实想做一些,一些好的“人机协同”工作,在之前、期间和之后,你可能想迭代,但这个过程需要几个小时,有时甚至需要一天或更长时间才能完成,然后将其缩短到,你知道,也许 10 分钟,对吧?而且你可能会得到更好的东西,特别是如果你花时间分享上下文和关于你的公司的信息来改进它的话。这太重要了。而且,
是的,现在这在 Google AI Studio 中可用。是的,Google AI Studio 没有任何数据保护,但是各位,你在互联网上发布的任何东西,他们都知道,对吧?这就是为什么我说这非常适合公司博文之类的东西。如果它是,你知道,你在内部使用的文档不包含敏感或专有信息,对吧?
我会这样做,对吧?是的,谷歌将用它来进行训练,但如果它已经在互联网上了,猜猜怎么着?谷歌、OpenAI、微软、Meta 和其他所有人已经把它吞噬了。好的。这是一个重要的内容。这是一个重要的内容。好的。下一个。
而这个,即使我认为 Gemma 3 可能是最大的更新,但我最兴奋的可能是深度研究。好的。因为现在我们有了深度研究 2.0,因为它获得了 Gemini 2.0 闪念,而深度研究产品现在完全不同了。好的。所以,呃,在,在,在首先,你知道,每个人都像,哦,你知道,呃,
谁是第一个发布这个深度研究的?所以从技术上讲,谷歌是第一个发布深度研究产品的公司。然后在 1 月、2 月、3 月,每个人和他们的妈妈都发布了一个深度研究产品,对吧?这是所有人的狂热,对吧?所以显然 OpenAI 仍然是最好的。我们从 Perplexity 获得了深度研究。我们得到了深度搜索,这与 Grok 相同,当它第一次出现时,我想,这太糟糕了。它实际上已经有了很大的改进。Grok 深度搜索产品。
现在实际上相当不错了。如果你听过这个节目,我有时会批评 Twitter/X/Grok。Grok 深度搜索现在实际上相当不错了。所以谷歌的深度研究是第一个,即使你回顾报告,OpenAI 也据报道在 5 月份就开始研究这个了,
所以,你知道,他们是第一个与这个深度研究相关的公司,尽管谷歌是第一个上市的。他们的第一个版本的深度研究工作方式完全不同。所以我只花了一个小时左右的时间来研究它,因为它很新,但它的工作方式不同。所以深度研究的第一个版本
基本上使用了页面的缓存版本,它只是在一大步中一次性全部吸收了,对吧?这很好,对吧?我认为这种方法有优点和缺点。呃,所以深度和细节,呃,
并不总是存在,但它确实在非常快速地,嗯,对人类来说,无论如何,都会想要做的那种信息进行综合。对。但它没有采用这种逐步思考的方法,而这正是它现在所做的。对。这很好,因为这是更像,
你知道,Grok、Perplexity 和 OpenAI 的深度研究所做的事情是,它们采用这种推理方法。它们一步一步地进行,因为会发生什么,对吧?如果他们首先查看一些最权威的来源,对吧?所以假设,你知道,你问它关于,你知道,最新的更新,对吧?这只是一个简单的例子。谷歌的最新更新,
如果你问谷歌深度研究的旧版本,它只会查看数百个或可能一千个页面的缓存,而不知道现在可能 95% 的来源可能没有意义,因为谷歌在过去三天刚刚发布了所有这些新更新。所以现在它将以一种逐步的方式开始。所以它首先会进行一些高级研究,它会发现,等等,哦,
谷歌刚刚发布了一堆新更新。所以,你知道,如果用户正在询问谷歌的新更新,我们应该将我们的其余搜索重点放在这些内容上。对。这在一个巨大的更新中非常重要,呃,谷歌的一个巨大更新。对。呃,我还没有使用过它来测试它,看看它是否会达到 OpenAI 深度研究的水平。嗯,
我做过一个关于这个的节目。所以如果你非常感兴趣,你可以回去听。对。Perplexity 的很糟糕。幻觉超出了图表。旧的谷歌深度研究相当不错。你知道,有一些幻觉。Grok,我们当时没有比较,因为它还没有发布。Grok 实际上相当不错。是的。
然后 OpenAI 的是独一无二的,所以呃,我必须看看呃,新的谷歌呃,深度研究 2.0 与闪念呃,它会去哪里,但是呃,它很棒,我喜欢的一点是它作为一个普通的
模型可用,如果说得通的话。所以,你知道,在大型语言模型中,你有像模型和模式这样的东西,每个模型的工作方式都略有不同。对。呃,所以以前你必须选择深度研究作为菜单中的下拉菜单。对。所以现在如果你有一个付费帐户,嗯,在深度
Gemini 的前端。所以你使用 Gemini 作为聊天机器人,对吧?所以你现在只需点击,你仍然可以将其作为模型使用,但还有一个模式。有一个新的图标,你可以点击它说深度研究,我喜欢它,因为然后你可以在不同的模式或不同的模型中开始另一个对话。然后你可以点击深度研究按钮,并在同一个窗口的上下文中工作。所以一个大的,你知道,
所以一些事情,让我们回顾一下要点。第一,可以免费访问深度研究。所以它非常有限,对吧?我们
我们将在新闻通讯中仔细检查您可以获得多少查询。但是即使您拥有免费帐户,您也可以访问一些深度研究。就像我说的,它确实通过新的 Gemini 2.0 闪念得到了增强。所以本质上,它使用推理来改进规划、搜索和其综合能力,最终为您提供更好、更快、更深入的报告生成,这只是……
我的意思是,质量会好得多。另一件很棒的事情是,您可以看到推理过程,对吧?所以你可以点击并查看它要去哪里。最大的技巧之一,我认为人们没有这样做,其中一些我在节目中谈到,有些我没有谈到,因为它们是我的秘密,对吧?也许有一天我会做一个关于这个的节目。但是总是要进行两次深度研究。永远不要只做一次,对吧?因为你应该去看看它的研究。
所以你应该举个例子。哦,这是 Gemini 深度研究在我询问它关于最新的谷歌 AI 时所做的。哦,我可以看到它首先搜索深度研究或 Gemini 2.0。所以也许你可以……
或者你应该做的是,你应该通过查看它的推理过程来学习和学习。然后我一直这样做。我手动这样做。我做笔记。呃,你知道,我说我的原始查询,我看到哪里出错了,哪里对了,哪里可以改进。你知道,我实际上查看了它的研究过程,我想,哟,它可能一开始就没有做好。或者,你知道,它在中途有点偏离了主题,对吧?很多,嗯,
我认为大型语言模型中很多改进或不足之处并不是因为模型不好。这是因为人类的指令不够清晰,对吧?这就是为什么我一直说要第二次尝试任何深度研究。但我认为,你知道,如果你正在寻找立即的投资回报率,对吧?
深度研究产品,每个人都应该使用它们,对吧?我认为谷歌的新产品,你知道,它属于它自己的类别,因为它是最早的一个,它的工作方式略有不同。它就像,哦,好吧,它很棒。但是与其他所有东西相比,并没有那么好。但是是的,现在它立即回到了地图上。好的,下一个。而这个对人们来说将是混合的,好的?这将是一个混合。你不必使用它。
但是谷歌刚刚发布了一个 Google Gemini 版本,所以是一个模式。所以如果您是付费用户,您可以点击下拉菜单,您现在应该可以看到这个。另一件好事,我的意思是,祝福。最后,一些新的模型出现在我的工作区帐户中。所以你总是听到我说,哦,我有一个付费帐户用于我的个人 Gmail 地址。
你还在为了弄清楚如何利用 AI 发展你的业务而苦苦挣扎吗?也许你的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力来找到生成式 AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。
像 Adobe、微软和 NVIDIA 这样的公司已经与我们合作,因为他们信任我们在教育大众了解生成式 AI 以领先一步方面的专业知识。一些美国最具创新性的公司聘请我们来帮助他们制定 AI 战略,并培训他们数百名员工如何使用生成式 AI。所以无论你是在寻找针对数千人的 ChatGPT 培训,
还是只需要帮助构建你的前端 AI 战略,你也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站上的合作伙伴部分。我们将帮助你停止在 AI 领域兜圈子,并帮助你的团队领先一步,为生成式 AI 建立一条通往投资回报率的直线路径。
然后我有一个用于我的工作的付费 Gemini 帐户,对吧?所以我们使用 Google Workspace,对吧?它以前被称为 G Suite,在过去五年中,他们已经为 Workspace 起了 30 多个其他名字,对吧?但我终于在我的付费工作区帐户中看到了一些这些新的模式,这很棒。
因为我想,所有这些有什么用呢,对吧?所有这些前端 Gemini 更新,如果我不能将它们与我的工作数据一起使用,对吧?所以现在我的后端中可以使用许多这些更新。
付费工作区帐户。请记住这一点。你可能应该自己去检查一下,但并非所有更新都是如此。例如,我付费工作区帐户中唯一不可用的更新是这个,个性化。这只有在我的个人 Gmail 中。所以他们可能会将它推广到工作区帐户。但是如果您在您的
你知道,在您的个人 Gmail 上有一个付费的 Google Gemini。所以这就像 gmail.com,对吧?您将拥有这个,或者您应该拥有这个个性化功能。所以这可能不言而喻,就像它所做的事情一样,但它实际上使用您的 Google 搜索历史记录来,
来改进您的,并个性化您的 Gemini 查询,对吧?所以本质上,Gemini 现在可以连接到用户的搜索历史记录,以改进上下文和回复。未来将与 Google 相片和 YouTube 集成。好的。是的,很多人会看到这个并说,哦,这是一个隐私问题,对吧?隐私问题。
我不想要Gemini访问我的Google搜索历史记录,我不在乎。拿去吧。我就是这样的人。我觉得这是一个非常两极分化的议题。
我不在乎,对吧?Meta,拿走我的数据,即使我不使用Facebook、Instagram或WhatsApp,对吧?但我使用Llama。我使用meta.ai,对吧?Meta,拿走我的数据。Google,拿走我的数据。微软,拿走我的数据。我不在乎,对吧?我很乐意看到更多个性化的广告,对吧?我等不及了。为什么我的Google TV……
为什么我的Google TV,对吧?我用它来看有线电视或其他流媒体。我不知道。呃,或者我的,我的YouTube TV,天哪,我90岁了吗?呃,什么,但为什么我的YouTube TV没有这个功能?对。我希望我的YouTube TV只向我展示AI的广告或……我不知道。我喜欢北卡罗来纳州的篮球和芝加哥的东西。对。嗯,
所以我很满意,并且期待尝试这个Gemini的新个性化版本。但问题是,就像我说的,它只在我的个人账户上可用。而且大部分情况下,当我使用Google,当我进行Google搜索时,我是在我的工作区、我的工作账户下进行的。所以现在它没有这个功能。所以我很少使用我的个人Gmail进行任何搜索。
它也使用了2.0闪念模型。此外,用户可以使用一些透明度工具。因此,用户可以查看Gemini如何使用其数据源,包括过去的聊天和搜索历史记录。隐私控制允许用户随时断开、编辑或管理关联数据。
呃,还有一些其他的小东西。呃,Google Gems,呃,现在也对免费用户开放了,呃,这很酷。我一直不太喜欢Gems。呃,我必须进去看看。看,最大的问题之一是,呃,它并不总是能很好地准确地从我的工作区账户中获取数据。呃,所以我要进去,你知道,我会看看,呃,你知道,他们并没有谈论很多关于新的Google Gems更新的内容。所以,呃,如果你不知道,呃,
所以,举个例子,OpenAI有GPTs,你基本上可以根据你自己的数据创建一个小型专业版本的ChatGPT,然后你给它一些自定义指令,这就是Google Gems。Google花了很长时间,对吧,他们宣布了Google Gems,然后过了九个月才真正发布,我认为他们在这一方面错过了机会,对吧,他们的市场营销策略很糟糕。
它有所改进,对吧?就像我说的,现在Google,我喜欢他们现在正在做的事情。没有华丽的公告。他们突然出现。就像我说的,那是三月。他们选择了疯狂。他们给我们带来了所有这些更新。但GEMS对免费用户开放,这很酷。所以即使你不是付费用户,你也可以使用GEMS。
而且,你知道,Gems也可以在工作区账户上使用。尽管数据共享,对吧,以及能够连接到你的Gmail、YouTube、日历,在工作区账户中并不总是那么强大或准确,我不明白为什么。但在个人账户上,它做得很好。
好了。还有更多,各位。好吧。这可能并不适合我们所有人,但我认为其影响非常巨大,因为Google确实宣布了用于物理世界的Gemini或基于Gemini 2.0的Gemini Robotics。好吧。所以基本上……
Google就像,是的,这很好。你知道,Gemini 2.0,这是一个用于机器人的版本。这将真正影响物理世界。好吧。所以Gemini Robotics集成了Gemini 2.0的多模态推理,对吧?所以文本、图像、音频和视频与物理动作相结合,使机器人能够理解自然语言命令,实时适应变化,并与人和环境无缝交互。所以,是的,
这相当重要,对吧?因为据我所知,这是第一个公开可用的。当我说是公开可用时,它是商业上可用的,对吧?但这是大型AI实验室第一次这样做,对吧?所以如果你说,好吧,那是微软、Google、OpenAI、Google,
Anthropic。你也可以把Mistral加进去,也许还有Cohere。据我所知,这是公司第一次说,是的,这是一个用于机器人的模型。通常,很多这样的模型都是专有的,而且它们一定很好,因为例如Figure,它是人形AI机器人领域最大的公司之一,可能排名前三到四名,他们放弃了OpenAI的模型,现在正在使用他们自己的模型。我相信它被称为Helix。所以Google的这个消息非常重大。所以
一些功能和更新。它增强了灵巧性和操作性。所以机器人现在,有了这个新的Gemini 2.0机器人更新,现在可以执行复杂的多步骤任务,这些任务需要精细的运动技能,例如折叠折纸、打包午餐盒或处理精致的物品,例如我手中的咖啡杯。
所以也许将来,在我做这个节目的时候,我可以有一个Google Gemini 2.0机器人。它可以拿起我的咖啡杯,把它放到我的嘴里,这样我就不用休息了,我可以继续打字和移动鼠标。对。还有一些其他的事情。
它具有具身推理能力。好吧。那就是Gemini Robotics ER。这是一个新的模型。所以Gemini Robotics ER增加了先进的空间理解和编码能力,允许机器人规划、检测和与物体交互。
所以非常酷。所以,是的,即使,你知道,我们在Everyday AI Show上并没有深入探讨机器人技术,但这将是影响我们所有人的事情,对吧?无论你是否知道或想要它,这都不重要。如果你听过我们的2025年AI路线图和预测系列,我很喜欢。
所以Jess,你们都回去听一下,对吧?我说过具身AI。不仅仅是人形,你知道,人形AI机器人,而是我所说的普遍的具身AI将在2025年成为一件大事。我认为2024年为时过早。但我的意思是,我们开始了。Google正在加入这场游戏。
而最重要的事情是,现在,你知道,人们可能会说,哦,好吧,这是否意味着Google将,你知道,拥有所有这些机器人?不,不一定。我认为这是Google与NVIDIA竞争数据的一大步,对吧?所以我认为许多公司正在转向,对吧,因为他们试图使AI更有用,他们正在转向世界模型,对吧?
AI很棒。大型语言模型很棒。生成式AI很棒,对吧?但最终,你知道,随着公司在通往AGI(人工通用智能)、ASI(我不一定想要,但我们无论如何都在朝着这个方向努力)人工超级智能的机器人竞赛中,对吧?你知道,大型实验室和大型AI公司现在明白,我们需要尽可能多的数据,以及在现实世界中使用AI,对吧?基本上,现在,
大型语言模型有点局限于我们作为知识工作者在电脑前所做的事情,对吧?我们在电脑前如何思考,我们如何创作内容,我们如何综合信息,对吧?所以现实世界中AI最大的下一个前沿领域就是这样。这就是数据。想想现在Google将能够
呃,你知道,现在有了,呃,据报道,他们正在与波士顿动力、敏捷机器人等团队合作,呃,
我会把你们带到敏捷机器人的采访中。我想我必须检查一下我的日程安排,呃,NVIDIA GTC。对。但现在Google将拥有所有这些现实世界的数据。这甚至使我们今天使用的AI更有用。是的。它改进了创意工具,对吧?例如,
你知道文本转视频,就像Sora和Runway,对吧,因为随着你对实际物理世界的理解越来越好,这会改进诸如AI视频生成之类的东西,它显然会改进人形机器人,但它也会改进AI和生成式AI在现实世界中的适用性和实用性,因为现在
大型语言模型在大多数情况下并不理解我们如何与物理世界互动。所以这是一个非常重要的公告,即使你并不关心人形机器人或其他任何东西。好吧。来自YouTube的Art Tech刚刚说,我想要更多机器人。
嘿,Big Bogey,我想我和Big Bogey站在一起。他说,我不确定我是否想要我的漂亮、干净、昂贵的机器人来洗脏盘子。是的,这是一个很好的观点。但如果反过来呢?如果你的机器人非常脏,而你的盘子非常干净和昂贵呢?我不知道。
嗯,好吧,来自Google的另外一些事情,是的,我告诉你们有很多事情,另一个Google偷偷添加的小东西,我甚至不知道是否为此专门写了一篇博客文章。
这只是来自Josh Woodward。他在Twitter上发布了一条推文。另外,顺便说一句,Notebook LM团队,他们做得非常出色。他们一直在努力。他们一直在发布很棒的更新。但是嘿,Notebook LM也得到了2.0的改进,我认为这将真正改变我们使用Notebook LM的方式。如果你听过这个节目,Notebook LM是我们2024年最顶尖的
AI工具或功能之一,而且差距很大。我是一个Notebook LM的忠实用户。我每天都使用它。我认为它仍然是最被低估的。它是被低估、未被充分利用、最少被谈论、最有用的AI工具之一。好吧,Notebook LM的一些新更新。最大的一个更新是,它现在由一个新的模型提供支持。它现在由Gemini 2.0闪念模型提供支持。
这太棒了,对吧?任何闪念模型,是的,它需要花费更长的时间。我的意思是,但如果你查看任何基准测试,闪念模型总是表现更好。它们总是会给你更细致的答案,更好的理解,更高的准确性,更低的幻觉水平。所以Notebook LM这一事实,它以你的数据为基础,对吧?这意味着
它不像Gemini、ChatGPT或Claude那样,你可以直接进去开始提问。如果你进去开始向Notebook LM提问,它会说,哟,我什么都不知道。你必须给我数据。它只使用你提供的数据。所以如果我上传了很多关于Everyday AI的数据,然后我说,嘿,解释一下如何制作煎饼,除非我在Everyday AI节目中谈到过这个,
Notebook LM会说,哟,我不知道,自己去弄清楚吧,我就像,我没有这个,对吧,所以它不会编造东西来试图提供帮助,这非常重要,另外,顺便说一句,在过去的几个月里,我非常热衷于制作煎饼,从零开始制作,我想为什么我制作盒装煎饼已经25年了,对吧?
从零开始制作煎饼,太棒了。好吧,Notebook LM中的一些其他新内容,所以现在你的笔记中有引用了,让我告诉你这意味着什么,呃,所以如果你使用Notebook LM,对吧,你上传所有你的来源,可以是YouTube视频,可以是Google文档复制粘贴,呃,你知道某些网址,尽管这并不总是有效,因为很多网址都被阻止了,然后你可以与Notebook LM聊天,然后你可以保存所谓的笔记。
对。但是缺点是,例如,在聊天窗口中,所有内容都有来源。例如,假设我上传了500个Everyday AI的文字记录,然后我说,哟,我什么时候谈到Midjourney的?它会说,好吧,在第320集,Rory Flynn来了,并给出了关于Midjourney的五个技巧。对。所以如果我将其保存为笔记,
然后我稍后再查看该笔记。之前的引用不存在。好吧。所以现在当你创建新笔记时,它会保留这些引用。之前你只能点击,然后进去,它会显示你的来源,对吧?这非常重要。所以,你知道,不幸的是,之前使用这些笔记有一些缺点。
在Notebook LM中,但是现在引用会保留下来。这很重要。然后在音频概述中,你可以自定义来源。这也很好。我过去常常手动这样做。我会得到一个包含所有来源的大型笔记本,然后我会复制所有内容,删除来源。所以现在它更好。所以Deep Dive AI播客的两位主持人,他们很棒,
有一个交互式功能,它不是新的,但它仍然很棒,呃,所以现在你可以对音频概述的来源进行更多自定义,Douglas说我喜欢Alton Brown的这个从零开始制作煎饼的食谱,强烈推荐,嘿,Douglas,Jordan Wilson的从零开始制作煎饼的食谱怎么样?老实说,我只是使用ChatGPT,所以我不
我不能声称任何东西。好吧。嘿,也许第500集应该是Jordan的盒装煎饼秘诀。好吧。我们会看到的。我们会看到的,Angie。好吧。最后但并非最不重要的一点,我已经让你们等了足够久了。Gemma 3,我认为……
即使我们大多数人可能不会使用Gemma 3,对吧?我知道我们很多人都在使用。我们有一些喜欢捣鼓的人。但Gemma是Google的小型语言模型。它是开源的,这意味着你可以下载它。你可以修改它。你可以微调,对吧?你可以对开源模型做很多事情。
但通常情况下,因为你是在离线工作,你必须,一,拥有一台功能极其强大的电脑,或者二,你正在使用这个模型的一个非常小的变体。所以Gemma 3.0。
重大新闻。好吧。所以它轻量级、高性能。所以它做到了。我会说它是一个最先进的,现在设计用于直接在设备上运行的小型语言模型。所以从手机到工作站。所以这里有不同的模型大小。所以它是1B、4B、12B、27B。这些都是数十亿个参数。例如,对吧。我只是,我只是在这里泛泛而谈。
好吧。所以假设你拥有最新的智能手机。好吧。我想说最新的智能手机通常可以运行大约4B的模型。好吧。所以这是数十亿个参数。好吧。那么,为什么这很重要?你为什么谈论这个怪人?所以我们现在使用的大多数AI,大部分都去云端。
对。所以第一点意味着它更慢。第二点,理论上意味着它不太安全。虽然我个人认为,也许是因为我,我对数据非常宽容,对吧?嗯,当你使用,如果你有ChatGPT的付费版本、Gemini的付费版本、Claude的付费版本、Copilot的付费版本,呃,
在你的数据方面,你没有什么需要担心的,因为你可以关闭模型训练。它不会随机出现在互联网上。它不会去,我真不明白为什么人们不明白,为什么人们不选择在使用大型语言模型的付费版本时学习数据隐私和保护,对吧?人们认为,哦,好吧,我永远不会把,是的,是的,我们有企业版本的Copilot 365或Gemini或其他什么,但我永远不会把我的数据放在那里。它就像,哦,好吧,你使用什么云存储?
哦,同一家公司。猜猜怎么着?数据保护是一样的,我不明白,无论如何。对。所以像Gemma 3这样的小型语言模型很棒,因为它们是边缘AI。它是本地模型。它是离线的,对吧?所以你甚至不需要互联网连接。你可以下载它们。你可以进去微调它们。你可以创建你自己的版本,或者你的公司可以创建你自己的版本。然后你可以在本地设备上运行它们,这非常重要。
第一点,虽然我知道很多人不在乎这个或不考虑这个,但它对环境更好。我认为人们在谈论小型语言模型时忽略了一点。我认为人们谈论速度。它更快。它更私密,也更安全,因为你不会将所有这些信息发送到云端。但是哟,环境呢?
我们可以为设备上的AI、边缘AI小型语言模型鼓掌吗?它对环境更好,各位。我知道人们会很激动,对吧?就像,哦,ChatGPT搜索比传统的Google搜索消耗10倍的电力或消耗10倍的能源,这……
我会提供相反的观点。哟,就像我必须进行20次Google搜索才能获得一次ChatGPT查询的结果。所以它是否消耗更多能量?绝对的。你是否进行了更少的Google搜索?是的。对。我几乎不再进行传统的Google搜索了,呃,而且,天哪,Google放弃了很多东西。我甚至没有提到Google刚刚发布的新AI模式,呃,所以是的,他们,他们真的选择了AI暴力,通过发布所有这些。嗯,
所以回到小型模型,希望你能理解其中的区别。它对环境更好。它更安全。它更快。
但是现在,你知道,最大的版本,最好的版本,27B,在大多数情况下,没有人可以在一台PC上运行它,对吧?如果你是一个IT管理员,你知道,你们有一些计算能力,对吧,对吧?你们有一个服务器机架。是的,你可以运行一个27B的模型。但在大多数情况下,普通人还不能,对吧?
对。所以我确实认为在这个时候,比如两年后,甚至我们的手机也能运行27B的模型。对。因为我们都在使用的芯片。所以GPU正在改进。它们变得更快更便宜。NPU,神经处理单元,它们就像AI芯片。
TPU,对吧?所以我们用来创建和使用AI的所有这些AI芯片,它们的能力越来越强。它们变得更快。它们的物理尺寸越来越小。这就是为什么像Gemma 3这样的东西实际上非常重要,因为我认为,对吧,就像我说的,可能两年后,我们所有人都有可能或可以选择在我们的设备上本地运行最先进的大型语言模型。让我在这里给你看一张图表,为什么我认为这很重要。这是有史以来发布的最好的小型语言模型。如果我们查看ELO分数,我知道我谈论过一点,
但ELO分数,如果你去LM竞技场,我认为这是最重要的事情之一,我们总是查看基准测试。我认为基准测试在某些方面很好,但它们也,它们可能会有点具有欺骗性,因为公司基本上可以过度拟合或过度训练它们的模型,以便在基准测试中表现良好。但结果是人类讨厌它们。
对。所以ELO分数。所以如果你去LM竞技场,我总是说它就像盲品测试。你输入一个提示,你会得到两个输出。你不知道它们是哪个模型。你选择哪个输出更好。这会给你一个所谓的ELO分数,就像国际象棋一样。对。所以分数越高,模型越好。而Gemma 3,我仍然无法理解。这是270亿参数的版本。
它是ELO分数中排名前10的模型之一,这太疯狂了,对吧?是的,有几十个模型,但它是一个270亿参数的模型。例如,DeepSeek V3。
是一个6710亿参数的模型,对吧?每个人都对DeepSeek感到疯狂。是的,顺便说一句,他们没有说实话关于他们的训练以及它要花多少钱。对。我喜欢这个。Google制作了一个小图表。它说需要NVIDIA H100 GPU来训练这些模型。他们说,不,DeepSeek。你没有在你的后院花500万美元做到这一点。你需要一个巨大的GPU集群,对吧?就像
很多报告都说,对吧?我认为DeepSeq故意误传或未充分沟通,对吧?然后世界上其他人都批评他们,就像,是的,事实并非如此。无论如何,GEMA3是一个270亿参数的模型。所以它比所有其他模型都要小得多,而且它做得更好,它的ELO分数更高。所以这是人类的偏好,对吧?
人类更喜欢它,例如DeepSeek V3。这是一个6710亿参数的模型。我不擅长数学,但这相当于30倍。
倍。Gemma 3是我们在小型语言模型中看到的,我认为是最令人兴奋的进步之一,可能是史无前例的。因为我认为这确实改变了不仅仅是LLM竞赛,它改变了可能性。因为有很多事情……
当我们谈论在本地使用大型语言模型的未来时,我们认为可能需要三到五年时间,不。
就在今天,对吧?例如,是的,270亿参数,你必须有一些资源才能运行它。但我相信这可以在一台NVIDIA DGX上运行。好吧。所以NVIDIA DGX是一种新型超级计算机,来自NVIDIA。但只需3000美元,你就可以拥有一台NVIDIA DGX超级计算机,你现在就可以运行,
在一台NVIDIA DGX上,你可以将其用作独立的计算机,也可以将其连接到你的现有计算机,对吧?只需3000美元,你就可以在本地运行Gemma 3,这是一个最先进的小型语言模型。它会很快。人类更喜欢它,例如DeepSeek V3、Llama 3、O3 Mini、Mistral Large,对吧?所以它的性能非常好。所以各位,三年前,
如果你说,嘿,2025年在自己的设备上运行世界上排名前10的模型之一的最先进模型需要多少钱,我会说几百万美元。我认为大多数人都会说几百万美元。你可以做到3000美元。
这彻底改变了这场竞赛。所以虽然我不会每天都使用Gemma 3,而且我认为我们很多观众也不会使用它,对吧?就像我说的,除非你是一个开发者,除非你是一个在IT方面做决策的人,如果你更技术性,你可能会立即使用Gemma。但是各位,这完全改变了。我认为这不仅仅是改变了LLM竞赛,而是
就像我们现在走上了一条不同的轨道,对吧?它不仅仅是,哦,我们有一个新的,你知道,哦,Gemma 3现在领先了。他们领先了这场竞赛。不,这是一场新的竞赛。这是一场新的竞赛。我的意思是,仅仅是因为一个这么小的模型在人类偏好方面表现如此出色,就完全改变了我们看待AI及其有用性以及我们如何、在哪里以及为什么使用它的方式。好吧,各位。我希望这对你们有所帮助。
如果是这样,请告诉别人。好吧。是的。Google让我们所有人都大吃一惊。呃,我希望你对今天节目的价值感到惊喜。呃,如果你这样做了,如果你正在收听播客,呃,感谢你。请查看节目说明。呃,你知道,也许,嘿,我总是把我的,呃,我们的电子邮件。呃,我把我的,呃,
我的LinkedIn联系方式,告诉我你的煎饼秘诀是什么,或者,呃,告诉我你最喜欢的Google发布的产品是什么,或者你不想使用任何一个?呃,我喜欢听你们的声音。呃,我的回复会有点延迟,因为我将在NVIDIA待几天,可能在我的日常工作中落后一些。呃,所以请确保下周收听。我们将有特别的节目,呃,
我将在NVIDIA现场报道,与NVIDIA领导者讨论他们在主题演讲中宣布的内容。我将与其他合作伙伴交谈。我认为我有一些……
与一些初创公司和企业科技公司领导者安排的采访。所以这将是令人兴奋的一周。所以请务必收看。也请务必访问youreverydayai.com,注册免费的每日新闻通讯。如果这有帮助,是的,请订阅播客,给我们留下评分和评论。我将不胜感激。如果您正在Twitter机器或LinkedIn机器上收听直播,请转发此内容。我知道我被告知Everyday AI是您的作弊代码。
但是请注意,这并不能支付账单。如果您将其保密,请与他人分享,与您的团队分享。如果您正在做演示,我很乐意将播客添加到您的演示中。这就是我想做的。我想让AI教育保持免费。我想让它保持公正。我想让它保持易于访问。并且希望保持它,我不知道,有点乐趣,也许比阅读一堆研究论文少一点枯燥。好吧,感谢大家收听。希望很快再见。
稍后我们将带来更多Everyday AI的内容。谢谢大家。今天的Everyday AI节目到此结束。感谢您的收听。如果您喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多AI魔法,请访问youreverydayai.com并注册我们的每日新闻通讯,这样您就不会落后。去打破一些障碍,我们下次再见。