We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode EP 494: Gemini 2.5 Pro Unlocked: Inside the world’s most powerful AI model

EP 494: Gemini 2.5 Pro Unlocked: Inside the world’s most powerful AI model

2025/4/1
logo of podcast Everyday AI Podcast – An AI and ChatGPT Podcast

Everyday AI Podcast – An AI and ChatGPT Podcast

AI Deep Dive AI Chapters Transcript
People
J
Jordan Wilson
一位经验丰富的数字策略专家和《Everyday AI》播客的主持人,专注于帮助普通人通过 AI 提升职业生涯。
Topics
我作为Everyday AI节目的主持人,认为Gemini 2.5 Pro是我用过的最好的大型语言模型之一。它不仅在各种基准测试中表现出色,而且在用户偏好度方面也遥遥领先。它采用了一种技术混合模型,具有内置的思维能力,并使用链式思维推理来解决问题。其上下文窗口高达100万个token,能够处理大量的文本信息。此外,它还具有先进的编码能力,在许多编码基准测试中都取得了高分。它还支持多模态输入,能够理解文本、图像、音频和视频等多种类型的信息。Gemini 2.5 Pro的免费发布也使其更容易被大众使用。总的来说,Gemini 2.5 Pro是一个功能强大且易于使用的AI模型,具有广阔的应用前景。 Google正在改变其AI更新策略,不再进行大规模的营销宣传,而是直接发布更新。这种策略使得Gemini 2.5 Pro的发布相对低调,但其强大的功能仍然值得关注。 Gemini 2.5 Pro在复杂逻辑和数学方面表现出色,无需外部工具。它在人类偏好方面得分很高,在ELO评分中领先其他模型。 在市场影响方面,Google Gemini 2.5 Pro在混合模型方面领先于其他公司,并正在努力成为思维模型的领导者。虽然目前该模型还存在一些bug,但Google正在努力改进。 未来,Google将继续增强Gemini 2.5 Pro的推理和编码能力,并将其与Google的生态系统进行更深入的整合。

Deep Dive

Chapters
This chapter introduces Gemini 2.5 Pro, highlighting its superior performance compared to other LLMs. It also briefly covers AI news, including Runway Gen 4 and OpenAI's funding round, before diving into the details of Gemini 2.5 Pro's capabilities.
  • Gemini 2.5 Pro is considered the best LLM by the speaker.
  • Runway unveils Gen 4 AI video generator.
  • OpenAI secures a record-breaking $40 billion funding round.
  • The episode will be split into two parts, focusing on high-level features in part one.

Shownotes Transcript

这是 Everyday AI Show,一个每天播出的播客,我们简化 AI 并将其力量带到您的指尖。每天收听,获取提升您的职业、业务和日常生活的实用建议。

在我制作 Everyday AI Show 的两年多时间里,我不记得有过哪个 AI 更新如此重大,尤其是大型语言模型更新,却讨论得如此之少。我认为这其中有原因,但我们今天要讨论它,因为我认为新的 Gemini 2.5 Pro

来自 Google 的 Pro 模型可能是我用过的最好的单一大型语言模型。而且我认为我不是唯一这么认为的人,因为它不仅打破了几乎所有基准测试,而且在人类偏好方面,它简直是超出了图表。所以今天我们将讨论 Gemini 2.5 Pro 解锁,进入世界上最强大的 AI 模型内部。

好的。我很期待今天的谈话。我希望你们也是。大家好!我的名字是 Jordan Wilson,欢迎来到 Everyday AI。这是您的每日直播播客和免费每日新闻通讯,帮助我们所有人不仅跟上 AI 的步伐,而且了解我们如何利用所有这些进步来取得领先地位,发展我们的公司和职业。如果这就是您想做的,欢迎。您可以在播客或直播中学习。但是

这只是成功的一半。您需要利用我们今天讨论的内容,而您可以在我们的网站上做到这一点。因此,如果您还没有,请访问 youreverydayai.com。注册免费的每日新闻通讯。我们在新闻通讯中每天都会回顾当天的播客或直播,并让您了解所有内容。

世界上所有其他 AI 相关信息。因此,它是您领先一步的一站式商店,就像这个播客一样。我一直想提醒大家,这是未经编辑的、未经编排的,试图在人工智能领域为您带来一些真实的东西。

好的。所以我很高兴进入今天的主题,讨论 Gemini 2.5 Pro,这是我用过的迄今为止最强大的 AI 模型。但在我们这样做之前,让我们像某些日子一样,或者说大多数日子一样,首先回顾一下 AI 新闻要点。

好的,首先,Runway 推出了 Gen 4,这是他们最新的 AI 视频生成器,能够使用逼真的动作和物理效果创建一致的角色、位置和场景。因此,新模型允许用户使用参考图像和文本描述生成视频,与之前的模型相比,它提供了更好的提示遵循性和风格一致性,而无需额外的训练。

因此,在 Google 和 Nvidia 等投资者的支持下,Runway 确实面临一些关于版权问题的法律挑战,同时目标是实现 3 亿美元的年度经常性收入和 40 亿美元的估值。因此,一项研究警告说,Runway 的 Gen 4 等 AI 工具可能会扰乱 130 多个

是的,Runway Gen 4 将会大受欢迎。

我认为它可能处于 Sora 的领域,甚至可能更好一些。我的意思是,我们会看到它刚刚发布。所以我相信评论即将发布,但我认为,你知道,Google VO 可能有一些竞争对手,而且,就可用性而言,Runway Gen 4 对每个人都可用,就像 OpenAI Sora 一样,而 Google 的 VO2 工具并非对每个人都可用,至少在其平台内部是这样。不过,您可以通过第三方平台访问它。

好的,我们的下一条 AI 新闻,另一个创纪录的新闻。OpenAI 正式获得了创纪录的 400 亿美元(B),400 亿美元的融资,使该公司的估值达到 3000 亿美元。因此,OpenAI 已完成这轮历史性的 400 亿美元融资,使其成为有史以来规模最大的私人科技投资。

好的。因此,它的估值使 ChatGPT 的创造者达到 3000 亿美元。此轮融资由日本的软银牵头,贡献了 300 亿美元,微软、Thrive Capital 和支付宝也进行了额外投资。在那里很有趣。

其他。这笔资金确实附带一个条件,至少来自软银。如果 OpenAI 在 2025 年底之前未能完全转变为营利性实体,他们的投资可能会从 300 亿美元下降到只有 200 亿美元。这将需要加利福尼亚州总检察长和微软的批准,以解决埃隆·马斯克正在进行的法律挑战,我认为这些挑战几乎都是戏剧性的。

好的。这也发生在 OpenAI 刚刚宣布其每周活跃用户已跃升至 5 亿之后。OpenAI 首席执行官 Sam Altman 刚刚在 Twitter 上表示,他们在一个小时内增加了 100 万人,这可能是由于所有吉卜力 AI 工作室照片的生成。此外,这紧随 OpenAI 刚刚宣布将发布一个

模型。那里的消息非常令人兴奋。因此,请务必关注。我们将关注该新闻。好的。最后但并非最不重要的一点是,亚马逊发布了一些重大新闻。他们推出了 Nova 应用商店。

一个新的 AI 代理来参与代理竞争。亚马逊的 Nova Act 是一款 AI 代理,能够独立浏览网页浏览器以执行基本任务,例如填写表格、预订或订购食物。因此,Nova Act SDK 是一个面向开发人员的工具包,它现在作为研究预览版在 nova.amazon.com 上提供,允许开发人员制作原型代理应用程序。

因此,Nova Act 由亚马逊的 AGI 实验室开发,由前 OpenAI 研究人员共同领导。据亚马逊称,Nova Act 在内部测试中优于 OpenAI 和 Anthropic 的代理。但尽管有这些说法,亚马逊尚未在一些更广为人知的代理商上对 Nova Act 进行基准测试。

评估,如 Web Voyager。此外,据报道,Nova Act 将在亚马逊即将推出的 Alexa Plus 升级中发挥关键作用,Alexa Plus 是 Alexa 的生成式 AI 增强版本,可能会通过其庞大的用户群为亚马逊带来竞争优势。

好的。我们将在我们的网站 youreverydayai.com 上提供更多关于这些故事以及您需要领先的一切信息。因此,如果您还没有,请务必访问该网站并注册免费的每日新闻通讯。好的。闲聊够了。让我们进入 Gemini 2.5 Pro。没有人谈论它。它……

很疯狂。就像我们现在拥有一个大型语言模型,它具有 Gemini 2.5 Pro 的功能,却几乎没有人使用它一样。没有人谈论它,这很能说明问题,对吧?关于几件事。我认为这是我所说的“闪亮 AI 综合症”的一个例子,对吧?我认为

Google 发布的内容可以从根本上改变我们所有人做生意的方式,但很少有人使用它,仅仅是因为房间里出现了一个新的闪亮 AI 对象,那就是 OpenAI 的新的 4.0 图像生成器。

眼睛,真正具有突破性的视觉模型。是的,我们很快就会做一个关于这个的节目。那个需要很多研究。说到这个,即使是今天的节目,我们实际上也要把它分成两部分。所以今天我们只谈论要点

高层次的,有什么新东西。然后我们可能会在本周晚些时候或下周做一个第二部分。所以请告诉我您想看到什么更多内容,您想让我们从 Gemini 2.5 中测试什么。所以,你知道,我们的第二部分将更注重实践和用例,而今天我们只是回顾一下新内容的要点。所以请务必告诉我,直播观众,你想从 Gemini 听到什么。

第二部分用例。你想看到所有这些好东西。说到这里,很高兴见到你。你知道,我们这里的 YouTube 家庭,我们的 LinkedIn。感谢您的收听。Michelle、Samuel、Jose、Shares、Kyle、Sandra、Gene、Big Bogey、Christopher、Brad、

Brian,我无法一一回复你们。感谢您的加入。但请告诉我您对 Gemini 2.5 有什么问题。但让我们从这里开始。Gemini 2.5 中到底有什么新东西?好吧,有很多。而且有点令人困惑,因为,你知道,你可能会有似曾相识的感觉。你知道,你可能会说,好吧,等等,有新的 Google Gemini 更新。

不知从哪里冒出来的。这难道不是刚刚发生的吗?是的,确实如此。所以我们还将快速回顾一下两周前发布的内容。但首先,让我们高层次地谈谈 Gemini 2.5 中的新内容。然后我们将逐一讨论所有这些内容。

因此,一些最重要的事情是它现在是一个技术混合模型,尽管 Google 没有选择将其称为混合模型。但这意味着它具有内置的思维能力。因此,Gemini 2.5 Pro 是一种思维模型。它在幕后使用思维链推理。你知道,我们在过去几个月里一直在讨论这个问题,我们将在 2025 年继续讨论很多。

这是一种大型语言模型正在走向的新方向。因此,Google 在 Gemini 2.5 中也采用了这种方法。这样想吧,您有您的所谓的旧式,你知道,转换器模型。然后您有推理器,它们基本上使用更多计算

在幕后进行这种思维链思考或思维链推理。因此,Google Gemini 2.5 将两者结合起来。因此,如果您有更简单的任务,至少在我的测试中,它仍然会经历推理或思考步骤,尽管速度很快。所以这取决于,或者抱歉,Google Gemini 2.5 决定需要使用多少计算或多少思考。但这可能是最大的一个,你知道,新内容。另一个是上下文窗口。

巨大,100 万个令牌的上下文窗口,大约相当于 75 万个单词或 1500 页。所以我们说的是几本书。我的意思是,我们说的是 33,

例如,千行代码,所以如果您是新手,并且想知道上下文窗口是什么,对吧,这基本上是一个大型语言模型在任何给定时间可以记住的内容,这与内存不同,对吧,但是基本上

你知道,想想如果你正在与大型语言模型聊天,并且你正在向它提供一些信息,并且你正在来回交流,对吧。使用旧模型,对吧。那么,你知道,让我们甚至谈谈 ChatGPT,他们在上下文窗口方面有点落后,对吧。他们有大约 32,000 个上下文窗口在其前端聊天产品上。这意味着,嘿,在 26,000 个单词之后,ChatGPT 将开始遗忘。所以,呃,有了这个,至少在 AI Studio 中,我没有看到 Google,

在前端阐明任何内容。如果您在前端聊天机器人中使用 Google Gemini 中的此功能,我们将对其进行测试。我们可能会在新闻通讯中分享它。但是,嘿,基本上 100 万个上下文窗口,100 万个令牌太疯狂了。这意味着聊天几乎不会忘记,对吧?直到你疯狂地使用它。

不停地,对吧?就像,就像,就像你疯狂地使用它,并且你没有离开那个聊天,并且你正在倾倒成千上万或抱歉,我应该说数百页。它仍然会记住,这太棒了。另一件事,高级编码,一些顶级基准测试分数,例如 sweet bench 和复杂的代码生成。所以如果你非常热衷于软件开发,如果你非常热衷于编码,那么

或者甚至是氛围编码,对吧?整个概念是,嘿,我只需要打开一个大型语言模型,让它为我编写一些代码,让它为我编写一个 Chrome 扩展程序,让它编写一个小型桌面应用程序,让它编写一个简单的 CRM,对吧?这是我对 2025 年 AI 预测的大胆预测之一,就是像你我这样的普通人将只使用 AI 来编写我们自己的小型软件。

Gemini 非常适合这个,对吧?好消息是你不需要知道任何东西。你甚至不必告诉它使用哪种编码语言。只需说,哟,Gemini,我想要一个能做到这一点的 Chrome 扩展程序。为我构建它,然后给我一些简单的分步说明,说明我如何安装和部署它。所以非常适合高级编码。我已经说过了,它不是世界上最好的

编码模型。我仍然认为 Claude Son 在 3.7 英寸处略胜一筹。有很多不同的编码基准,但你知道,基本上 Anthropic 的 Claude 遥遥领先。就像,它甚至不接近,对吧?就像,他们是 1、1B、1C,他们可能是第二名,对吧?而其他人则相距甚远。现在 Google 已经缩小了差距,他们在 Gemini 2.5 基准测试中基本上是 1B。

人类偏好非常重要。所以,你知道,我已经谈到过这一点。我认为许多 AI 实验室,尤其是在 2024 年,都在过度拟合模型。这意味着当他们构建模型、进行后期训练等等时,他们这样做是为了在基准测试中获得某些分数,对吧?所以,

Google Gemini 2.5 做到了这一点,对吧?并不是说他们过度拟合它以获得某些基准测试结果,但它在基准测试中表现出色,并且你知道,在每个重要且具有指示意义的基准测试中都获得了第一名或第二名。然而,最重要的一点是 ELO,ELO 分数。所以在 LM 中,

竞技场。这基本上是我在节目中经常谈到的。把它想象成百事可乐与可口可乐的盲品测试。你输入一个提示,呃,你得到两个输出,呃,你选择哪个更好。这些输出没有命名。对。这会给你一个 ELO 分数。呃,通常当一个新模型出现时,对吧。所以 GROK 3 或 GPT 4 Oh 最新版本,或者,呃,你,你

你知道,或者 Quad 3.7,对吧?通常,最新的最先进模型通常会在 ELO 分数中获得第一名,但可能只领先两分。通常,每当出现新的最先进模型时,通常只会领先 2 到 4 分。就像,哦,它是人类最喜欢的最强大的模型,因为这非常重要,对吧?在这种情况下,

Google Gemini 以 39 分的优势领先,这简直是闻所未闻,从未发生过。是的,它在基准测试方面符合要求,但它绝对在人类偏好方面符合要求,我认为这通常更重要,对吧?LM Arena 拥有,我相信,数百万

票数,对吧?Gemini 2.5 还没有数百万张选票,但已经有足够的合格选票,它是顶尖的,人类更喜欢它。另一件大事,

它是免费的,对吧?Google 实际上是在周末偷偷发布的。所以他们上周宣布了 Gemini 2.5。几天后,他们说,哦,猜猜怎么了?我们将免费提供它。因此,如果您确实拥有 Google Gemini 帐户,您可以直接访问 Gemini.Google.com。您可以使用您的 Gmail 或 Google Workspace 凭据,您会在其中找到 Gemini 2.5,并且可以立即免费开始使用它。好的。

这就是高层次的内容。好的。嘿,直播观众,请告诉我您对 Gemini 2.5 的想法。Sandra 问道,你可以用它为你编写一个窗口小部件。是的,你可以用它编写任何东西,Sandra。但是是的,例如,Chrome 扩展程序或在您的桌面上运行的东西,您仍然必须执行它,但它会为您编写代码并告诉您如何安装或执行它。

所以让我们回顾一下,因为你可能在想,这难道不是刚刚发生的吗?我很困惑。难道不是刚刚有新的 Gemini 2.something 更新吗?是的,有。好的,大约两周前,3 月中旬,如果您回顾并收听第 482 集,如果您想要完整的更新,我们会在那里提供给您。我喜欢 Google 在此处的新的策略。

对。我认为他们最初在 2023 年 12 月遇到了麻烦,你知道,他们发布了关于他们 AI 的花哨营销视频,结果证明很多内容都是不真实的,而且不起作用,他们有点被弄得一团糟,他们在 2023 年和 2024 年的大部分时间里都远远落后。从那以后,我喜欢 Google 的做法。他们不会发布浮夸的广告、浮夸的营销、重大公告、大肆宣传。他们只是发布。

他们只是发布非常棒的更新。所以他们两周前宣布了一些非常令人印象深刻的更新,但我仍然认为人们没有谈论这些更新。如果您想知道这些信息,您可以再次在我们的网站上免费收听第 482 集。是的,如果您不知道的话,在我们的网站上,您可以收听我们曾经制作的每一集节目,采访一些世界上顶尖的 AI 专家。但这里基本上是 3 月中旬版本中宣布的内容,以便我们可以解决这个问题。

因此,Gemini 2.0 多模态,这非常重要。我认为这为整个 GPT 4.0 图像生成多模态默认设置奠定了基础。太棒了。我回顾了这一点。您可以使用内联图像创建博客文章,你知道,

太疯狂了,对吧?您还可以使用自然语言编辑图像,就像您现在可以使用 GPT-4.0 的 ImageGen 一样。因此,3 月中旬,Google 宣布了 Gemini 2.0 多模态。他们宣布深度研究已更新到 2.0 模型,而之前运行的是 1.5。他们宣布了个性化 Gemini,我认为有些人喜欢,有些人不喜欢,对吧?但它基本上会考虑您的搜索历史记录。所以这是一个您可以选择的模式。

所以这是新的。他们还宣布了 Gemma 3,对于一个超小型开源模型来说,它非常强大。因此,您可以本地运行它。他们还宣布了 Gemini Robotics 运行在 Gemini 2.0 上,以及对我最喜欢的 AI 工具 Notebook LM 的重大更新。此外,他们还在幕后将其升级到 Gemini 2.0 集成。

而之前运行的是 Gemini 1.5。好的,如果您挠着头,并且在想,等等,Jordan 是否在这个问题上落后了一个月?不,Gemini 刚刚,或者抱歉,Google 刚刚在几个月前进行了大量的重大更新。

好的,让我们现在开始吧。让我们逐点回顾一下。再次声明,这不会是一个很长的部分,因为我们将会有一个第二部分。但这里是对 Gemini 1.5 Pro 发布的新内容的要点。

您是否仍在四处奔波,试图弄清楚如何利用 AI 发展您的业务?也许您的公司已经使用大型语言模型一年或更长时间了,但无法真正获得牵引力以找到 Gen AI 的投资回报率。嘿,我是 Jordan Wilson,这个播客的主持人。

Adobe、微软和英伟达等公司已与我们合作,因为他们信任我们在教育大众了解生成式 AI 以取得领先地位方面的专业知识。美国一些最具创新性的公司聘请我们帮助他们制定 AI 战略,并培训他们数百名员工如何使用 Gen AI。因此,无论您是为数千人寻找 ChatGPT 培训,

或者只需要帮助构建您的前端 AI 战略,您也可以与我们合作,就像世界上一些最大的公司一样。访问 youreverydayai.com/partner 与我们的团队联系,或者您可以点击我们网站上的合作伙伴部分。我们将帮助您停止在 AI 领域四处奔波,并帮助您的团队取得领先地位,并为 Gen AI 建立一条通往投资回报率的直线路径。

因此,Google 和 Google DeepMind 于 3 月下旬将其作为最智能的 AI 推出。正如我们所讨论的那样,最重要的一点是它专注于内置思维或使用思维链。这非常重要。这对于推理、编码、上下文处理非常重要。我的意思是,有很多新的功能,它确实改变了业务的可能性。好的,您如何访问 Gemini 2.5?

pro。好吧,正如我所说,周末,Google 只是通过一条推文说,哦,顺便说一句,我们将免费提供它。呃,所以,呃,它对 Gemini 应用程序用户免费提供。因此,如果您在 Gemini 聊天中使用它,所以 Gemini.google.com,对吧。呃,特别是如果您使用的是付费帐户,您可以选择关闭模型训练。因此,你知道,你不必担心你分享的数据被用来训练 Google 的模型。所以,呃,在

前端,您可以通过这种方式访问 Google Gemini。您也可以在 Google AI Studio 中免费访问它,这是一个更实验性的版本,更像是一个沙盒。

我很高兴 Google 在我之后改变了他们的策略,我喜欢,我不知道,我觉得我在 2023 年和 2024 年做了很多抱怨,因为 Google 大约一年时间将他们最强大和最强大的模型隐藏在 Google AI Studio 中,这更多的是为开发人员准备的。然后他们甚至没有标记或告诉您他们的 Gemini 聊天机器人使用的是什么技术。你不知道,但通常它运行的是一个长达六个月的旧模型。

所以不再是这样了。我喜欢 Google 在此处的新的策略。将最新、最棒的模型放入前端 Google Gemini 聊天机器人中,但您仍然可以在 Google 的 AI Studio 中使用 Gemini 2.5。在那里,您将能够获得完整的 100 万个上下文。请记住,在 Google Studio 中,Google 的 AI Studio 中,它是免费的,但没有数据保护。所以是的,不要将机密性能

专有公司数据放入 Google AI Studio 中。它更像是一个沙盒。此外,企业路径将在未来几周内很快推出到 Google Cloud Vertex AI,对吧?所以从技术上讲,我知道这有点令人困惑,对吧?有很多不同的方法可以访问 Google 和 Google Gemini,以及在他们的应用程序中,对吧?他们还没有说

例如,他们的 Gmail Gemini 集成是否已升级到 2.5,我不确定,但至少目前,您可以访问 gemini.google.com,即使是免费的。如果您有付费帐户,您将拥有更高的限制,并且您可以在 Google 的 AI Studio 中免费访问它。它很快就会通过 Google Cloud Vertex AI 推出到 Google 的产品系列中。

好的,让我们谈谈推理。正如我们所讨论的那样,它确实具有内置的思维链。那么这到底是什么意思呢?好吧,它会在给出答案之前在内部规划步骤。好消息是,您可以点击显示思维。

我不知道为什么我觉得很多人没有阅读它。至少我与之交谈的人,我强烈建议您。如果您想从任何显示其思维链的大型语言模型中获得更好的输出,您应该阅读它,对吧?呃,因为你会看到很多时候会发生什么。

特别是对于这些可以推理的混合模型,它们需要花费更长的时间,这没关系,对吧?因为总的来说,输出更好、更准确、更强大、更复杂,更好得多。但是,它确实需要更长的时间。所以我总是做的事情,当我所谓的“等待”时,对吧?可能是 10 秒钟。可能是两分钟,这取决于您向模型提供的查询有多复杂,阅读思维链。

总是阅读它,对吧?如果您想在工作中立于不败之地,对吧?如果您想成为 AI 和您部门中最聪明的人,请阅读思维链,并相应地更新您如何使用该模型、如何使用提示,对吧?呃,所有思维模型的工作方式都略有不同,对吧?你有 Claude、呃、3.7 sonnet。呃,这是一个具有思维能力的混合模型,尽管如果说实话,我认为这更多的是营销策略,因为您仍然必须点击扩展思维。呃,

无论如何,您还有 OpenAI 的所有模型,他们的 01、01 Pro、03 Mini、03 Mini High、03 Mini Pro 应该很快就会通过 API 推出,对吧?所以总是,无论您使用的是哪种思维模型、推理模型或混合模型,请查看思维链,看看哪些地方做对了,哪些地方做错了。我一直告诉人们,进行对话,重新提示以获得更好的结果。

此外,你必须谈谈。嘿,1.1,也许我们会专门做一个关于这个的节目。我不知道。直播观众。如果您想了解更多信息,请告诉我。人类的最后一次考试基准测试。这是一个由,我认为他们说是数百名主题专家共同制定的较新的基准测试。从本质上讲,这是一个理论上不应该包含在任何训练数据中的基准测试。

呃,它在新 Gemini 2.5 中获得了 18.8% 的分数,你可能会想,哦,百分之一百的 18%,人工智能很笨。好吧。人类。我怀疑任何在听的人类。任何一个人都能在这场人文最后的考试中获得 1%。

说实话,对吧?但之前的最高分是 OpenAI 的 GPT 4.5,获得了 14%。Anthropic CLAUDS 3.7 获得了 8.9%。我相信 DeepSeek 也紧随其后,在 8% 的中位数左右。所以是的,

Gemini 2.5 得分 18.8%。所以,嘿,就它能够解决和处理世界上最聪明的人类也无法解决的非常复杂的问题而言,对吧?你必须让数百人一起工作才能在这场人文最后的考试中有所作为。你知道,Gemini 做得很棒。此外,它擅长复杂的逻辑和数学,无需外部工具。

呃,我们确实谈到了其中一些基准测试,但就像我说的那样,呃,在 LM 竞技场中,一开始就,这只是人类的偏好,呃,你知道,比最后一个或下一个最好的模型高出 39 分,非常令人印象深刻。呃,在 aim 2025 上的一些其他顶级数学和科学分数,呃,获得了 86%,呃,以及 GP Q a 钻石科学。呃,它获得了 84%,呃,

非常令人印象深刻。然后在 M M M U 上获得了 81%,这是 AI 测试旧标准 M M L U 的多模式等效项。你们,即使 Gemini 2.5 才推出几天,自那时以来他们已经对其进行了多次更新,呃,好吧。所以自发布以来,呃,所以有两件事,第一,他们将其

向免费用户开放并提供。在发布时,这是不可用的。它仅对 Gemini.Google.com 内的付费用户可用。所以在前端聊天机器人上。现在所有免费用户都可以使用了。同样就在几个小时前,你们。

这就是为什么有时我睡不着觉,为什么我不总是,你知道,有时我会做预先录制的节目,但就在几个小时前,首席执行官 Sundar Pichai 刚刚宣布新的画布模式是,

在 2.5 Pro 中可用。实际上,我在策划这个节目时确实使用了它,浏览我的笔记并将其组合成一些交互式元素,以帮助我更好地学习和理解新内容。所以画布模式中有一些东西运行得非常好。如果说实话,有些东西是有问题的,对吧?这是实验性的。记住这一点。另外,

他们增加了对第三方工具的支持,例如 Cursor AI。这太棒了。所以我们应该看到,因为 Claude,Anthropix Claude 一直在谋生,对吧?基本上是成为顶级软件开发人员选择的编码 LLM,由顶级

所以我们会看到的。我确实看到这种情况可能会发生变化,尤其是在查看 API 成本时。云模型相当昂贵,而 Gemini 模型则不然。所以我们会看看会发生什么。如果 Anthropic 仍然是软件开发人员选择的默认模型。另外,

Sundar Pichai 暗示未来将支持 Google Gemini 的 MCP。非常重要的新闻。那是模型上下文协议。我知道我们很快就会做一个专门的 MCP 节目,但基本上,你知道,如果你看到这个缩写四处飘动,你会想,这是什么?对。所以基本上你有了 API,对吧?所以在 SaaS 世界和软件世界中,对吧?API 本质上是软件可以相互对话的语言。

API 有时可以为大型语言模型中的 AI 工具工作,但不一定。所以它们有点不同。所以这个模型上下文协议实际上是由 Anthropic 开发的,但现在它被几乎所有人使用和支持。OpenAI 上周宣布支持它。因此 Google 和 Google Gemini 也可能支持 MCP,这本质上是,我喜欢把它想象成,它比这更复杂,

把它想象成大型语言模型的 API。它允许不同的 AI 系统和不同的大型语言模型相互对话,并与其他 API 和其他软件对话。好的,下一个。

编码能力。好的。所以我们已经谈到了一点,这是 Google 使用 Gemini 采取的更独特或至少是其中一个角度,真正推动和提升其在编码方面的熟练程度。所以非常令人印象深刻。所以,你知道,他们发布了一些演示,而且还在代理编码中。

呃,你知道,它在 sweet bench 上获得了 63.8% 的分数,呃,你知道,在代理编码方面,呃,我认为这是要关注的基准。嗯,你知道,去,去玩玩它。对。好消息是,现在你在 Google Gemini 2.5 中有了画布模式。

所以你可以用自然语言编写任何你能想到的代码。为我编写这个代码,为我构建这个代码,对吧?你可以在新的画布模式中呈现或运行它。所以它与 OpenAI 的画布模式略有不同,我认为它更像是 Google Docs 风格的

协作环境。你可以在 OpenAI 版本的画布或 ChatGPT 版本的画布中运行某些编码语言。但我认为在我对画布的有限测试中,它几周前才发布,我认为它更像是……

它更像是 Anthropix 工件功能,因为它可以呈现和运行更多语言,对吧?去玩得开心,对吧?这整个氛围编码的事情,对吧?它一直是这个热门话题。

去给自己编写一些氛围代码,看看你能不能。对。然后,如果你可以让它在画布中运行,那么这意味着,好吧,它正在工作,你可以,呃,你知道,将其部署到其他地方,无论你是否需要,你知道,让它运行在一个完整的堆栈上,呃,某种在线服务,或者你是否会在你的桌面上运行它,无论你是否可能,你知道,作为,作为 Chrome 扩展程序等等。对。我一次性完成了,这很有趣。呃,

我在昨天的新闻通讯中分享了它。我不知道是否有人看到了。我做了一个简单的芝加哥风格的游戏,对吧?一个非常早期的任天堂风格的赛跑游戏。但只是一次性。我说,嘿,像这样去做。你知道,

融入所有这些芝加哥元素,你知道,热狗、披萨和坑洼,对吧?你知道,让它有点,你知道,融入我喜欢来自超级马里奥的元素,对吧?我知道一次性就成功了,太棒了,对吧?所以就像我说的那样,从编码软件开发的角度来看,我们将会对其进行更多测试,也许我们会在第二部分中这样做,如果这是你想看到的,但在编码方面非常熟练。

接下来,我们必须谈谈多模式和上下文窗口。在他们的 2.0 版本中,Gemini 默认情况下都是多模式的。

这意味着它不仅理解文本,还理解图像、音频、视频、代码输入或所有这些内容的混合,这非常令人惊叹。我们也从 Anthropic Cloud 和 Vue 等大型模型中获得了这一点,并且越来越接近这一点。

open a eyes chat GPT,但还没有完全实现,特别是视频,对吧?呃,这是一种不同的模式,呃,至少对于 open a eyes,呃,chat GPT,呃,Claude,我认为它不会在默认多模式空间中发挥太大作用。呃,虽然我觉得他们应该,对。我,我认为 Claude 真的希望他们能够仅仅通过软件,仅仅通过编码来开辟自己的利基市场。呃,但你知道,Google 就像,嘿,拿着,拿着我的,呃,拿着我的 MCP。呃,

我的意思是,一百万个令牌的上下文窗口,太棒了。就像我说的那样,我们将在 Google Gemini 前端对其进行测试。我确实知道并且在 AI Studio 后端的上下文窗口上进行了一些测试。非常令人印象深刻。此外,Google 确实宣布他们很快计划推出 200 万个令牌的上下文窗口。我的意思是,那……

太疯狂了,对吧?所以我要做的一件事可能是收集成绩单,对吧?就像我有 Everyday AI 节目的近 500 集一样。那是

数千页的成绩单,这可能是我要做的事情,上传所有内容,呃,但是你们,当我们获得数百万个令牌的上下文窗口时,呃,我应该把它放在我的,你知道,AI 2025,你知道,路线图系列中,所以你知道,如果你还没有听过,请确保你访问我们的网站并免费收听,呃,免费收听这些,这是一个五部分的系列,呃,

我不知道。我认为,你知道,rag 在 2025 年和 2026 年会变得不那么重要。我并不是说它不需要。它仍然需要,对吧?

但我认为,特别是小型公司的小型用例,你知道,他们在 2023 年底和 2024 年听到了这个 rag 术语。每个人都像,哦,我需要构建,你知道,检索许多生成。对。但是好吧,如果你没有大量数据怎么办?对。如果你实际上没有很多文件,而且数量不多怎么办?对。你可能只需要在 200 万个令牌的上下文窗口中工作。所以,你知道,上下文窗口实际上对 AI 开发的未来极其重要。

好的。让我们谈谈一些早期的反馈。就像我说的那样,我们在我们的新闻通讯中分享了这些内容,但有一些非常令人印象深刻的一次性生成,人们正在构建视频游戏、精确的图像分析、3D 模拟,非常令人印象深刻。我们将在本系列的第二部分中进行一些这样的操作。音频技能,能够

立即获得准确的转录,非常令人印象深刻,而且只是积极的,对吧,只是积极的,你知道,人们总是喜欢氛围,对吧,2.5 的氛围,Gemini 2.5 专业版,到目前为止非常积极,让我们看看市场影响,所以 Google 现在,

他们试图成为思维模型的领导者,对吧?嗯,他们有点在混合方面击败了 OpenAI。就像我说的那样,从技术上讲,Anthropic 首先推出了 Claude 3.7 sonnet,但我不知道。呃,我,我在,呃,

在 GTC 的 NVIDIA 大会上与几个人谈论了这个问题,你知道,我在那里做的 15 次采访之间我有两三分钟的空闲时间。顺便说一句,我们仍然有一些节目是从 GTC 发布的。很多人说,你知道,我说,嘿,

你对 Claude 的这种新的混合方法有什么看法?他们说,哦,它真的是混合的吗?如果你想要扩展思维,你技术上必须点击。但有了这个,我认为 Google 至少现在在采用这种新的混合模型方法方面处于领先地位,我们也从 OpenAI 那里听说这将是他们未来的方法。所以他们说,当我们获得 GPT-5 时,它将更像是一个系统,对吧?你不会

一定能够选择你使用的模型,有些人可能会喜欢,对吧?如果你看看 OpenAI 的 chat GPT,并且,你知道,在我的专业帐户中,我认为我有九个不同的模型可以选择。有些人可能会被吓倒。所以,你知道,至少

GPT-5 将更像是一种架构,它将使用这种模型混合或专家混合,或者使用传统意义上的,你知道,“老式”转换器模型和混合模型或,你知道,这些推理和思维模型。但是 Google 通过这个,他们现在是领导者。我认为 Anthropic 没有做好。

如果说实话,我没有。我认为很多人对 Sonnet 3.7 印象不深。我知道很多人默认回到了 Sonnet 3.5。他们印象不深,他们觉得他们没有足够的控制权,对吧?至少对于前端用户来说,这就是我们正在讨论的,而不是后端。但我的意思是,这里的这个策略。所以除了在思维模型方面处于领先地位之外,我还想说,

与企业游戏,对吧?所以这还没有在 Vertex AI 上发布,这可能是个好主意,对吧?因为它是有问题的。我应该这么说,对吧?我会说,当 OpenAI 发布一个模型时,至少这是我个人的经验,我每天都在使用,你知道,主要的模型,每天多个小时。OpenAI

OpenAI 的模型,当它们发布时,是的,它们是被限制的,它们可能会崩溃,对吧?Gemini 的可用性更好,呃,你知道,很多时候,特别是如果你使用的是免费计划或,你知道,chat gpt 的每月 20 美元的标准计划,并且一个新模型发布了,呃,你知道,它可能会非常慢,或者可用性可能会受到影响,但是当它存在时,它运行得相当

好,我会说的。所以我会说 Gemini 2.5,虽然它不是,你知道,没有减速,没有真正的中断,可用性在那里,它确实有点问题,对吧?所以画布模式,虽然它只发布了

与一般的 Gemini 2.5 相同。它有点问题,但它是实验性的,对吧?我总是运行一系列测试,有时我们得到的不是,我不会说幻觉,而是某些误导,对吧?我总是做的一件事来测试它的互联网能力,我说,嘿,Jordan Wilson 的 Everyday AI 播客的最新一集是什么?所以我看,好吧,它是否

能够实际导航到网络并找到最新一集。相反,它给了我天气,对吧?天气是准确的,但这并不是我要求的。所以,呃,你知道,到目前为止是好坏参半,但我认为一旦 Google,呃,解决了一些问题,它就会,呃,你知道,成为一个非常,呃,令人印象深刻且可靠的模型。但我认为这就是,

老实说,为什么他们还没有将其发布到 Vertex AI 的原因。对。所以当你能够,你知道,当你开始看到它大规模部署时,你知道,在许多大型企业组织中。但我确实认为 Google 正在采取更分层的方法,并确保个人用户,在 AI Studio 中使用沙盒的人们拥有良好的体验。在将其发布给大众之前,他们会想要消除一些错误。

好的。然后最后但并非最不重要的一点,嘿,直播观众,感谢你们坚持到最后。我们将会有第二部分。如果你有任何问题,现在就提出来。我将滚动浏览,看看我是否可以回答任何问题。但最后但并非最不重要的一点,我们必须展望未来和更新。

我们可能会很快看到 API 的一些定价更新,因为我相信会有大量的使用。Google 已经表示他们正在努力进一步增强推理和编码能力。所以将会有在幕后的一些更新。这是另一个需要考虑的重要因素,对吧?所以即使我们看到了从 Gemini 2.0 到 Gemini 2.5 的飞跃,那

并不意味着 Gemini 2.5 不会更新,直到我们获得像 Gemini 3 这样的东西,对吧?是的,你必须关注像 Everyday AI 这样的来源,对吧?看看这些幕后模型更新何时发布。但我确实看到了它,我认为他们会消除一些错误,进行一些改进,但最重要的事情是生态系统,对吧?我很想知道 Google 何时以及是否会宣布

Gemini 2.5 Pro 或 Gemini 2.5 是否将与更深入的生态系统集成一起推出。这意味着,对吧,而且我希望它更好地与,你知道,Google 表格、Google 云端硬盘、Gmail、文档等更深入地集成。我希望看到是否,

我们将在 Notebook LM 中获得 2.5,在 Google Gems 中,这是他们版本的,你知道,GPT,对吧?创建 Google Gemini 的个性化版本。另外,你们准备好反击了。我认为我会就此结束,除了你们的问题,因为事情是这样的。每当发布这样的模型并且它受到好评时,而好评是指,我的意思是传统基准测试的组合,Google Gemini 已经做到了。人类偏好,他们在 ELO 中做到了。然后只是整体氛围,就像我说的那样,人们普遍喜欢 Gemini 2.5,但没有人谈论它。没有人谈论它,因为每个人都在,你知道,OpenAI 的新的 4.0 图像生成器,正在为他们的家人创建吉卜力工作室的图片,对吧?别误会我的意思。实际上,如果我必须比较两者,即使是两件无关的事情,我对 OpenAI 的更新更印象深刻,因为它确实推动了多模式对话。而且,你知道,即使我们几周前默认获得了 Gemini 2.0 的这种多模式功能,能够在线创建和使用图像,能够使用它们进行编辑,我认为 OpenAI 的 4.0 图像更新的执行要好得多,但是

但从纯粹的大型语言模型的角度来看,Gemini 2.5 完全被忽视了,非常强大。所以我们将……

我们将在第二部分中对此进行测试。所以请确保,如果你正在收听播客,谢谢。你总是可以联系我,或者在你注册新闻通讯时回复我。告诉我你想在我们的第二部分中看到什么。你想让我们如何测试 Gemini 2.5?你想让我们运行哪些用例、演示?这里有一个大坏蛋问,让我们测试一下它的编码技能。我们当然可以做到,对吧?

呃,kabari 在 YouTube 上问,就能力而言,在 1 到 100 的范围内,人工智能现在处于什么位置?哦,这是一个好问题,我不知道,呃,如果我们谈论的是 Gemini 2.5,我的意思是,你必须说它在 90 年代,对吧?如果你问的是人工智能,呃,你知道,嗯,

总的来说,我不知道,对吧?因为 100 或上限不断提高,对吧?再说一次,如果你两年前告诉人们我们将拥有如此强大、如此强大的模型,而且是免费的,我认为你会说不行。

就像,哦,那是不可能的,但事实并非如此。我们在这里。所以上限不断提高。Denny 问,内容创作的写作需求呢?提到的大部分内容都是视频或技术方面的需求。我会这样说,Denny,好问题。也许我们可以将其作为一个用例进行测试,只是进行一些创意写作。但我确实认为 Gemini 总是擅长创意写作,对吧?我认为最终通过适当的提示工程,OpenAI 始终是最好的。但如果你谈论的是零样本尝试获得一些好的创意写作,我认为人们总是更喜欢 Claude。我认为

Gemini 就在那里,就而言,你知道,呃,你开箱即用就能得到什么,你知道,嘿,这里有五个例子。去模仿,呃,去模仿这个。我认为 Google Gemini 实际上非常适合这个。我确实做了一些,呃,

一些测试。呃,Jose 正在问直播什么时候开始?是的,它们在芝加哥时间 7:30 开始。所以是的,如果你正在收听播客,如果你不知道,这是未经编辑的、未经编排的。你可以进来,闲逛,建立人脉,提问。呃,我们尽量做到最好,呃,尽我们所能。呃,你们,所以,

我希望这有帮助。最后这里有一些问题,一些评论。再说一次,我们将会有第二部分,我们将分解所有这些内容,回顾用例,现场做一些事情,真正将其推向极限。所以请确保加入我们,让我知道你想看什么,你想听什么。所以非常感谢你们收听。如果你还没有,

请注册我们的免费每日新闻通讯,网址为 youreverydayai.com。我们将回顾今天的直播播客的重点和你需要知道的内容。如果你没有听懂所有内容,别担心。它将包含在内,以及所有你需要的内容,以帮助你利用生成式人工智能来发展你的公司和职业生涯。所以如果这有帮助,请订阅播客。请给我们评分。我很感激。我也会感激,这总是让我有点开心。你知道,如果你在 LinkedIn 上收听,请点击转发按钮。如果这有帮助,我们花费了大量时间来剔除废话,为你提供

你知道,希望是公正的,只是真实的信息,以帮助你更好地做出关于你的 AI 战略和实施的决策。所以如果你能转发这个,如果它有帮助,我会感激的。所以感谢你们收听。我希望明天和每天都能看到你们,了解更多 Everyday AI 内容。谢谢你们。

今天的 Everyday AI 节目到此结束。感谢你们的收听。如果你喜欢这一集,请订阅并给我们评分。这有助于我们继续前进。更多 AI 魔法,请访问 youreverydayai.com 并注册我们的每日新闻通讯,这样你就不会被落下。去打破一些障碍,我们下次再见。