We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

With Gemini 2.0, is Google So Back Baby?

2024/12/13

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Insights AI Chapters Transcript

People

David Citron

Demis Hassabis

Ethan Malek

Jaisalyn Konzelman

Kare Kevick-Soglu

NLW

知名播客主持人和分析师，专注于加密货币和宏观经济分析。

Tulsi Doshi

Topics

NLW: Google Gemini 2.0专注于代理时代，旨在构建能够与谷歌产品交互并执行代码的多模态模型。Gemini 2.0 具有原生图像和多语言音频生成能力，能够直接与谷歌产品交互，并接受流媒体视频作为输入。Google 推出了三个基于 Gemini 2.0 的原型代理：Project Astra、Jules 和 Project Mariner。Project Astra 是一款语音到语音的通用 AI 助手，可以访问 Google 搜索、地图和 Lens 等工具，并具有 10 分钟的会话记忆能力。Jules 是一款编码助手，能够创建多步骤计划来解决问题，修改多个文件，并为 Python 和 JavaScript 编码任务以及 GitHub 工作流程准备拉取请求。Project Mariner 是一款网页浏览助手，旨在模仿人类的网页浏览行为，代表了用户交互方式的转变。Google 还为 Gemini 1.5 Pro 推出了深度研究模式，这是一个长篇研究工具，能够制定多步骤研究计划，搜索和整理信息，并生成包含完整引文的报告。Google 正在改进其 AI 概述工具，使其能够处理更复杂的主题，并回答数学和编程问题。Google 推出了第六代 Trillium AI 芯片，该芯片在训练性能和能效方面都有显著提升。Google 在过去几年中经历了 AI 品牌故事的转变，从领先地位到被超越，再到如今的强势回归。Notebook LM 的成功以及播客摘要功能的添加，帮助 Google 重拾了在 AI 领域的叙事优势。Google Gemini 2.0 的发布获得了积极评价，标志着 Google 在 AI 领域的回归。Google 在 AI 领域拥有诸多优势，包括产品整合和数据获取能力，这使其在 2025 年有望取得更大发展。 Tulsi Doshi: Gemini 2.0 Flash 速度快，性能强，在编码和图像分析方面比 Gemini 1.5 Pro 有显著改进，并取代 Pro 成为旗舰模型。 Demis Hassabis: Gemini 2.0 Flash 的性能与 Gemini 1.5 Pro 相当，甚至更好，且具有成本和性能效率。 Jaisalyn Konzelman: Jules 编码助手在设计上注重用户参与，会在采取行动前呈现建议计划，并请求权限才能合并更改。 Kare Kevick-Soglu: 由于 AI 现在代表用户采取行动，因此需要逐步推进。 David Citron: 深度研究模式利用 Google 的信息检索能力来指导 Gemini 的浏览和研究。 Ethan Malek: Google 的深度研究功能令人印象深刻，能够生成组织良好且准确的报告，但可能存在错漏。 Sundar Pichai: Google 的 AI 概述工具已覆盖 10 亿用户，并将在未来一年扩展到更多国家和语言。

Deep Dive

Key Insights

What are the key features of Google's Gemini 2.0?

Gemini 2.0 features native image and multilingual audio generation, intelligent tool use, and the ability to accept streaming video as input. It can interface with Google products, execute code, and handle real-time interactions.

Why is Gemini 2.0 Flash replacing Gemini 1.5 Pro as the flagship model?

Gemini 2.0 Flash is faster and more powerful, offering significant improvements in coding and image analysis while maintaining cost and performance efficiency. Google is confident it will be the best model for most tasks.

What are the three prototype agents showcased by Google?

The three agents are Project Astra (a universal AI assistant), Jules (a coding assistant), and Project Mariner (a web browsing assistant). Astra can handle complex conversations and access real-time information, Jules assists with coding tasks, and Mariner can control web browsing activities.

How does Project Mariner differ from other AI agents in web browsing?

Mariner can take control of the Chrome browser, clicking buttons, filling out forms, and navigating the web like a human. It represents a new UX paradigm shift, allowing agents to behave more like users.

What is Google's new reasoning mode for Gemini 1.5 Pro called, and how does it work?

The new mode is called 'deep research.' It responds to prompts with a multi-step research plan, searches for and compiles information, and generates detailed reports with citations, saving users hours of time.

What are the performance improvements of Google's sixth-generation Trillium AI chip?

The Trillium AI chip offers a 4x improvement in training performance and a 2.5x improvement in training performance per dollar, with significant reductions in energy use. It is used for both training and inference.

Why has Google's position in the AI race improved compared to earlier this year?

Google's breakout AI product hit, Notebook LM, with its podcast summarization feature, helped regain narrative momentum. The recent Gemini 2.0 announcement further solidified its position, showing a return to form and leadership in AI.

Chapters

This chapter dives into the features of Gemini 2.0, highlighting its multimodal capabilities, including image and audio generation, and its ability to interface with Google products. It also discusses the improved speed and performance of Gemini 2.0 Flash, which replaces the Pro model as the flagship.

Native image and multilingual audio generation
Native intelligent tool use (interfaces with Google products)
Accepts streaming video as input
Gemini Flash 2.0 is multimodal and replaces Pro model
Significant improvements in coding and image analysis over Gemini 1.5 Pro

Shownotes Transcript

<context>随着Gemini 2.0的发布，谷歌是否重回巅峰？NLW探讨了谷歌的最新公告，包括Gemini 2.0、一系列新代理，以及为什么该公司在2025年将比2024年更强大。由以下公司提供支持： Vanta - 简化合规 - ⁠⁠⁠⁠⁠⁠⁠https://vanta.com/nlw AI Daily Brief帮助您了解AI领域最重要的新闻和讨论。在您收听的任何地方订阅AI Daily Brief播客版本：https://pod.link/1680633614 订阅时事通讯：https://aidailybrief.beehiiv.com/ 加入我们的Discord：https://bit.ly/aibreakdown

</context> <raw_text>0 谷歌推出了一系列新的AI功能，展示了该公司今年AI战略的进展。AI Daily Brief是一个关于AI领域最重要新闻和讨论的每日播客和视频。要参与讨论，请在我们的节目说明中点击Discord链接。

朋友们，在我们今天深入讨论之前，快速提醒一下，这一集因为旅行原因被耽搁了。因此，我再次只做一个主要的节目。我想我们可能会在周五做一个扩展的新闻节目，以试图赶上我们错过的所有头条新闻。年末有点波动，但我们正在努力实现。至少你不会错过任何集数。

今天我们要讨论的是谷歌的一系列新公告。很明显，他们并不满足于让OpenAI在其“12天的OpenAI”或其他什么活动中尽情享乐，而是希望进来抢一些风头。我们将首先讨论实际宣布的内容，然后在节目的最后，我会花一点时间谈谈这反映了谷歌在2025年进入AI竞赛的地位。

正如我所说，宣布的内容非常多，所以需要一点时间来逐一讲解。最大的头条是这是Gemini 2.0。几乎在他们的原始前沿模型发布一周年之际，这个模型当时试图作为第一个本土多模态模型来吸引注意力和能量，显然他们在Gemini 2.0上的思路非常明确。这在博客文章的副标题中就体现出来了：我们的新AI模型，适用于代理时代。

那么Gemini 2.0实际上包含了什么呢？首先，它具有本地图像和多语言音频生成。它还具有谷歌所称的本地智能工具使用功能，这意味着它可以直接与谷歌产品（如搜索）接口，甚至执行代码。它也是第一个接受流媒体视频作为输入的模型。因此，当你把这些结合在一起时，谷歌现在拥有一个可以实时查看事物、进行对话并在后台采取行动的模型。此次发布集中在对Gemini Flash的改进上。

Gemini Flash是该模型的一个版本，旨在快速且便宜。第一代Flash仅支持文本，但现在已完全多模态，并具备更大模型的所有功能。这意味着它可以接受图像、视频和音频作为输入，并生成音频响应。

Gemini的产品负责人Tulsi Doshi表示：“我们知道Flash因其速度和性能的平衡而受到开发者的极大欢迎。2.0 Flash与以往一样快速，但现在更强大。”根据谷歌的基准测试，Gemini 2.0 Flash在编码和图像分析等领域相比Gemini 1.5 Pro有了显著改善。谷歌实际上对Flash成为大多数工作的最佳模型充满信心，因此它将取代Pro成为旗舰模型。

谷歌DeepMind的首席执行官Demis Hassabis表示：“实际上，它的表现与当前的专业模型一样好，因此你可以认为它在成本效率、性能效率和速度上整体提升了一个层级。我们对此非常满意。”

音频生成功能是Flash的新特性，被描述为可引导和可定制。它具有八种不同的声音，针对多种语言和口音进行了优化。Doshi表示：“对此的反应相当不错。”Dan Mack在Twitter上写道，

“我有点讨厌AI影响者通过说‘这太疯狂了’来吸引关注，但我必须说，这确实是疯狂的。谷歌通过允许在桌面上进行实时视频和音频交互，抢先于OpenAI推出了Gemini 2.0 Flash。这无疑是AI时代的新纪元。虽然基础模型的重大更新是个大事，但他们也指出这一切都是关于代理时代的。因此，谷歌展示了三个基于新模型的原型代理也就不足为奇了。

第一个是Project Astra，这是他们的通用AI助手的更新版本。该助手现在完全支持语音对语音。谷歌展示了它跟上复杂对话、在不同语言之间转换以及访问其他谷歌工具的能力。该助手现在可以通过谷歌搜索、地图和Lens访问实时信息，这是我们迄今为止未见过的AI助手功能。Astra现在具有10分钟的会话记忆，可以回忆您过去的对话，以增强个性化体验。

第二个代理是一个名为Jules的编码助手。Jules展示了将推理模型与代理能力结合时会发生什么。Jules可以创建多步骤计划来解决问题，修改多个文件，并为Python和JavaScript编码任务及GitHub工作流准备拉取请求。如果这个代理是上个季度宣布的超过四分之一的谷歌代码现在由AI生成的背后原因，那么我们可能会迎来一些伟大的东西。

谷歌在设计Jules时考虑了大量的人类参与。坦率地说，可能比他们需要的更多，以确保安全。Jules在采取行动之前会提出建议计划。用户可以监控进度，并在合并任何更改之前请求权限。谷歌实验室的产品管理总监Jaisalyn Konzelman表示：“我们对AI代理在计算机使用中的全部能力的理解仍处于早期阶段。Jules目前仅向一小部分受信任的测试者提供，但将在明年初更广泛推出。

第三个代理是名为Project Mariner的网页浏览助手。这展示了我们看到的最重要的用户体验转变之一，即我们不再试图适应AI和代理的能力，而是试图让代理更像我们。Anthropic在今年早些时候做了一些新闻，他们展示了他们版本的一个非常初步的代理，实际上可以在您的屏幕上指点和点击。

而Mariner也是类似的。该模型可以控制Chrome浏览器，点击按钮、填写表单，并像人一样使用网络。谷歌领导人称这是我们现在看到的一个根本性的用户体验范式转变。引用：“我们需要弄清楚，所有这些如何改变用户与网络的互动方式，以及出版商如何为用户和未来的代理创建体验。”

演示显示该代理根据购物清单构建在线购物车。这个过程非常缓慢，光标移动之间大约有五秒的延迟。该代理还多次卡住并请求帮助。目前，该代理无法独立使用结账，这是一个安全限制，以免处理信用卡信息。从功能角度来看，该代理确实像Anthropic的计算机使用模式一样，持续截屏以确定其下一步行动。

因此，Mariner只能使用Chrome中的可见标签，因此在代理控制时您无法进行其他操作。不过，谷歌对此感到非常满意。DeepMind首席技术官Kare Kevick-Soglu表示：“因为AI现在代表用户采取行动，所以重要的是一步一步来。您作为个人可以使用网站，现在您的代理也可以在网站上做您所做的一切。”

作为预览下一步的额外奖励，谷歌表示他们正在测试理解视频游戏的代理。他们表示，这些代理可以“仅根据屏幕上的动作推理游戏，并在实时对话中提供下一步的建议”。如果您卡住了，代理还可以访问谷歌搜索以找出您应该做什么。谷歌

谷歌正在测试这些代理在《部落冲突》和《农场英雄传奇》等游戏中的表现。

无论您是运营领导者、市场营销人员，还是非技术创始人，Plum都为您提供了AI的力量，而无需技术麻烦。立即访问顶级模型，如GPT-4.0、CloudSonic 3.5、Assembly AI等。不要让技术阻碍您。查看Use Plum，即Plum加B，以提前体验工作流自动化的未来。今天的节目由Vanta提供支持。无论您是启动还是扩展公司的安全计划，展示一流的安全实践和建立信任比以往任何时候都重要。

Vanta自动化ISO 27001、SOC 2、GDPR以及领先的AI框架（如ISO 42001和NIST AI风险管理框架）的合规性，节省您的时间和金钱，同时帮助您建立客户信任。此外，您可以通过自动化问卷和展示您的安全态势，简化安全审查，所有这些都由Vanta AI提供支持。

超过8000家全球公司，如Langchain、Leela AI和Factory AI，使用Vanta实时展示AI信任和证明安全性。了解更多信息，请访问vanta.com/nlw。即vanta.com/nlw。今天的节目一如既往地由Superintelligent提供支持。

您是否曾想过一个完全专注于AI如何与您的公司相关的AI每日简报？您的公司在AI采用方面是否遇到困难，无论是因为您在寻找能够带来价值的用例时停滞不前，还是因为正在发生的AI转型被孤立在各个团队、部门和员工中，无法改变整个公司？Superintelligent开发了一种新的定制内部播客产品，通过分享来自公司内外的最佳AI用例来激励您的团队。

可以把它看作是一个仅针对您公司AI用例的AI每日简报。如果您想了解更多，请访问besuper.ai/partner并填写信息请求表。我对这个产品非常兴奋，所以我会亲自尽快回复您。再次强调，访问besuper.ai/partner。尽管如此，我们还没有结束，因为除了代理，谷歌还为Gemini 1.5 Pro引入了一种新的推理模式，称为深度研究。

这似乎更接近于一种长格式研究工具，而不是OpenAI的O1模型的竞争者。在深度研究模式下，Gemini会根据提示生成一个多步骤的研究计划。一旦修订并获得批准，该模型会花几分钟时间搜索和汇编信息。然后，它会多次重复这个过程，迭代所学到的信息。完成后，该模型会生成关于关键发现的报告，并附上完整的学术来源引用。

谷歌称其为代理，因为它在完成此过程时使用了谷歌搜索。Gemini应用的产品总监David Citron表示：“我们构建了一个新的代理系统，利用谷歌在网络上查找相关信息的专业知识来指导Gemini的浏览和研究。深度研究为您节省了数小时的时间。”Orton教授Ethan Malek深入研究了AI的高级学术应用，似乎对此印象深刻。

他写道：“……谷歌的新深度研究功能感觉是迄今为止最适合谷歌的AI应用之一，确实令人印象深刻。我已经使用了一段时间，它在几乎任何主题上都能提供非常好的初步报告。学术来源的付费墙限制了一些内容。”他还补充道：“……我希望他们能提供幻觉率的统计数据。我怀疑比本科生要好，更可能错过微妙的东西，而不是完全错误。”

他继续说道：“对教师的一个警告是，谷歌的新深度研究功能解决了AI创建研究作业的大部分问题。组织良好且写得很好，引用准确，使学生很容易跳过或自动化他们的研究工作。”Bilawal Sidhu称其本质上是“困惑的增强版”。

最后几项公告。谷歌当然在各处部署这些新模型能力，其中一个最早的应用是对谷歌AI概述的升级。该公司表示，该工具现在能够处理“更复杂的主题以及多模态和多步骤搜索”。他们还表示，它可以回答有关数学和编程的问题。您会记得，AI概述在年初是谷歌面临的叙事挑战的一部分。最初，由于建议将胶水作为比萨饼配料等原因，它们在网上遭到广泛嘲笑。

尽管如此，谷歌首席执行官Sundar Pichai表示：“……我们的AI概述现在覆盖了10亿人，使他们能够提出全新的问题，迅速成为我们最受欢迎的搜索功能之一。我们将在明年继续将AI概述带到更多国家和语言。”最后，在硬件方面，谷歌推出了第六代Trillium AI芯片。该芯片用于训练和推理，与NVIDIA的GPU以及亚马逊的Nutranium芯片竞争。他们声称性能改进可能会从根本上改变AI训练的经济学。

他们表示，与其前身相比，训练性能提高了4倍，同时显著降低了能耗。作为一个更具体的指标，谷歌声称每美元的训练性能提高了2.5倍。Gemini 2.0完全在Trillium集群上进行训练。谷歌透露，他们建立了一个100,000芯片的集群，他们声称这是最强大的AI超级计算机之一。

在他们的公告中，谷歌没有提供与竞争对手芯片制造商的比较，因此很难知道新硅的表现如何。然而，这些芯片现在对谷歌云用户普遍可用，因此我们很快就会知道。退一步说，谷歌在过去几年AI领域的品牌故事非常引人入胜。我认为，如果你回顾几年前，谷歌在生成AI方面是默认的领导者，无论是从现实还是想象的角度来看。

ChatGPT的推出和OpenAI的崛起确实打乱了局面。而且不仅如此，现在不仅有一个消费者产品领先于谷歌，而且在2023年初，Meta也因其开源方法开辟了一个完全不同的空间。在2023年的大部分时间里，谷歌在生成AI方面显得明显落后。事实上，就在一年前，当Gemini 1.0发布时，

普遍的看法是，他们的手被迫，模型实际上并没有那么成熟，尚未与GPT-4竞争，直到他们在2024年初发布其性能最强的版本。基本上，谷歌不得不采取行动，因此他们不得不比原本想要的更早宣布Gemini 1.0。

然后在今年年初，虽然我们确实在Gemini中获得了一个GPT-4级别的模型，但我们也得到了我刚提到的AI概述和搜索，告诉人们在比萨上放胶水。当然，还有围绕历史不准确的图像生成的整个争议和风波，这迫使多样性进入了历史上非常单一的情况。想想黑色纳粹。

换句话说，谷歌年初的开局相当惨烈。然而，慢慢地，这种情况发生了变化。不可否认的一个重要原因是，谷歌在Notebook LM中获得了一个突破性的AI产品。添加播客摘要功能，开启了这一全新用例和信息消费方式，真的是让这艘船朝着正确的方向航行，并为谷歌带来了大量叙事动力。

我认为这为此次公告定下了基调，公告内容全面，包含了很多优秀的内容，并得到了极其积极的反馈。人们对这些新功能感到兴奋。他们对Astra感到兴奋。他们并没有以愤世嫉俗的态度对待这一切。重要的是，从品牌的角度来看，这更像是回归本色。换句话说，人们在说：“哦，我们所熟知的谷歌，理应在这个领域成为领导者，他们回来了。”

我认为这正是谷歌希望其品牌所处的位置。该公司在AI战争中拥有众多优势。他们有一系列产品可以将AI集成并捕获数据，这可能使他们的AI产品不仅非常有用，而且已经与人们今天使用的系统相连接。因此，如果他们能够继续保持这种势头，他们可能会在2025年迎来更大的机遇。

With Gemini 2.0, is Google So Back Baby? 15:41 Share