We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Google DeepMind CTO: Advancing AI Frontier, New Reasoning Methods, Video Generation’s Potential

Google DeepMind CTO: Advancing AI Frontier, New Reasoning Methods, Video Generation’s Potential

2025/5/20
logo of podcast Big Technology Podcast

Big Technology Podcast

AI Deep Dive AI Chapters Transcript
People
K
Koray Kavukcuoglu
Topics
Koray Kavukcuoglu: 我认为在AI模型的发展中,规模化和新技术是同等重要的。在生成式AI模型的研究中,架构和算法与规模同等重要。研究不同架构和算法在规模化下的效果至关重要。数据与算法、架构和计算能力同样关键。推理时间技术对于提升模型推理能力至关重要。我不认为扩大规模令人失望,因为我们一直在有效地推动模型的能力。重要的是进行广泛的研究,并从多个角度考虑扩展。各种模型都在显著改进,整个领域都在进步。Gemini模型在能力和质量上都取得了稳定进展。我们不断推进前沿技术,并在多个研究方向上看到回报,为实现AGI还有更多进展要做。

Deep Dive

Chapters
Koray Kavukcuoglu discusses the importance of scale versus novel techniques in advancing AI models. He highlights that scale is a significant factor, but other elements like data, algorithms, and inference-time techniques are equally crucial. The discussion touches upon the progress made in AI models despite diminishing returns from simply increasing scale.
  • Scale is important but not the only factor in advancing AI models.
  • Novel techniques, data, and inference-time improvements are equally crucial.
  • Diminishing returns from solely increasing scale are acknowledged, but progress continues through diverse research directions.

Shownotes Transcript

谷歌AI研究的核心工作是什么?我们将在稍后与Google DeepMind的首席技术官一起了解。我是来自LinkedIn新闻的Leah Smart,也是屡获殊荣的个人发展播客《Every Day Better》的主持人。每周加入我,收听引人入胜的故事和研究,在工作和生活中获得更多成就感。在LinkedIn Podcast Network、Apple Podcasts或您收听播客的任何地方收听《Every Day Better》。

我是来自LinkedIn新闻的Jessi Hempel,《Hello Monday》播客的主持人。用《Hello Monday》播客开启您的一周。我们将一起探讨职业转型,学习如何在工作中找到快乐。在LinkedIn Podcast Network或您收听播客的任何地方收听由我Jessi Hempel主持的《Hello Monday》。

欢迎收听《Big Technology》播客,这是一个关于科技世界及其他领域的冷静而细致的对话节目。我们今天为您准备了一个精彩的节目,一个特别节目,正值谷歌I/O新闻发布之际。我们有很多话题要讨论,包括公司正在发生的事情,今天发布的内容,以及所有这些背后研究工作的进展。我们还邀请了一位优秀的嘉宾。今天加入我们的嘉宾是Koray Kavitsky。

Kavuk Cholu。他是DeepMind的首席技术官。我们今天将与Koray交谈,明天您将听到DeepMind首席执行官Demis Hassabis的访谈。Koray,很高兴见到你,欢迎来到节目。非常感谢。顺便说一句,朋友们,如果您正在观看视频,Koray和我分别在谷歌的两个不同的会议室里,我不知道,这是一个非常酷的新建筑,它叫做……梯度波还是什么?我们称之为梯度树冠。

梯度树冠。无论如何,我们在这里,我想问你一个我们在节目中经常问到的问题,那就是规模问题。谷歌拥有大量的计算资源。因此,您基本上可以选择。您是想将规模应用于这些模型,还是采用新的技术?让我尽可能清楚地问你。在尝试将模型提升到下一阶段时,规模是明星吗,还是配角?

这是一个好问题。我认为您提出的方式也很好,因为它绝对是一个重要的因素。我喜欢这样思考这个问题:在任何研究问题中,很少会有一个维度能够相当自信地为您带来改进,对吧?就像,当然,可能会有边际收益递减,但大多数时候,研究总是这样的。所以,就像,

当我们现在思考我们的研究时,在生成式AI模型的情况下,对吧?规模绝对是其中之一,但它与其他事物同样重要。当我们考虑我们的架构时,例如构成模型的架构元素、算法,对吧?

它们与规模一样重要。我们当然会分析和理解,就像规模一样,这些不同的架构、不同的算法如何变得越来越有效?这很重要,因为您知道您正在投入更多的计算能力

并且您想确保研究出在这种规模特性下最有效的架构和算法,对吧?但正如我所说,这并非唯一因素。数据非常重要。我认为它与任何其他事物一样重要。我们放入系统中的算法、架构、模块很重要。了解它们在数据、更多计算方面的特性同样重要,对吧?

然后,当然,推理时间技术也同样重要,对吧?因为现在您有了特定的架构、特定的模型,您可以通过确保能够通过推理时间的不同技术反复使用该模型来成倍地提高其推理能力。

对我来说,听到所有这些改进模型的不同技术,既令人充满希望,又令人困惑。我将解释一下。令人充满希望的是,我们似乎肯定会在当前模型的基础上看到很多改进。而目前的模型已经相当不错了。让我困惑的是,关于规模的想法是,在构建更大的AI模型方面,潜力实际上是无限的。

您说了“边际收益递减”这几个词。我们已经从您和基本上所有从事这项工作的人那里听到过这句话。这不是秘密,对吧,现在我们一直在等待GPT-5。Meta在Llama方面遇到了一些问题。Anthropic一直在试图告诉我们,一个新的Claude Opus模型即将推出,但我们一直没有看到它。因此,显然,许多研究机构,也许除了谷歌之外,都在努力解决扩大模型规模所能带来的问题。

所以我只想问你一下。我的意思是,所有这些技术的存在似乎是很好的。但同样,考虑到这种本应具有无限潜力的技术,如果情况并非如此,这对整个生成式AI领域来说是否是一种失望?

是的,我并没有那样看待这个问题,因为我们已经能够相当有效地提升模型的能力,对吧?我认为,在某种程度上,整个规模讨论始于规模定律,对吧?规模定律解释了模型在数据、计算和参数数量方面的性能,对吧?并且像同时研究这三者一样重要。当我看到

我们从这项通用技术中获得的进展时,我认为它仍在改进。我认为重要的是要确保在各方面进行广泛的研究。与其只从一个维度考虑规模,不如实际考虑多种不同的方法。并投资于这些

我们可以看到,我认为在整个领域,而不仅仅是在谷歌,在整个领域,许多不同的模型都在以相当大的进步进行改进。所以我认为,作为一个领域,进展非常出色。我认为这非常令人兴奋。在谷歌,我们对我们在Gemini模型方面取得的进展感到非常兴奋。

从1.5到2到2.5,我认为我们在模型能力方面取得了非常稳定的进展,非常稳定的改进,无论是在我们拥有的能力范围方面,还是在每种能力的质量水平方面,对吧?所以我认为我

我感到兴奋的是,我们一直在不断突破前沿,并且在许多研究方向和许多不同的研究方向维度上都看到了回报。我很高兴实际上,我认为还有很多进展要做,为了实现AGI,还需要发生很多进展。

几周前,我们邀请了Yann LeCun参加节目。你曾在Yann的实验室工作过。Yann断然声明,AI行业不可能仅仅通过扩展LLM来达到人类智能水平,这是他所说的AGI。你同意吗?

好吧,我的意思是,我认为这是一个假设,对吧?这可能是真的,也可能不是真的。但是,我认为没有任何研究实验室试图只扩大LLM的规模。所以,就像,我不知道是否有人真的试图否定这个假设。我的意思是,我们没有。在我看来,我们正在投资如此广泛的研究领域,

我认为这是必要的。显然,我认为像我交谈过的许多研究人员和我自己一样,我认为还需要发明许多更关键的元素,对吧?因此,在我们通往AGI的道路上,我们需要克服关键的创新。这就是为什么我们仍然将此视为一个非常雄心勃勃的研究问题。

我认为保持这种批判性思维很重要。对于任何研究问题,您总是试图考察多个不同的假设,试图考察许多不同的解决方案。这样一个雄心勃勃的研究问题,可能是我们一生中正在努力解决的最重要的问题,对吧?这可能是我们正在努力解决的最难的问题。

作为一个问题,作为我们工作中的一个研究问题。我认为,拥有这样一个真正雄心勃勃的研究议程和投资组合,并在许多不同的方向上进行投资,才是重要的。在我看来,重要的是要定义目标在哪里

我们的目标是AGI,我们的目标不是以特定方式构建AGI。重要的是以正确的方式构建AGI,使其产生积极的影响,

它建立在它之上,我们可以为世界带来巨大的好处。这就是我们试图研究AGI的原因。这就是我们试图构建AGI的原因。AGI本身,有时可能会让人觉得它本身就是一个目标。目标本身是,如果我们做到这一点,那么我们可以极大地造福整个社会,整个世界。

这就是目标。因此,承担着这种责任,当然,您不仅会投入特定的……对我来说,这个特定的假设是否重要并不重要。重要的是,我们通过追求一个非常雄心勃勃的研究议程并建立对智能领域非常强的理解来实现这一目标。

好的,让我们来谈谈一些研究议程。您本周在I/O上宣布的一项内容是,您正在发布一款名为DeepThink的新产品,该产品依赖于推理,或者正如您所说,测试时间计算。我认为我对产品的描述是正确的。

在改进模型方面,在这些模型中加入推理的有效性如何?我的意思是,当您考虑今天讨论的所有不同技术(包括缩放)时,您会说通过使用推理可以获得多大程度的改进?并谈谈DeepThink。

好的,首先,DeepThink并不是一个单独的产品。它是一种模式,我们正在为我们的2.5 Pro模型启用它,以便它可以在推理时间花费更多时间。

思考,建立假设。重要的是建立并行的假设,而不是单一的思维链。它可以建立并行的假设,然后可以对多个假设进行推理,建立假设,对这些假设建立理解,然后继续建立这些并行的思维链。

但是这个模型的思考时间比传统的推理模型要长一点?会的。我的意思是,在目前的设置中,是的,它需要更长的时间。这是因为理解这些并行的想法和建立这些并行的想法,这是一个更长的过程。但是,我们也……我们也……

将其定位为研究,对吧?就像我们正在分享一些初步的研究结果一样。我们对此感到兴奋。我们对这项技术能够实现的功能、它实际上能够在新的能力和新的性能水平方面实现的功能感到兴奋。

但这还处于早期阶段,这就是我们现在只分享它的原因。我们将开始与安全研究人员和一些值得信赖的测试人员分享,因为我们也想了解人们希望用它解决什么样的问题,以及它带来的新功能以及我们应该如何训练它,对吧?

所以这还处于早期阶段,但我认为这是我们在推理时间思维模型空间中发现的一个令人兴奋的研究方向。是的,那么您能谈谈它与传统的推理模型有什么不同吗?当前的推理思维模型,大多数情况下,至少我可以从我们的研究角度谈谈,它构建的是单一的思维链。

对吧?然后,当您构建单一的思维链,并且模型继续关注其思维链时,它会更好地理解它想要给您的回应。它可以在不同的假设之间交替,反思它之前做过的事情。

现在,当然,如果您只是从视觉的角度考虑一下,您可以引入的一种可扩展性是,您能否拥有多个并行的思维链,以便您可以并行分析不同的假设,然后您将拥有更多探索不同类型假设的能力,然后您可以比较这些假设。

然后您可以消除其中一些,或者您可以继续追求,并且您可以对特定的一些进行扩展。这在某种程度上是一个非常直观的过程,但当然它更复杂。

我只想通过询问您模型改进的速度来结束这一部分。就像我将使用OpenAI的模式来举个例子一样。进展,这是每个来参加这个节目的人都说的事情,从GPT-3到GPT-4的进展是不可否认的。GPT-4到4.5,进步较小。所以我只想问你一下,就改进速度而言,如果这是正确的表达方式。

我们现在是不是有点回归现实了?再说一次,当我查看我们的模型系列时,从Gemini 1到1.5到2,再到现在的2.5,我对我们的速度感到非常兴奋。

当我查看我们不断添加的功能时,对吧,我们从一开始就设计Gemini模型为多模态的,对吧?这正是我们的目标,因为我们想要构建AGI。我们希望确保我们拥有能够满足我们对通用智能的期望的模型。因此,多模态性从一开始就是关键。

随着版本的不断发展,我们一直在越来越多地添加这种自然的多种模式。当我查看我们推理能力的改进速度时,最近我们添加了思维能力,我认为在2.5 Pro中,我们希望在我们的推理能力、编码能力方面取得巨大飞跃,

我认为关键的一点是,我们将所有这些都整合到一个单一的模型系列中。这实际上也是改进和改进速度的催化剂之一。这更难,但我们发现

创建一个能够理解世界,然后您可以提出问题,“哦,你能为我编写一个树木生长的模拟程序吗?”然后它可以做到,对吧?这需要理解所有的事情,而不仅仅是如何编码,因为,再说一次,我们试图让这些模型变得有用,能够被更广泛的受众使用。

我认为我们的速度真正反映了我们在各方面进行的研究投资。所以我听到你说没有速度减慢。让我这样说吧,我对Gemini的进展以及研究变得越来越令人兴奋感到非常兴奋。当然,对于我们这些从事研究的人来说,这真的很好。

好的,所以我想问你,你知道,你在模型方面。我想问你,基本上,我们有时会在节目中讨论改进模型的价值。所以让我给你做一个思想实验。你认为将这些模型改进10%的价值会给我们带来什么?那里的问题是,我们如何定义10%,对吧?这就是价值已经定义的地方,对吧?

进行研究和改进模型的重要事情之一是量化进展。我们使用许多不同的方法来量化进展,并非每一种方法都是线性的,并非每一种方法都具有相同的斜率。

因此,当我们说通过改进10%时,如果我们能够通过它在数学方面的理解、对真正高度复杂的推理问题的理解来改进10%,我认为这是一个巨大的进步,因为这实际上扩展了常识。这表明模型的常识和能力已经大大扩展了。

并且您会期望这会使模型更适用于更广泛的问题。如果你将模型改进了50%会怎么样?那会给你带来什么?你的产品团队是否在说,如果这个模型只是好50%,我们就能构建一些东西?是的。

再说一次,我认为我们与产品团队合作很多,对吧?这实际上是退后一步。这对我来说是一件非常重要的事情。将AGI视为一个目标,我认为这也需要与产品团队合作,因为重要的是,当我们构建AGI时,这是一个研究问题。

我们正在进行研究,但最关键的是,我们实际上了解要解决什么样的问题,要从用户那里发展这些模型的哪些领域。因此,用户反馈

以及与用户互动的知识实际上非常重要。因此,当我们的产品告诉我们,好的,这是一个我们想要改进的领域时,这实际上对我们来说是非常重要的反馈,然后我们可以将其转化为指标并追求这些指标。

正如你所问的,我的意思是,随着我们提高模型在各个方面的能力,我认为重要的是在广泛的指标范围内,我认为我们在Gemini中已经看到了这一点,正如我所说,从1.5到2.5,对吧?你可以在这里看到能力的提升。

在模型的各个方面,更多的人实际上可以在他们的日常生活中使用这些模型来帮助他们学习新东西,或者帮助他们解决他们看到的问题,但这就是目标,对吧,就像最终,我们构建这项技术的原因是为了构建一些有帮助的东西,并且

产品是我们衡量和理解什么是有效什么是无效的关键方面。随着我们在这一方面取得更多进步,我认为这是我们的主要目标。太好了。

让我们来看一个具体的例子,谷歌公司今天正在发布,今天正在讨论,那就是VO3。这是您的视频生成模型。我认为我们已经看到了这些模型从第一代到第二代再到第三代所能做的事情的令人难以置信的加速。对于听众和观众来说,谷歌现在正在做的事情不仅仅是生成场景,而且能够生成带有声音的场景。

看过其中一个或几个视频后,我可以告诉你声音是匹配的。然后谷歌还推出了另一个疯狂的产品。我认为它叫做Flow,你可以在其中扩展你生成的场景,并为你的短片制作故事板。所以我很想听听你对这一切是如何发生的看法。

这就像……我问过你10%、50%会得到什么?但这是否是你所说的模型变得更好,产生从……一个有趣的小视频到……我现在真的可以使用这个的完美例子?我认为……

从VO2到VO3,从VO1到VO2的主要区别,主要进展是更多地了解世界的物理和动力学。对于VO2,我认为我们第一次可以自信地说,在很多情况下,对吧,模型已经很好地理解了世界的动力学。这非常重要,对吧?就像能够拥有一个可以生成数据的模型一样

以及复杂的场景,其中正在发生动态环境。并且还发生着物体的相互作用。

我记得有一件事非常流行,那就是切西红柿,VO2生成的视频非常精确,看起来非常逼真,以至于一个人正在切西红柿,那里的动力学以及如何……不仅仅是任何单个物体,例如手是如何移动的,还有不同物体之间的相互作用,刀片、西红柿,切片是如何掉下来的等等。

它非常精确,对吧?所以这种交互元素很重要。理解动力学不仅仅是理解特定单个物体的动力学,它也是多个物体相互作用,这要复杂得多。

所以我认为我们在那里取得了很大的飞跃。对于VO3,我认为我们在这一方面又取得了另一个飞跃。但我认为声音是一种正交的、新的能力。当然,我们的现实世界拥有多种感官,视觉和声音是相辅相成的。

它们完美地相关,我们同时感知它们,它们相互补充。因此,能够拥有一个能够理解这种交互性、这种互补性,并且能够同时生成场景和视频的模型,我认为这体现了模型的新能力水平。我认为这是第一步。

有一些令人印象深刻的例子。也有一些例子略微达不到你所说的水平,好的,这真的很自然。但我认为这是在扩展这种能力方面令人兴奋的一步。正如你所说,我认为我很高兴看到……

这种技术可以派上用场,对吧?就像你刚才说的那样,哦,它变得有用。我认为听到这个消息真是太好了,对吧?就像,现在这是一项可以构建的技术。我认为Flow是在这个方向上进行的一次实验,将其提供给……将其提供给用户,以便……

让人们用它来实验和构建一些东西。是的,你喜欢提示一个场景,然后它创建一个场景,然后你提示下一个场景,你可以继续让故事流动,这是一个好名字。好的,下一个问题来自一位非常聪明的AI研究人员。他们基本上谈到了如何存在这种基本的张力,即开源和专有之间的张力。并且

当然,我们有像谷歌这样的公司正在构建,你知道,显然注意力就是你所需要的。Transformer来自谷歌。现在谷歌正在构建专有模型。我们可以说,我们看到了DeepSeek将最先进的技术向前推进。所以这个人想知道,我认为这是一个非常好的问题,谷歌之间是否存在协调或可能性?

专有,也许我们会看到OpenAI正在做他们的新开源模型或对其进行预告,或者双方应该各自尝试获得自己的一部分市场?你怎么看?我认为,我想说几件事,对吧?首先,再次,退后一步。构建这项技术需要大量的研究,对吧?就像,当然,在过去的两年、三年里,

我认为它变得如此易于访问和如此通用,以至于人们在日常生活中都在使用它。但有一段漫长的研究历史积累到了这一点。

因此,作为一个研究实验室,谷歌,当然,在此之前,有DeepMind和谷歌大脑,两个分别在不同方面工作的实验室。我们今天看到的许多技术都是作为研究原型、研究理念而构建的,并已发表在论文中。正如你所说,Transformers,这是所有底层技术的关键技术。

然后是像AlphaGo这样的模型,对吧?AlphaFold,所有这些东西,所有这些研究理念都一直在发展,构建了我们现在拥有的知识空间。所有这些研究,我认为出版物和开源所有这些都是一个关键因素,因为我们当时真的处于探索阶段。如今,我认为我们总是需要记住的另一件事是,实际上我们在谷歌拥有我们的Gemma模型,对吧?这些是开放权重的模型,就像Llama开放权重的模型一样。我们有Gemma开放权重的模型。我们这样做是为了,也有一些不同的开发人员和用户社区想要与这些模型互动,他们实际上需要能够将这些权重下载到他们自己的环境中并使用它并用它来构建。

所以我感觉这并不是非此即彼。我认为有不同类型的用例和社区实际上受益于不同类型的模型。但最重要的是,最终,在通往AGI的道路上,

当然,重要的是我们必须意识到我们用我们开发的技术实现了什么。因此,当我们开发我们的前沿技术时,我们选择在Gemini的保护伞下开发它们,这些不是开放权重的模型,因为我们也想确保我们可以负责任地使用它们。对吧?对。

但最终,真正重要的是构建技术的研究,进行这项研究,推动技术的进步,并以积极的影响来构建它。我认为这可以在开放权重生态系统中发生,也可以在封闭系统中发生。但我认为当我想到所有……

我们试图做的事情的总括。我们有相当雄心勃勃的目标,以正确的方式构建AGI并产生积极的影响。这就是我们开发Gemini模型的方式。好的,我还有30秒的时间和你在一起。你是首席技术官。你是vibe coding的粉丝吗?是的。

没错。我发现它真的很令人兴奋,对吧?我的意思是,因为它突然让许多并非一定拥有编码背景的人能够构建应用程序。这是一个正在打开的全新世界,对吧?就像你实际上可以说,哦,我想要一个这样的应用程序。然后你看到了。

你可以想象在学习领域可能有什么样的可能性,对吧?你想学习一些东西,你可以有一个文本表示,但你可以要求模型为你构建一个解释某些概念的应用程序,它会做到,对吧?这只是一个开始,对吧?有些事情它做得很好,有些事情它做得不好,它做得不好,但我发现它真的很令人兴奋。这就是这项技术带来的东西。突然之间,就像

Koray Kavukcuoglu是谷歌DeepMind的首席技术官。随着谷歌I/O开发者大会的举行,Kavukcuoglu加入Big Technology讨论他的团队如何在谷歌内部推动人工智能研究的前沿。收听Kavukcuoglu讲解蛮力规模与新技术的价值,以及新的推理时间“DeepThink”模式如何增强推理能力。我们还将讨论Veo 3的同步声音视频生成、开源与专有之争,以及模型质量提高10%可能为所有用户带来的好处。</context> <raw_text>0 就像构建应用程序的整个空间一样,构建动态、交互式应用程序的整个空间也变得更容易被更广泛的社区和人群所使用。

好的。很高兴见到你。非常感谢你来到节目。是的。非常感谢你。感谢Alex的邀请。当然。我们以后得找个时间当面聊聊。好的,各位。感谢收听。明天我们将邀请谷歌DeepMind的首席执行官Demis Hassabis。所以我们邀请您届时加入我们。我们下次Big Technology播客再见。