来自LinkedIn新闻,我是利亚·斯马特,荣获大奖的播客《每天更好》的主持人,该播客致力于个人发展。每周加入我,收听引人入胜的故事和研究,在工作和生活中获得更多成就感。在LinkedIn播客网络、Apple播客或您收听播客的任何地方收听《每天更好》。
来自LinkedIn新闻,我是杰西·汉佩尔,播客《你好,星期一》的主持人。用《你好,星期一》播客开启你的一周。我们将一起探讨职业转型。我们将学习幸福感如何融入其中。在LinkedIn播客网络或您收听播客的任何地方收听由我杰西·汉佩尔主持的《你好,星期一》。好了,大家,今天我们这里有一群很棒的听众。我们将对本次活动进行直播。让我们大声欢呼,让大家听到你们都在这里。开始吧!哇!哇!
我是亚历克斯·坎特罗维茨。《大科技播客》的主持人,我今天来和大家谈谈人工智能的前沿技术,我们请到了两位令人惊叹的嘉宾。DeepMind的首席执行官德米斯·哈萨比斯就在这里。谷歌DeepMind。很高兴见到你,德米斯。也很高兴见到你。我们还有一位特别的嘉宾。谷歌的联合创始人谢尔盖·布林也在这里。好了。这将会很有趣。让我们从前沿模型开始。德米斯,这个问题问你。
根据我们今天对前沿模型的了解,还有多少改进空间有待挖掘?为什么这么多聪明人都说收益即将趋于平缓?
我认为我们正在取得令人难以置信的进展。你们今天都看到了,我们在主题演讲中展示的所有令人惊叹的东西。所以我认为我们正在利用现有技术取得令人难以置信的进步,并将它们推向极限。但我们也一直在不断发明新事物。我认为,要完全实现像AGI这样的目标,可能需要一到两次新的突破。我认为我们有很多有前景的想法正在酝酿中,我们希望将它们引入Gemini分支的主分支。
好的,所以一直以来都有人讨论规模问题。你知道,规模能否解决所有问题?所以我想问你,就目前可用的改进而言,规模仍然是主角还是配角?
我一直认为两者都需要。你需要最大限度地扩展你所了解的技术。你想将它们充分利用,无论是数据还是计算规模。与此同时,你还想投入大量精力在未来六个月或一年内可能出现的东西上,这样你就能获得下一个创新,它可能会在某种程度上实现10倍的飞跃,从而与规模相结合。所以,我认为两者都需要。但我不知道。谢尔盖,你怎么看?
我的意思是,我同意两者都需要。你可以进行算法改进,也可以进行简单的计算改进。更好的芯片、更多的芯片、更大的功率、更大的数据中心。我认为,从历史上看,如果你看看像n体问题和模拟这样的事情,你知道,只是模拟引力体等等,当你绘制它时,算法的进步实际上已经超过了计算的进步,即使是摩尔定律也是如此。如果让我猜测,
我会说算法的进步可能比计算的进步更显著。但两者现在都在进步,所以我们现在都在受益。德米斯,你认为你大部分的改进来自
建设更大的数据中心和使用更多芯片,就像有人在谈论世界将被数据中心覆盖一样。这是你的愿景吗?不,不,你看,我们的确需要更多的数据中心,这令人惊叹,你知道,从科学的角度来看,这仍然让我感到惊叹。我们将沙子变成了思考机器,这太不可思议了,但这不仅仅是为了训练
现在我们有了这些模型,每个人都想使用它们,事实上我们看到了对2.5 Pro的巨大需求,我认为Flash,我们真的对它的高性能和令人难以置信的低成本感到兴奋。我认为全世界都想要使用这些东西。
所以我们需要很多数据中心来提供服务。也用于推理时间的计算,今天你看到了DeepThink 2.5 Pro DeepThink,你给它更多的时间,它就会越好。在某些任务中,非常高价值、非常困难的任务中,让它思考很长时间是值得的。我们正在考虑如何进一步推动这一进程。同样,这将需要大量的运行时芯片。——好的,你提到了测试时间计算。
我们已经进入这种推理范式大约一年了,过去我们和你谈过两次,这是一种可以添加到传统LLM中以获得收益的方法。所以我认为现在是一个很好的时机,让我来说说发生了什么?你能帮我们解释一下我们从推理中看到的改进幅度吗?我们一直以来都非常相信我们现在所说的这种思维范式。如果你回顾我们早期在AlphaGo和AlphaZero等方面的工作,我们在
在玩游戏方面的代理工作,它们都具有这种在模型之上具有思维系统的属性。实际上,如果你看看像国际象棋或围棋这样的游戏,你可以量化这会产生多大的差异。我们有带关闭思维功能的AlphaGo和AlphaZero版本。所以它只是模型告诉你它的第一个想法。它还不错。可能就像大师级水平,诸如此类。但如果你打开思维功能,它就远远超过了世界冠军水平。它就像600 ELO以上的差距。
这两个版本之间。所以你可以在游戏中看到这一点,更不用说现实世界了,现实世界要复杂得多。我认为,通过在这种模型之上添加这种思维范式,潜在的收益可能会更大。当然,挑战在于你的模型——我之前在演讲中谈到过这一点——需要成为一种世界模型。当然,这比建立一个简单游戏的模型要困难得多。
它有错误,这些错误会在长期计划中累积。但我认为我们在所有这些方面都取得了很好的进展。是的,正如德米斯所说,DeepMind确实开创了这项强化学习工作,以及他们用AlphaGo和AlphaZero所做的,正如你提到的那样,表明,据我回忆,
你需要5000倍的训练才能达到你用围棋所做的训练量,而你仍然需要大量的训练和推理时间计算。所以这显然是一个巨大的优势,显然,像我们大多数人一样,我们在说话之前会得到一些好处。虽然……并非总是如此。我总是被提醒这样做。但是
我认为一旦你增加了这种能力,人工智能就会强大得多。我认为我们现在还处于这个意义上的冰山一角。这些模型真正问世还不到一年。特别是如果你考虑到,显然,对于人工智能来说,在其思考过程中,它也可以使用许多工具甚至其他人工智能来改进最终输出。所以我认为这将是一个极其强大的范式。
Deep think非常有趣。我将描述它。我试图正确地描述它。它基本上是一组并行的推理过程,它们相互检查,然后就像类固醇推理一样。现在,德米斯,你提到该行业需要再取得几次进步才能达到AGI。
你会把这种机制放在哪里?这是可能使该行业更接近AGI的机制之一吗?我认为是这样。我认为这可能是其中一部分,我们应该这么说。我们还需要其他一些……也许这可以成为改进推理的一部分。真正的发明从何而来,你不仅仅是在解决一个数学猜想,你实际上是在提出一个或假设一个新的物理学理论。
我认为我们还没有能够做到这种创造性的系统。我认为它们即将到来。这些类型的范式可能会有所帮助,例如思考,以及可能还有许多其他事情。我认为我们需要在构建的世界模型的准确性方面取得许多进步。我认为你们在VO中看到了这一点,VO3如何让我惊叹于它如何能够直觉地理解物理学。
光线和重力。我早期从事电脑游戏工作,不仅是人工智能,还有图形引擎。我还记得必须手工完成所有这些工作,并编写所有照明和着色器以及所有这些东西,这些是我们过去在早期游戏中所做的极其复杂的事情。现在它只是在模型中直觉地理解它。这真是令人惊叹。
我看到你分享了一张煎锅的图片,里面有一些洋葱和一些油。这其中没有潜意识的信息吗?没有,真的没有。也许只是一个微妙的信息。
我们几次提到了AGI这个词或缩写。我认为,人工智能领域现在有一个运动,那就是说,让我们不要再使用AGI这个词了。这个术语被过度使用,以至于毫无意义。但是德米斯,你似乎认为它很重要。为什么?是的,我认为它非常重要。但我认为,我的意思是,也许我还需要和我们的首席科学家谢恩·莱格一起写一些关于这个东西的文章,他是在25年前发明这个术语的人之一。
我认为有两件事有点混淆了。一个是像,一个普通人能做什么,一个人能做什么?我们都很能干,但我们只能做——无论我们多么能干,只有一定范围的事情是我们擅长的。
或者你可以说,你能做什么,90%的人能做什么?这显然在经济上非常重要,我认为从产品的角度来看也很重要。所以这是一个非常重要的里程碑。所以也许我们应该说这是典型的人类智力。但我感兴趣的是,我称之为AGI的东西,实际上是一个更理论化的结构,那就是人脑作为一种架构能够做什么?
对吧?而人脑是一个重要的参考点,因为它可能是宇宙中唯一证明一般智力是可能的证据。在那里,你必须证明你的系统能够做到即使是历史上最优秀的人类也能用相同的大脑架构做到的事情。不是一个大脑,而是相同的大脑架构。所以爱因斯坦做了什么,莫扎特能够做什么,居里夫人
等等。很明显,今天的系统做不到这一点。然后,为什么我认为今天的AGI炒作有点过火,是因为我们的系统不够一致,还不能被认为是完全通用的。它们相当通用,所以它们可以做成千上万的事情。你们今天已经看到了很多令人印象深刻的事情。但我们每个人都有使用今天的聊天机器人和助手的经验。你可以在几分钟内轻松找到一些明显的缺陷。
一些它无法解决的高中数学问题,一些它无法玩的基本游戏。找到系统中的这些漏洞并不困难。对我来说,要将某些东西称为AGI,它需要在各个方面都更加一致,比今天更一致。它应该需要……
几个月的时间,也许是一个专家团队才能找到一个漏洞,一个明显的漏洞。而今天,一个人只需要几分钟就能找到它。——谢尔盖,这个问题问你很好。你认为AGI会由一家公司实现,然后游戏结束吗?或者你能想象谷歌拥有AGI,OpenAI拥有AGI,Anthropic拥有AGI,中国拥有AGI吗?——哇,这是一个很好的问题。
我想我会假设一家公司或一个国家或一个实体会首先达到AGI。现在这有点像一个范围。它不像一个完全精确的东西,所以可以想象,同时会有不止一个大致在这个范围内的实体。之后会发生什么,我认为很难预见,但你当然可以想象会有多个实体通过,并且
在我们的AI领域,我们已经看到,当我们取得某种进步时,其他公司很快就会跟进,反之亦然。当其他公司取得某些进步时,这是一个持续的超越。我认为确实存在一个灵感因素,你会看到这一点,这可能会鼓励越来越多的实体跨越这个门槛。丹尼斯,你怎么看?
好吧,我认为我们可能会这样做。我认为该领域就AGI的定义达成一致很重要,所以也许我们应该尝试帮助它融合。假设有一个定义,可能会有某些组织首先达到AGI,我认为重要的是,这些第一个系统是可靠且安全地构建的,并且
我认为在那之后,如果情况如此,我们可以想象使用它们来分离许多具有安全架构的系统,这些架构是在……某种程度上被证明是在它们之下构建的。然后你可以拥有个人AGI,以及各种事情发生。但这相当困难。正如谢尔盖所说,很难预测
看到事件视界之外,预测那将会是什么样子。对,所以我们谈到了AGI的定义,很多人说AGI必须是知识,对吧?大脑的智力。那心的智力呢?德米斯,简要地说,人工智能必须拥有情感才能被认为是AGI吗?它能有情感吗?我认为它需要理解情感。我不知道是否……我认为这将是一种设计决策,如果我们想模仿情感的话。
我认为理论上没有任何理由它做不到。但它可能不同,或者它可能没有必要,或者事实上我们也不希望它们具有像我们人类一样的感情反应。所以我认为,当我们越来越接近AGI的时间框架和事件时,这仍然是一个悬而未决的问题,我认为这更多的是一个5到10年的时间尺度。所以我认为我们还有一点时间,时间不多,但有一些时间来研究这些问题。
当我想到时间框架可能会缩短时,我想知道这是否会是自改进系统的创建。上周,我读到一篇关于名为Alpha Evolve的新闻标题时,差点从椅子上摔下来,这是一个帮助设计更好算法甚至改进LLM训练方式的人工智能。所以,德米斯,你是在试图引发智力爆炸吗?
不是不受控制的智力爆炸。你看,我认为这是一个有趣的第一个实验。这是一个了不起的系统,一个伟大的团队正在研究它,现在有趣的是开始将其他类型的技术,在这种情况下是进化编程技术,与越来越强大的最新基础模型配对。事实上,我想在我们探索性工作中看到更多这种组合系统,以及将不同的方法组合在一起。
你是对的,这是一件事,自我改进,有人发现一种自我改进循环将是一种方法,它可能会比今天甚至更快地加速。我们之前在自己的工作中也看到过这种情况,例如AlphaZero,它从零开始学习国际象棋和围棋以及任何两人游戏。
在不到24小时内,从随机开始,使用自我改进过程。所以我们知道这是可能的,但同样,这些是在非常有限的游戏领域中,这些领域描述得非常好。所以现实世界要混乱得多,复杂得多。因此,这种方法是否能够以更通用的方式发挥作用还有待观察。——谢尔盖,我们谈到了一些非常强大的系统,这是一场竞赛。这是一场开发这些系统的竞赛。这就是你回到谷歌的原因吗?
我认为作为一名计算机科学家,这是一个历史上非常独特的时刻。老实说,任何一名计算机科学家现在都不应该退休,应该从事人工智能工作。这就是我想说的。从来没有一个更大的问题、一个更大的机会、一个更大的技术转折点。我不会说这是因为这场竞赛。
虽然我们完全打算让Gemini成为第一个AGI,以澄清这一点。但沉浸在这个令人难以置信的技术革命中,我的意思是,这与……不同,你知道,我经历了web 1.0时期,那非常令人兴奋,等等,我们有了移动设备,我们有了这个,我们有了那个,但我认为这在科学上
更令人兴奋。我认为最终对世界的影响将更大。尽管网络和移动电话已经产生了很大的影响,但我认为人工智能将具有更大的变革性。那么你每天都做什么呢?
我认为我折磨像德米斯这样的人。顺便说一句,这太棒了。他容忍我破坏了这次炉边谈话。我几乎每天都在街对面,他们只是……
正在从事关键Gemini文本模型、预训练和后训练的人。我主要定期深入研究一些多模式工作。VO3是,你们都看到了。但我倾向于深入了解技术细节。幸运的是,我非常享受这种奢侈,因为像德米斯这样的人在管理公司。
是的,那正是我科学兴趣所在。它深入到算法以及它们如何进化。
好的。让我们稍微谈谈最近发布的一些产品。我只想问你一个关于代理、演示的广泛问题。因为当我看到其他科技公司构建代理时,我们在演示中看到的东西通常是上下文感知的,有一个无形的语音,通常是交互式的——你经常在屏幕上与它交互。当我看到DeepMind和谷歌的演示时,它通常是通过摄像机进行的。它是非常直观的。
今天发布了关于智能眼镜的公告。所以谈谈一下这是否是正确的解读,为什么谷歌如此热衷于拥有一个助手或伙伴,它能像你一样看待世界。好吧,原因有很多,几条线索汇集在一起。正如我们之前谈到的,我们一直对代理感兴趣。这实际上是DeepMind的传统。我们从游戏中的基于代理的系统开始。
我们正在尝试构建AGI,这是一种完全通用的智能。显然,这必须理解物理环境,你周围的物理世界。在我看来,这方面的两个主要用例是真正有用的助手,它可以陪伴你度过日常生活,而不仅仅是停留在你的电脑或一台设备上。我们希望它在你的日常生活中对所有事情都有用。所以它需要围绕着你,并理解你的物理环境。
然后另一件大事是我一直觉得机器人要工作,你需要像Astra在机器人身上看到的那样。我一直觉得机器人技术的瓶颈不是硬件,尽管显然有很多公司
并且正在开发很棒的硬件,我们也与许多公司合作。但实际上是软件智能,我认为这始终是阻碍机器人技术发展的因素。但我认为我们现在正处于一个非常令人兴奋的时刻,现在,特别是有了这些最新版本,特别是2.5 Gemini,以及我们将要引入的更多东西,这种VO技术和其他东西,我认为我们将拥有真正令人兴奋的算法,让机器人技术最终发挥作用,并实现其潜力,这可能是巨大的。
所以我认为这,最终AGI需要能够做到所有这些事情。
所以对我们来说,这就是为什么你们可以看到我们一直牢记这一点。这就是为什么Gemini从一开始,甚至是最早的版本就被设计成多模式的。这在一开始让它变得更难,因为制作多模式的东西比只制作文本更难。但最终,我认为我们现在正在享受这些决定的好处。我看到Gemini团队的许多成员都在前排,我们做出了正确的决定。这些是最艰难的决定,但我们做出了正确的决定。现在你们可以看到今天你们所看到的一切成果。
谢尔盖,我一直都在考虑是否要问你一个谷歌眼镜的问题。塞格雷·瓦加斯:哦,尽管问吧。你从谷歌眼镜中学到了什么,谷歌现在可以应用到今天,现在智能眼镜似乎又重新出现了?塞格雷·瓦加斯:哇,是的,好问题。我学到了很多。我的意思是,那是——我绝对觉得我在谷歌眼镜上犯了很多错误,说实话。
我仍然非常相信这种外形尺寸,所以我很高兴我们现在有了它。现在它看起来像普通眼镜,前面没有东西。我认为存在技术差距,说实话。现在在人工智能领域,这些眼镜可以做的事情来帮助你,而不会不断分散你的注意力,这种能力要高得多。还有……
我真的对消费电子产品供应链一无所知,以及构建它并使其达到合理的价位有多难,管理所有制造等等。这次我们有伟大的合作伙伴帮助我们构建它。所以这是又一步进步。我还能说什么呢?我必须说,我怀念带有翼装飞行员的飞艇演示。
老实说,在海岸线圆形剧场比在莫斯科尼中心更酷。但也许我们必须……
我们这次应该先改进产品。我们这次会这样做。确保它已准备好并可用,然后我们将进行一个非常酷的演示。这可能是一个明智的举动。是的,我要说的是,我的意思是,你看,我们显然拥有令人难以置信的谷歌眼镜和智能设备的历史。我们可以将所有这些经验教训应用到今天。我对我们新的眼镜感到非常兴奋,正如你们所看到的。但我一直在和我们的团队以及Shoram和团队谈论的是,我不知道谢尔盖是否同意,但我感觉……
通用助手是智能眼镜的杀手级应用。我认为这将使其发挥作用,除了硬件技术也已经发展和改进很多之外。我觉得这是真正的杀手级应用,它的自然杀手级应用。好的。简要介绍一下视频生成,我今天坐在主题演讲的观众席上,并且感觉
对我们从这些模型中看到的改进程度感到相当震惊。我的意思是,你在演示中让电影制作人谈论它。我想特别问你,德米斯,关于模型质量的问题。如果互联网上充斥着人工智能生成的视频,那么这是否会回到训练中,并导致比仅从人类生成的内容进行训练时质量更低的模型?
是的,好吧,你看,人们有很多关于这种所谓的模型崩溃的担忧。我的意思是,视频只是一件事,但在任何模式下,文本
关于这一点,有几件事要说。首先,我们对数据质量管理和策划非常严格。此外,至少对于我们所有的生成模型,我们都会为它们附加SynthID。所以实际上存在一个看不见的人工智能生成的防伪水印,它非常强大,自从我们发布它以来的一年或18个月里一直很有效。我们所有的图像和视频都嵌入了这个水印,因此我们可以检测到,并且
我们正在发布工具,允许任何人检测这些水印,并知道那是一张人工智能生成的图像或视频。当然,这对于打击深度伪造和虚假信息非常重要,但它当然也可以用于过滤掉,如果你愿意的话,你训练数据中的任何内容。
所以我实际上并不认为这是一个大问题。最终,我们可能会有如此优秀的视频模型,你可以将它们作为额外数据(称为合成数据)的来源重新放入循环中。在那里,你只需要非常小心,确保你实际上是从你将要建模的相同分布中创建的。你没有以某种方式扭曲该分布。质量足够高。我们在一个完全不同的主要领域有一些这方面的经验,例如AlphaFold。
实际上没有足够真实的实验数据来构建最终的alpha fold。所以我们必须构建一个早期版本,然后预测大约一百万种蛋白质结构。然后我们选择了它,它对该结构有一个置信度。我们选择了前40万个,并将它们放回训练数据中。所以有很多
这是一种非常前沿的研究,例如将合成数据与真实数据混合。所以也有这样做的方法,但就视频生成器之类的东西而言,如果你愿意,至少在我们自己的工作中,你可以排除它,并希望其他媒体公司效仿,并添加强大的水印。显然,首先也是最重要的是为了打击深度伪造和虚假信息。
好的,我们还有四分钟。我还有四个问题。我们现在进入我问题的杂项部分。让我们看看我们能完成多少个,以及我们能多快完成它们。让我们用这个问谢尔盖。十年后的网络是什么样的?十年后的网络是什么样的?我的意思是……你有一分钟的时间。天哪,我认为十年后,由于人工智能的进步速度,远远超出了我们所能看到的范围。最好的猜测。
不仅仅是网络。我认为我们真的不知道十年后的世界是什么样的。好的。德米斯?
好吧,我认为这是一个很好的答案。我认为在近期内,如果你考虑一个以代理为中心的网络,那么网络将会发生很大的变化。例如,它是否真的需要,你知道,它并不一定需要像我们人类使用网络那样看到渲染和类似的东西。所以我认为几年后情况会有很大不同。好的。这是一个低估或高估的问题。2030 年之前还是 2030 年之后出现 AGI?
2030 年,哇,你真的把它放在了这条细线上。我会说之前。之前?是的。德米斯?我只是之后。之后。好的。别有压力,德米斯。没错。我必须回去更加努力地工作。我可以要求它。他需要交付它。没错。流行沙袋。我们下周需要那个。这是真的。
我会来审查。好的。那么你会雇佣一个在面试中使用人工智能的人吗?德米斯?哦,在他们的面试中?这取决于他们如何使用它。我认为使用今天的模型工具,可能不会。但我认为这将是……好吧,这取决于他们将如何使用它,实际上。我认为这可能是答案。谢尔盖?我的意思是,我从未面试过。所以……
我不知道。我觉得让我来评判人们面试的方式是虚伪的。是的,我也没有,实际上。所以,就此打住。我从未做过这样的工作。好的。
所以,德米斯,我一直在读你的推文。你发布了一条非常有趣的推文,其中有一个提示创建了某种自然场景。哦,是的。这是这条推文。按下按钮进行自然同化确实会让你好奇,带有一些表情符号。人们以此为基础撰写了一些标题,说德米斯认为我们生活在模拟中。是
我们生活在模拟中吗?不是尼克·博斯特罗姆和其他人谈论的那种方式。我不认为这是一个游戏,即使我编写了很多游戏。我确实认为最终的底层物理学是信息论。所以我确实认为我们生活在一个计算宇宙中,但这不仅仅是一个简单的模拟。我无法在一分钟内回答你。
但我认为这些系统能够模拟自然界中的真实结构这一事实非常有趣且具有启示意义。我一直在思考我们使用 AlphaGo 和 AlphaFold 以及这些类型的系统所做的工作。我已经谈论过一些了。也许在某个时候我会写一篇关于我认为这在现实中真正意味着什么的科学论文。谢尔盖,你想制造一个头条新闻吗?
好吧,我认为这个论点是递归的,对吧?如果我们生活在模拟中,那么根据同样的论点,无论制造模拟的生物是什么,它们本身也出于大致相同的原因而生活在模拟中,依此类推。因此,我认为你必须要么接受我们生活在一个无限的模拟堆栈中,要么必须有一些停止标准。你最好的猜测是什么?我认为
我们正在采取一种非常以人为中心的观点,就像当我们说模拟时,指的是某种有意识的生物正在运行一个模拟,然后我们生活在这个模拟中,并且它们具有一些与我们相似的欲望和意识的相似之处。我认为这就是它对我来说崩溃的地方。所以我只是不认为我们真的有能力推理等级结构中的一级以上。
好的,德尼斯、谢尔盖,非常感谢你们。这是一次如此引人入胜的谈话。谢谢。谢谢大家。好的。谢谢,亚历克斯。谢谢。谢尔盖。很高兴。