We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Demis Hassabis on AI, game theory, multimodality, and the nature of creativity

Demis Hassabis on AI, game theory, multimodality, and the nature of creativity

2025/4/9
logo of podcast Possible

Possible

AI Deep Dive AI Chapters Transcript
People
D
Demis Hassabis
Topics
Demis Hassabis: 我认为人工智能将是史上最具变革性的技术,它将影响世界上的每一个行业、每一个国家。因此,我认为全球合作至关重要,人工智能的设计和应用不应仅限于少数地区或公司,而应广泛吸收全球各领域的专业知识,包括哲学、社会科学、经济学等,以确保其公平公正地被使用。 我坚信,人工智能应该由全世界共同参与设计,而不是仅仅由少数科技公司或科学家决定。只有这样,才能确保人工智能造福全人类,避免其被用于不正当目的。 Reid Hoffman: (无核心论点,主要为引导性问题) Aria Finger: (无核心论点,主要为引导性问题)

Deep Dive

Chapters

Shownotes Transcript

人工智能将影响全世界。它将影响每个行业。它将影响每个国家。在我看来,它将成为有史以来最具变革性的技术。所以,如果这是真的,它将像电力或火一样,那么我认为重要的是全世界

参与它的设计。我认为重要的是,这不仅仅是加利福尼亚州一百平方英里的区域。我确实认为,重要的是我们要获得这些其他的输入,更广泛的输入,不仅在地理上,而且在不同的学科上,哲学、社会科学、经济学家,不仅仅是科技公司,不仅仅是参与决定如何构建和使用它的科学家。

你好,我是里德·霍夫曼。我是艾丽亚·芬格。我们想知道,我们如何一起利用人工智能等技术来帮助我们塑造尽可能美好的未来。在Stripe的支持下,我们邀请技术专家、有抱负的建设者和思想家来帮助我们勾勒出未来最美好的景象,并了解实现这一目标需要什么。这就是可能。

在13世纪,加拉哈德爵士为了追求难以捉摸的圣杯而踏上了一段危险的旅程。圣杯,在基督教传说中被称为基督在最后的晚餐中使用的杯子,已经从亚瑟王王的餐桌上消失了。圆桌骑士发誓要找到它。经过多次考验,加拉哈德纯洁的心灵使他具有独特的能力,能够洞察圣杯,观察人类语言无法描述的神秘事物。

2020年,DeepMind的一组研究人员成功创建了一个名为AlphaFold的模型,该模型可以预测蛋白质的折叠方式。该模型帮助解答了生物学中的圣杯问题之一。一条长长的氨基酸链是如何自身配置成一个三维结构,成为生命本身的基石的?

2024年10月,三位参与AlphaFold的科学家因这些努力而获得了诺贝尔奖。

这只是我们今天嘉宾领导的引人注目的成就之一。德米斯·哈萨比斯是一位英国人工智能研究员,也是人工智能公司DeepMind的联合创始人兼首席执行官。在他的领导下,DeepMind开发了AlphaGo,这是第一个在围棋比赛中击败人类世界冠军的人工智能,后来又创造了AlphaFold,解决了困扰了50年的蛋白质折叠问题。

他被认为是人工智能领域最有影响力的人物之一。我和里德与德米斯进行了一次访谈,我们讨论了从博弈论到医学,再到多模态和创新与创造力的本质等一切话题。以下是我们与德米斯·哈萨比斯的对话。♪

德米斯,欢迎来到Possible。在皇后区与您共进晚餐真是太棒了。这在很多方面都是一个特殊的时刻。而且,你知道,我想我会从你在巴贝奇剧院的演讲以及你与穆罕默德·埃尔·埃里安进行的炉边谈话中提出的一个问题开始,那就是,与我们分享你从认为

国际象棋是我童年所做的事情,到我想开始思考思考,我想加速思考过程,而计算机是实现这一目标的一种方式的时刻。你是如何得出这个结论的?你当时几岁?是什么让你转向元认知?

是的。首先,感谢您邀请我参加播客。对我来说,国际象棋实际上是从游戏开始的地方。我四岁时就开始认真下国际象棋,整个童年都在下国际象棋,参加过大部分英格兰青年队比赛,还担任过许多球队的队长。很长一段时间里,我的主要目标是成为一名职业棋手,一位特级大师,也许有一天会成为世界冠军。那真是我整个童年。它

每一个空闲时间,不在学校的时候,我都在下棋,周游世界,与成年人在国际比赛中下棋。然后大约11岁的时候,我突然顿悟了,虽然我喜欢国际象棋,而且今天仍然喜欢国际象棋,但这真的是一个人应该花一生的时间去做的事情吗?这是我最好的思维方式吗?

所以这是让我有点困扰的一件事。但另一件事是,当我们与英格兰国际象棋队一起参加训练营时,我们开始使用早期的国际象棋电脑来改进我们的国际象棋。我记得当时在想,

当然,我们应该专注于改进国际象棋开局、国际象棋理论和战术。但实际上,我更着迷于有人将这块无生命的塑料块编程成能够与我下非常好的国际象棋。我对这是如何做到的感到着迷。我真的很想理解这一点,然后最终尝试制作我自己的国际象棋程序。

我的意思是,这太有趣了。我之前对里德说过,我七岁的孩子刚刚赢得了纽约州国际象棋锦标赛。所以他们还有很长的路要走才能赶上你。但他相信,哦,是的,妈妈,我只是要去电脑上玩国际象棋。就像,我会和电脑玩几局棋,这当然在几十年前是一种启示。而且

我记得,当我在中学的时候,当然是深蓝对阵加里·卡斯帕罗夫。这就像人与机器的较量。关于这一刻,你暗示的一件事是,它说明了,在这种情况下,基于特级大师数据,它就像蛮力与自学习系统之间的较量。你能详细说说这种二分法吗?

是的,首先,我的意思是,这太棒了。你的儿子在下国际象棋,我认为这太棒了。我非常支持在学校将国际象棋作为课程的一部分进行教学。我认为这对大脑来说是极好的训练,就像学习数学或编程一样。它肯定影响了我处理问题、解决问题、设想解决方案和计划的方式,你知道,它教你所有这些令人惊叹的元技能,应对压力。所以你从小就能学会所有这些。

这对你要做的任何其他事情都非常棒。至于深蓝,你是对的。这些早期的国际象棋程序,然后深蓝成为了这些程序的顶峰,是这些类型的专家系统,当时这是处理人工智能的首选方法,实际上是程序员解决了这个问题,在这种情况下,是下国际象棋,

然后他们将该解决方案封装在一组启发式方法和规则中,这些启发式方法和规则指导一种蛮力搜索,在这种情况下,是做出好的国际象棋棋步。我一直都有这种想法,虽然我对这些人工智能国际象棋程序能够做到这一点感到着迷,但我对它们也略感失望。实际上,到深蓝出现的时候,我已经在剑桥大学读本科了。我实际上对卡斯帕罗夫的大脑更感兴趣

因为我已经开始学习神经科学了,而不是机器,因为这是一台蛮力机器,它只能下国际象棋,而卡斯帕罗夫也能下大致相同水平的国际象棋,但也能做人类可以做的所有其他事情,令人惊叹的事情。所以我认为,这难道不说明人类大脑的奇妙之处吗?更重要的是,这意味着深蓝和这些专家系统方法对人工智能来说缺少一些非常根本的东西。

非常清楚,因为深蓝虽然是当时人工智能的顶峰,但它似乎并不智能。而缺少的是它学习新事物的能力。例如,

深蓝能够达到世界冠军水平下国际象棋,但却连井字棋都不会下,这太疯狂了,对吧?你必须重新编程。系统中没有任何东西允许它玩井字棋。这很奇怪,对吧?这与人类特级大师非常不同,人类特级大师显然应该轻松地玩更简单的游戏。而且它也不是通用的,对吧,不像人类的大脑那样。我认为这些是标志。我从那场比赛中得到的启示是,这些是智能的标志,如果我们想破解人工智能,我们就需要它们。

然后稍微深入一下深度学习,这显然是DeepMind得名的部分原因,因为部分原因是,我认为,你们用自我博弈和学习系统所做的完全相反的假设是,这种学习方法是生成这些重要系统正确的方法。所以稍微说说一下这个假设,沙漠之旅是什么样的,然后找到尼罗河最终得到了什么。

是的。好吧,你看,我们在2010年创立DeepMind的时候,还没有人在业界从事这项工作,学术界几乎也没有人在从事这项工作。我们部分地将公司命名为DeepMind,“深度”部分是因为深度学习。这也是对《银河系漫游指南》中的深思熟虑、深蓝和其他人工智能事物的致敬。但它主要围绕着我们对这些学习技术的改进。

深度学习和分层神经网络,它们只是在2006年杰夫·辛顿及其同事的开创性工作中被发明出来的。所以它非常非常新。强化学习一直是DeepMind的专长,以及从反复试验中学习、从经验中学习的想法。

对吧?然后,然后制定计划并在世界上采取行动。我们真正结合了这两件事,我们称之为深度强化学习,这两种方法和深度学习来构建环境模型或你正在做的事情,在这种情况下是一个游戏,然后是强化学习来进行规划和

以及行动,实际上能够完成它,能够构建能够在游戏中完成目标的代理系统,例如最大化分数,赢得游戏。我们认为这实际上是智能所需的一切。我们之所以对这一点相当有信心,实际上是因为

从大脑的例子来看,对吧?基本上,这是大脑工作方式的两个主要组成部分。你知道,大脑是一个神经网络。它是一个模式匹配和结构查找系统。但它也有

强化学习以及从反复试验中学习和尝试最大化奖励的想法,这实际上存在于人类大脑和动物大脑、哺乳动物大脑中,多巴胺系统实现了这一点,一种称为TD学习的强化学习形式。所以这让我们相信,如果我们在这个方向上足够努力,即使没有人真正这样做,最终也应该奏效,对吧?因为我们有存在证据,那就是人类的大脑。

当然,这就是我学习神经科学的原因,因为当你身处沙漠时,就像你说的那样,你需要任何水源或任何你可能从沙漠中走出来的证据。即使是远处的海市蜃楼,在理解方面也是有用的,当你在沙漠中时,它能给你一些方向。当然,人工智能本身也身处其中,因为这种情况已经失败过几次。专家系统方法基本上已经达到了上限。

我可以很容易地独占整个采访,所以我尽量避免这样做。所以,学习系统最终创造的一件事是解决了以前被认为是不可解的问题。甚至有人认为计算机无法做到这一点,例如经典的计算技术无法解决围棋问题,但它做到了。

但它不仅解决了围棋问题,而且在经典的第37步中,它展示了超越数千年围棋比赛和书籍以及数百年严肃比赛的原创性和创造力。对于理解人工智能的现状来说,第37步的时刻是什么样的?你认为下一个第37步是什么?

好吧,围棋之所以被认为如此困难,最终也比国际象棋困难得多,所以即使是我们有了AlphaGo,也花了另外20年时间,所有对国际象棋采取的方法,这些专家系统方法在围棋中都失败了。

对吧?基本上甚至无法成为职业选手,更不用说世界冠军了。原因有两个主要原因。一是围棋的复杂性非常巨大。衡量这一点的一种方法是,有10的170次方个可能的棋局,对吧?远远超过宇宙中的原子数量。你无法用蛮力来解决围棋问题。

这是不可能的。但比这更难的是,它是一个如此美丽、深奥、优雅的游戏。在亚洲,它被认为是一种艺术形式。这是因为它在美学上既美丽,又完全是关于模式,而不是像国际象棋那样更多地是关于蛮力计算。所以即使是世界上最好的棋手

也无法非常清楚地向你描述他们正在使用的启发式方法。他们只是凭直觉感觉到正确的棋步,对吧?他们有时会说,为什么你要下这步棋?嗯,感觉是对的,对吧?然后事实证明,他们作为优秀棋手的直觉,他们的直觉是辉煌的,很棒的。这是一个非常美丽和有效的举动。

但这很难用一组启发式方法和规则来概括,以指导机器如何下围棋。这就是为什么所有这些深蓝方法都不起作用的原因。

现在,我们通过让系统自己学习什么是好的模式、什么是好的棋步、什么是好的主题和方法,以及什么是具有价值和高获胜概率的棋局来解决这个问题。所以它通过经验,通过观看数百万场游戏并与自己进行数百万场游戏来自己学习这一点。这就是我们让AlphaGo比世界冠军水平更好的方法。

但更令人兴奋的是,这意味着这些系统实际上可以超越我们作为程序员或系统设计师所知道如何做的事情。对。没有专家系统能够做到这一点,因为当然,它严格受限于我们已经知道并可以向机器描述的内容。

但这些系统可以自己学习。所以,这就是我们在2016年在首尔与李世石进行的著名世界冠军赛、挑战赛的第二局比赛中第37步的结果。这是一个真正具有创造性的举动。围棋已经流行了数千年。

这是人类发明的最古老的游戏,也是最复杂的游戏。在日本等地,它已经作为职业比赛进行了数百年的时间。即使是在所有这些由杰出的人类棋手进行的探索之后,

这第37步是以前从未见过的。实际上,更糟糕的是,它被认为是一种糟糕的策略。事实上,如果你去看纪录片,我推荐一下,它现在在YouTube上,关于AlphaGo的,你会看到专业评论员在看到第37步时几乎从椅子上摔了下来,因为他们认为这是一个错误。他们

他们认为电脑操作员阿杰在电脑上误点了,因为这太不可思议了,没有人会这么下。当然,最终,100步之后,下在棋盘上的那颗棋子,恰好处于决定性的位置

对于整场比赛来说。所以现在它被研究为围棋史上的一个伟大经典,那场比赛和那一步。当然,更令人兴奋的是,这正是我们希望这些系统能够做到的,因为我以及我毕生致力于人工智能工作的全部意义在于利用人工智能来加速科学发现。正是这种新颖的创新,尽管是在游戏中,是我们从系统中寻找的东西。

而且,你知道,我认为这很好地解释了为什么这些学习系统甚至现在都在进行原创性发现。你认为下一个第37步可能是什么,它能开启我们的思维,让我们了解人工智能如何为人类思想、人类存在和人类科学的质量做出巨大贡献?是的,好吧,我认为,嗯,

我认为几乎在人类努力的每个领域都会有很多第37步。当然,从那时起我一直在关注的事情主要是我们如何将这些类型的人工智能技术、这些学习技术、这些通用学习技术应用于科学。我称之为根节点问题的科学大领域。所以,如果你想到宇宙中存在的所有知识的树,你能解锁

一些根节点,解锁人们之后可以建立的整个分支或新的发现途径吗?对我们来说,蛋白质折叠和AlphaFold就是其中之一。它总是,你知道,在我的清单的顶部。我有一个关于所有这些类型的问题的心智清单,这些问题是我一生中遇到的,并且普遍对所有科学领域感兴趣。

而且,而且,而且思考哪些是合适的,既会产生巨大的影响,又适合这些技术。我认为我们将看到这些类型的新的策略、新的想法在人类努力的非常重要的领域出现一个新的黄金时代。我现在想说的一件事是,我们还没有

完全破解创造力,对吧?所以我不想声称这一点。我认为有,你知道,我将其描述为三个层次的创造力,我认为人工智能能够做到前两个。第一个是诠释。所以你给它,你知道,一百万张猫的图片,

猫的图片。你说,给我创造一只原型猫。它只会像平均所有它看到的一百万张猫的图片一样。原型猫不会出现在训练集中。所以它将是一只独特的猫,但它并不是很有趣,从创造力的角度来看,对吧?这只是一个平均值。

但第二件事就是我所说的外推法。这更像是AlphaGo,你玩了1000万局围棋,你看了几百万局人类围棋,但你提出了,你从已知的东西推导出一种前所未有的新策略,就像第37步一样。

好的。这已经非常有价值了。我认为这是真正的创造力。但还有第三个层次,我称之为发明或跳出框框思考,这不仅能想出第37步,还能发明围棋吗?我喜欢使用的另一个衡量标准是,如果我们回到1900年代初的爱因斯坦时代,人工智能系统能否仅凭爱因斯坦当时拥有的信息就能提出广义相对论?

显然,今天,对这些问题的答案是否定的。它无法发明像围棋一样伟大的游戏,而且它也无法仅凭爱因斯坦当时拥有的信息就能发明广义相对论。所以我们的系统中仍然缺少一些东西才能实现真正的跳出框框思考。但我认为它会到来,但我们现在还没有。巴伦·威尔:我认为

我认为许多不在人工智能领域的人会对这一切都始于游戏感到惊讶,但这对我们正在做的事情来说是福音。就像,这就是我们创建这些系统的方式。因此,从棋盘游戏转向电子游戏,你能给我们一个电梯演讲式的解释,说明能够玩星际争霸II的人工智能(如AlphaStar)比能够玩国际象棋或围棋的人工智能先进和迷人的地方在哪里?

有了AlphaGo,我们破解了棋盘游戏的巅峰,对吧?所以围棋一直被认为是棋盘游戏人工智能的珠穆朗玛峰,如果你愿意的话。但根据某些衡量标准,还有更复杂的游戏,如果你考虑一下你可以在电脑上在线玩的、最复杂的策略游戏。

在电脑上。星际争霸II被认为是实时战略游戏类型的经典之作。这是一个非常复杂的游戏。你必须建立你的基地和你的部队以及其他东西。所以每一局游戏都不一样,对吧?棋盘游戏非常灵活,你必须实时移动许多单位。我们破解它的方法是在代理联盟中添加一个额外的层次,这些代理相互竞争,所有代理都以略微不同的初始策略为种子

然后你就会得到一种适者生存。你让他们之间进行比赛。所以这是一种多代理设置。在锦标赛中获胜的策略将进入下一个时代,你知道,下一个时代。然后你围绕这个策略生成一些其他的新策略。你不断地这样做很多代。你既有AlphaGo中的自我博弈的想法,但你又加入了这种多代理竞争,几乎是进化动力。

最终,你将得到一个代理或一系列代理,它们是代理的纳什分布,没有其他策略能够支配它们,但它们支配了最多的其他策略。然后你就会得到这种纳什均衡,然后你从中挑选出,你知道,你从中挑选出顶尖的代理。

这种类型的非常开放式游戏玩法非常成功。这与国际象棋或围棋的情况大相径庭,在国际象棋或围棋中,规则非常明确,你得到的棋子总是相同的。

而且它是一种非常有序的游戏,像星际争霸这样的游戏则更加混乱。所以处理这个问题很有趣。它也有隐藏信息。你无法一次看到整个地图。你必须探索它。所以它不是一个完美信息的游戏,这也是我们希望我们的系统能够应对的另一件事,即部分信息的情况,这实际上更像现实世界,对吧?

在现实世界中,你很少拥有关于所有事物的完整信息。通常你只有部分信息,然后你必须推断其他所有信息才能提出正确的策略。而游戏方面的一部分是,我想你听说过这种智人游戏论。是的。我们都是游戏玩家。这是否会影响到对游戏既具有战略意义又有效的思考?

你知道,对科学加速框架的思考,对创新偶然性的思考,除了适应性函数、自我博弈的进化、能够进行规模计算的能力之外,游戏性质中还有其他更深层次的因素能够促进这种思考的思考吗?

好吧,我很高兴你提到了智人游戏论,这是一本很棒的书。它基本上认为,游戏是人类的基本组成部分,对吧?在许多方面,这就是,你知道,游戏行为,还有什么比这更人性化呢?对。当然,它也导致了创造力、乐趣,你知道,所有这些东西。

都是建立在它之上的。所以我一直很喜欢它们,它们是一种练习和训练你自己的思维的方式,在现实生活中你可能只遇到过几次,但它们通常非常重要。要创办什么公司,要达成什么协议,诸如此类的事情。所以我认为游戏是一种练习这些场景的方式。如果你认真对待游戏,那么你实际上可以模拟在决策情境中会遇到的许多压力。

回到前面,这就是我认为国际象棋对孩子们来说是一个很好的训练场的原因,因为它确实教会了他们所有这些情况。所以,当然,对人工智能系统来说也是如此。这是一个完美的证明

为我们早期的人工智能系统理念提供了一个证明场,部分原因是它们是为了让人类玩起来具有挑战性和趣味性而发明的。当然,游戏玩法也有不同的层次。所以我们可以从像雅达利游戏这样的非常简单的游戏开始,

然后一直到像星际争霸这样的最复杂的电脑游戏,对吧?并继续挑战我们的系统。所以我们在S曲线的最佳点上。它不太容易,它很简单,或者太难。你甚至无法看出你是否取得了任何进展。你想处于S曲线中最大的一部分,在那里你正在取得几乎指数级的进步。我们可以随着系统改进而选择越来越难的游戏。然后游戏的另一个优点是

因为它们是现实世界的一种缩影,它们通常被简化为非常明确的目标函数,对吧?所以赢得游戏或最大化分数通常是游戏的目标。这很容易指定给强化学习系统或基于代理的系统。所以它非常适合爬山,对吧?并测量ELO分数、等级以及你确切的位置。

最后,当然,你可以与最优秀的人类玩家进行校准。所以你可以对你的代理在他们自己的锦标赛中所做的事情进行校准。最终,即使是星际争霸代理,我们最终也必须挑战星际争霸的专业特级大师,以确保我们的系统没有以某种方式过度拟合他们自己的锦标赛策略,对吧?它实际上需要是,哦,我们用它来作为基础,哦,它实际上可以是一个真正的人类星际争霸特级大师玩家。

最后一点当然是,你也可以用游戏生成无限的合成数据,这现在又开始流行了,再次谈到数据限制以及大型语言模型,世界上还剩下多少标记,它是否读过世界上的一切。显然,对于像游戏这样的东西,你实际上可以仅仅让系统自己和自己对战,并从正确的分布中生成更多的数据。

你能详细解释一下吗?就像你说的,现在流行讨论的是,我们是不是快用完数据了?我们需要合成数据吗?你对这个问题怎么看?我一直都是模拟和模拟与人工智能的忠实拥护者。而且,你知道,思考什么是现实世界也很有趣,就计算系统而言。所以我一直致力于构建非常逼真的事物模拟。

当然,现在这与人工智能相互作用,因为你可以有一个 AI 通过观察该系统或该系统的所有数据来学习某个现实世界系统的模拟器。所以我认为当前的争论与这些大型基础模型有关,现在几乎使用了整个互联网,对吧?所以一旦你尝试从中学习,剩下的就没了,对吧?那就是所有现有的语言。

当然,还有其他模式,如视频和音频。我认为我们还没有用尽所有这些多模态标记,但即使这样也会达到某种限制。所以问题就变成了,你能生成合成数据吗?我认为这就是为什么你会看到数学和编码方面取得相当大的进展,因为在这些领域,

生成合成数据很容易。合成数据的问题是,你创建的数据是否来自正确的分布,实际的分布,对吧?它是否模拟了真实的分布?另外,你生成的数据是否正确?当然,对于数学、编码和游戏之类的东西,你可以实际测试最终数据并验证其是否正确。

在你将其作为输入馈送到新系统的训练数据之前。所以它非常适合某些领域。事实上,事实证明,你可以验证和证明其正确性的抽象人类思维领域越多,

在这个播客中,我们喜欢关注人工智能的可能性,因为我们知道这是下一阶段增长的关键。Stripe 深知这一真理,Stripe 是 Stripe Billing 的制造商,它是人工智能公司的首选货币化解决方案。Stripe 知道,在推出新产品时,你的收入模式与产品本身一样重要。

事实上,每一家拥有上市产品的福布斯 50 强人工智能公司都使用 Stripe 进行货币化。请访问 stripe.com,了解 Stripe 能为您的业务做什么。所以其中一件事情是,你知道,除了关于数据、我们如何获得更多数据的那种频繁讨论之外,还有一个问题是,为了进行人工智能,对吧?

是否必须将它嵌入到世界中?是的。有趣的是,如果我们在五年前或十年前谈论过这个问题,我会说

一些现实世界的经验,你知道,呃,也许是通过机器人技术。通常当我们谈到具身智能时,我们的意思是机器人技术,但它也可以是一个非常精确的模拟器,对吧?呃,就像某种超级逼真的游戏,呃,环境将需要完全理解,比如说你周围世界的物理学,对吧。以及你周围的物理环境。实际上,神经科学的一个分支是,呃,

基于此,这被称为感知中的行动。这就是说,除非你也能在其中行动,否则你实际上无法完全感知世界。这种论点是这样的,例如,除非你能拿起东西并进行比较,否则你怎么能真正理解某物重量的概念呢?然后你就会得到重量的概念。就像,你能做到吗,你知道,你能仅仅通过观察事物就能得到这个概念吗?它

似乎很难,对吧?对人类来说当然很难。我认为你需要在世界上行动。所以这就是在世界上行动是你学习的一部分的这个想法。你有点像一个主动学习者。事实上,强化学习就是这样,因为你做出的决定会给你带来新的经验,但这些经验取决于你采取的行动。但这些也是你随后将从中学习的经验。所以在某种意义上,强化学习系统参与了他们自己的学习过程。

对吧?因为他们是主动学习者。我认为你可以很好地论证,这在物理世界中也是必需的。现在,事实证明,我不确定我是否还相信这一点,因为现在,你知道,有了我们的系统,特别是我们的视频模型,如果你看过 VO2,你知道,我们最新的视频模型,完全是目前最先进的,我们在去年年底发布的。而且它

甚至让我感到震惊的是,即使我们正在构建这个东西,它也可以通过观看 YouTube,大量的 YouTube 视频,来弄清楚,你知道,世界的物理学。某种程度上有一种滑稽的图灵测试,也就是视频模型的动词逗号,那就是,你能切西红柿吗?你能展示一段视频,上面显示一把刀用手指在正确的位置切西红柿吗?西红柿不会,你知道,神奇地弹回原位,或者刀穿过西红柿而没有切到它。

等等,VO 可以做到。如果你仔细想想物理学的复杂性,你知道,要理解这一点,你知道,你必须,你必须保持一致等等。这太神奇了。就像,很难争辩说它不理解一些物理学知识以及世界的物理学。而且它是在没有在世界上行动的情况下做到的,当然也不是以机器人在世界上行动的方式做到的。

现在,所以我不清楚现在仅仅通过被动感知是否有限制。现在,有趣的是,我认为这对机器人作为具身智能的应用具有巨大的影响,因为我们构建的模型,Gemini 以及现在的 Veo,我们将来会在某个时候将这些东西结合在一起,我们从一开始就构建了我们的基础模型 Gemini,使其成为多模态的。

我们这样做的原因是,你知道,我们仍然在所有多模态基准测试中领先,原因有两个。一是我们对通用数字助理的想法有一个愿景,一个在你使用的数字设备上,也在现实世界中,也许在你的手机或眼镜设备上,并真正帮助你在现实世界中行动的助理。

比如向你推荐东西,导航,你知道,帮助你四处导航,帮助处理现实世界中的物理事物,比如烹饪之类的事情。为了让它发挥作用,你显然需要理解你所处的环境。这不仅仅是我键入聊天机器人的语言。你实际上必须理解我所生活的 3D 世界,对吧?我认为要成为一个真正优秀的助手,你需要做到这一点。

但第二点当然是,这正是机器人技术也需要的。我们发布了我们第一个大型 Gemini 机器人技术作品,这引起了不小的轰动。这是展示我们可以用这些多模态模型做些什么的开始,这些模型确实理解了世界的物理学,只需在顶部进行一些机器人微调即可处理机器人需要执行的动作、电机动作和规划。看起来它会奏效。

所以实际上,我现在认为这些通用模型实际上将转移到具身机器人环境中,而无需太多额外的特殊情况处理或额外的数据或额外的工作,这可能不是大多数人,甚至是顶级机器人专家五年前预测的。

我的意思是,这太疯狂了。而且,你知道,考虑到基准测试以及我们将需要这些数字助理做什么,就像当我们查看这些大型 AI 模型的内部结构时,嗯,有些人会说这是注意力。所以权衡是思考时间与输出质量。我们需要它们快速,但当然我们需要它们准确。所以谈谈,这种权衡是什么,现在世界上的情况如何?

好吧,你看,我们,当然,我们,我们,我们对思考系统的所有领域进行了开创性工作,因为这就是我们最初的游戏系统所做的,对吧?Go,AlphaGo,但实际上最著名的是 AlphaZero,这是我们的后续系统,可以玩任何两人游戏。

在那里,你总是必须考虑你的时间预算,你的计算预算,你必须实际进行规划部分,对吧?所以你可以预训练模型,就像我们今天对我们的基础模型所做的那样。所以你可以离线玩数百万场游戏,然后你就有你的国际象棋模型或你的围棋模型或任何模型。但在测试时,在运行时,你只有一分钟时间来考虑你的行动,对吧?一分钟乘以你运行的计算机数量。所以这仍然是一种有限的能力。

计算预算。所以今天非常有趣的是,在使用更昂贵、更大的基础模型、基础模型之间存在这种权衡。所以在我们的例子中,我们有不同大小的名称,如 Gemini Flash 或 Pro,甚至更大的 Ultra,但这些模型运行成本更高。所以它们的运行时间更长,但它们更准确,也更强大。所以你可以运行一个更大的模型

使用较少的规划步骤,或者你可以运行一个非常高效的小型模型,它稍微不那么强大,但你可以运行它更多步骤。实际上

目前,我们发现它大致相等。但当然,我们想要找到的是帕累托边界,对吧?就像模型的大小和运行该模型的成本与你想要……以及你能够在每个计算时间单位内执行的思考步骤之间的确切权衡。我认为这实际上……

现在相当前沿的研究,我认为所有领先的实验室可能都在进行实验。而且我认为目前还没有明确的答案。你知道,所有主要的实验室,DeepMind,其他实验室都在努力进行编码辅助。而且,你知道,有很多原因,从,你知道,像,A,它是加速整个前端生产力的事情之一。它有一个很好的适应度函数。当然,它也是一种方式

每个人都将亲自动手提高生产力,即拥有一个软件,一种辅助驾驶员代理来帮助。原因太多了。现在,其中一件事情在这里变得有趣的是,当你构建这些东西时,显然有一种倾向是从这些为人类设计的计算机语言开始。为人工智能或代理世界设计的计算机语言,或为人类与人工智能的混合过程设计的计算机语言是什么?

这是一个值得开始研究的领域吗?它会如何改变我们的计算理论、语言学等等?我认为我们正在进入一个新的编码时代,这将非常有趣。正如你所说,所有领先的实验室都在推动这一前沿,原因有很多。创建合成数据很容易。所以这是每个人都在推动这个向量的原因之一。我认为我们将进入一个世界,在这个世界里

呃,你知道,有时它被称为氛围编码,呃,你基本上是用自然语言进行编码。对。而且,而且,而且我们之前在计算机上见过这种情况,对吧?我记得我第一次开始编程的时候,你知道,在 80 年代,我们正在做汇编程序。然后当然你,你知道,这现在看起来很疯狂。就像你为什么要使用机器代码?你只需要,你知道,你,你从 C 开始,然后你得到 Python 等等。实际上可以看到的是,向上抽象堆栈越来越高的自然演变。

编程语言,并将越来越多的底层实现细节留给编译器。现在这只是,你知道,人们可以将其视为自然演变的最后一步,好吧,我们只使用自然语言。呃,然后,然后整个,你知道,一切都是,是高级程序,你知道,超高级编程语言。

我认为最终我们可能会做到这一点。而令人兴奋的是,当然,它将使编码对全新的人群开放,创意人员,对吧?通常情况下,设计师、游戏设计师、应用程序编写者,如果没有程序员团队的帮助,他们通常无法实现自己的想法。所以我认为,从创造力的角度来看,这将非常令人兴奋。但这可能也很好

当然在未来几年内也会对程序员有益,因为我认为这通常与这些 AI 工具有关,我认为最初将从中受益最大的人将是该领域的专家,他们也知道如何以正确的方式使用这些工具,你知道,无论是提示还是与你现有的代码库交互,你知道,将会有这种过渡时期

我认为那些接受这些新工具的当前专家,无论是电影制作人、游戏设计师还是程序员,在他们能够做的事情方面都将成为超人。我看到我的一些电影导演和电影设计师朋友能够在一天内创建新的电影创意的宣传册。

他们自己,你知道,然后他们可以,但这是一个非常高质量的宣传册,他们可以用它来争取 1000 万美元的预算。通常情况下,他们需要花费数万美元才能获得该宣传册,这对他们来说是一个巨大的风险。所以,所以它变得,嗯,我认为它,将会有一个全新的、令人难以置信的机会集合。然后还有一个问题是,如果你考虑创造性,创造性艺术,是否会有新的工作方式更加流畅,它

而不是做,你知道,Adobe Photoshop 或其他什么,你实际上是在与这个流畅的响应式工具共同创建这个东西。这可能感觉更像少数派报告或其他什么,你知道,我设想的那种界面,并且有这个东西在你周围盘旋,你有点,但这将需要人们习惯于一种非常新的工作流程。

才能最大限度地利用它。但我认为当他们这样做时,对这些人来说可能会令人难以置信。他们的生产力将提高 10 倍。所以我想回到我们之前谈到的与现实世界中的机器人有关的多模态世界。所以

现在,大多数人工智能不需要实时多模态,因为互联网不是多模态的。对于我们的听众来说,这意味着同时吸收多种类型的输入,语音、文本、视觉。那么,你能更深入地解释一下你认为真正实时多模态人工智能的好处是什么吗?以及达到那一点的挑战是什么?

我认为,首先,我们生活在一个多模态的世界中,对吧?我们有五种感官,这就是使我们成为人类的原因。所以如果我们希望我们的系统成为出色的工具或出色的助手,我认为最终它们必须理解我们所生活的空间时间世界,而不仅仅是我们的语言数学世界。对。

对吧?抽象思维世界。我认为他们需要能够在现实世界中行动、规划和处理事物,并理解现实世界。

我认为机器人技术的潜力巨大。我认为它还没有迎来它的 ChatGPT 或 AlphaFold 时刻,比如说在科学和语言方面,或者 AlphaGo 时刻。我认为这即将到来,但我认为我们已经很接近了。正如我们之前谈到的那样,我认为为了实现这一点,我认为我现在看到的捷径是这些通用的多模态模型。

最终变得足够好,也许我们离这并不遥远,可以安装在机器人上,也许是一个带有摄像头的类人机器人。现在还有额外的挑战,你必须将其安装在本地或也许在本地芯片上,以使延迟足够快等等。但正如我们都知道的那样,只需等待几年,今天陪伴着你们的所有系统明天就会安装在一个小型移动芯片上。所以我认为从这个角度来看,多模态非常令人兴奋

机器人技术,辅助。最后,我认为对于创造力也是如此,我认为我们是世界上第一个模型,Gemini 2.0,你现在可以在 AI Studio 中尝试,它允许原生图像生成。所以不是调用一个单独的程序,你知道,在这个单独的模型中,在我们的例子中,是 Imogen 3,你知道,你可以单独尝试,而是 Gemini 本身在图像的聊天流程中自然出现。我认为

人们似乎真的很喜欢使用它。所以这有点像你正在与一个多模态聊天机器人交谈,对吧?所以你可以让它用图片表达情感,或者你可以给它一张图片,然后告诉它修改它,然后继续用文字描述来处理它。你知道,你能移除那个背景吗?你能做到吗?所以这是

这回到了我们之前谈到的关于编程或任何这些创造性事物的新工作流程。我认为如果你尝试这个新的 Gemini 2 实验模型,你就会看到这可能是什么样子,它可能在图像创建中是什么样子。这仅仅是个开始。当然,它将与视频、编码和各种事物一起工作。所以在现实世界多模态的领域,

其中一件事情是,你知道,人们经常猜测的是,人工智能工作的地理位置。显然在美国,我们密切关注西海岸发生的一切。我们还密切关注 DeepMind,然后关注 Mistral 等其他公司。世界需要了解哪些来自欧洲的东西?

拥有多个主要的创新和发明中心的好处是什么,不仅仅是在西海岸,而且显然还有伦敦的 DeepMind 和巴黎的 Mistral 以及其他公司?以及人们需要注意的一些事情,为什么这很重要,以及正在发生的事情,尤其是在英国和欧洲的人工智能生态系统中?

我们在伦敦创立了 DeepMind,并且仍然总部设在这里,原因有几个。我的意思是,这是我长大的地方。这就是我所知道的。这是我所有联系人的地方。但竞争的原因是,我们认为英国和欧洲的人才

大学毕业生的人才与美国顶尖大学的人才相当。你知道,剑桥,我的母校和牛津,它们与麻省理工学院、哈佛大学和常春藤盟校不相上下,对吧?我认为它们有点,你知道,它们总是在大学世界排名中名列前十。

但是如果你,这在 2010 年肯定是正确的,如果你说你从剑桥获得了物理学博士学位,你不想在伦敦金融城的一家对冲基金工作,但你想留在英国并接受智力挑战,那么你并没有那么多选择,对吧?没有那么多深度科技初创公司。

所以我们是第一个真正做到这一点的,并证明这是可以做到的。实际上,我们对整个欧洲都具有很大的吸引力。所以我们从慕尼黑和瑞士等地的技术大学获得了最优秀的人才。很长一段时间以来,这是一个巨大的竞争优势。而且这里的薪水也比西海岸便宜,你也没有与大型老牌公司竞争。而且它是有利于的。我选择这样做的另一个原因是

我知道 AGI,这是我们从一开始的计划,你知道,解决智能问题,然后用它来解决其他所有问题。这是我们阐述使命宣言的地方。我仍然喜欢这种说法。这是一个 20 年的使命。而且,而且,

如果你有一个 20 年的使命,而我们现在已经进行了 15 年,我认为我们正在按计划进行,呃,令人难以置信,对吧。对于任何 20 年的使命来说,这都很奇怪,但是,是,你不想在深层标志、深度技术、深度科学使命的途中分心太多。所以,呃,呃,

我在硅谷发现的一个问题是,有很多好处,显然,人脉和支持系统、资金和令人惊叹的事情以及那里的人才数量,人才密度。但我觉得这相当令人分心。每个人和他们的狗都试图创办一家他们认为会改变世界的初创公司,但这只是一家照片应用程序或其他什么。然后咖啡馆里充满了这种东西。当然,这会带来一些伟大的事情,但如果一个人

实际上想要致力于一项你认为是有史以来最重要的事情的长期使命,那么这也会产生很多噪音。你和你员工不想分心太多,比如,哦,如果我跳槽去做这个,也许我可以赚到一亿美元,你知道,快速做这个游戏应用程序或其他什么。对。我认为这就是你所处的环境,呃,

至少在当时是在山谷里。现在可能不太一样了。现在可能会有更多专注于使命的初创公司。但我还想证明这可以在其他地方做到。然后我想到的最后一个原因是人工智能会影响……

全世界,对吧?它将影响每个行业。它将影响每个国家。在我看来,它将是有史以来最具变革性的技术。所以如果这是真的,而且它将像电力或火一样,比互联网或移动设备的影响更大,那么

我认为让全世界参与其设计以及我们认为存在的不同价值观是很重要的,这些价值观是,你知道,哲学是,你知道,是好的哲学,你知道,来自民主价值观,你知道,西欧,

美国,我认为重要的是,它不仅仅是加利福尼亚州的一块 100 平方英里的土地。我确实认为重要的是,我们获得这些其他投入,更广泛的投入,不仅仅是地理上的,而且,我知道你同意这一点,里德,不同的主题,哲学、社会科学、经济学,

学术界、民间社会,不仅仅是科技公司,不仅仅是参与决定如何构建和使用它的科学家。从一开始我就强烈地感受到这一点。我认为让一些欧洲参与者和一些英国参与者参与创新的最高层是一个好事情。

所以德米斯,人工智能领域的一个方面是,当有人问我,嘿,阿里亚,我知道你对人工智能感兴趣,但是,好吧,你可以写我的电子邮件。就像,为什么它如此特别?我只是说,不,想想它在医学上能做什么。我一直都在谈论 AlphaFold。我告诉他们里德正在做什么。就像,我对这些突破感到非常兴奋。你能给我们一点点吗?你在 AlphaFold 中取得了开创性的突破,它将对医学的未来产生什么影响?

我一直觉得人工智能最能用于什么?我认为有两件事。一是人类健康。这是第一位的,试图解决和治愈可怕的疾病。

然后第二是帮助能源可持续性和气候,地球的健康,我们称之为。所以一个是人类的健康,一个是地球的健康。而这两个领域是我们科学小组从一开始就关注的重点,我认为这在人工智能实验室中是相当独特的。

然后,蛋白质折叠对我来说是典型的。大约 30 年前,我在剑桥大学读本科时偶然发现了它。它一直让我印象深刻,这是一个可以开启无数可能性的精彩谜题。你知道,蛋白质的结构,生命中的所有事物都依赖于蛋白质,我们需要了解其结构,以便了解其功能。

如果我们知道功能,那么我们就可以了解疾病中哪里出了问题,并且我们可以设计药物和分子,如果我们知道 3D 结构,这些药物和分子将与蛋白质表面的正确部分结合。

这是一个令人着迷的问题。它也涉及到我们之前讨论的所有计算问题。你能枚举吗?你能看穿这个可能性森林吗?所有这些蛋白质可能折叠的不同方式?有些人估计,莱文萨尔在 20 世纪 60 年代非常著名地估计,平均蛋白质可以以 10 的 300 次方种可能的方式折叠。

那么你如何枚举这些天文数字的可能性呢?然而,使用这些学习系统是可能的。这就是我们在 AlphaFold 中所做的。然后我们成立了一家公司,Isomorphic,我知道里德也对此领域非常感兴趣,他的新公司是这样的,如果我们可以减少发现蛋白质结构所需的时间,过去通常需要一名博士生整个博士生涯才能发现一种蛋白质结构。所以四年或五年。

我们已经了解了科学界已知的2亿种蛋白质,并在一年内完成了所有蛋白质的折叠。所以,你可以把它理解为我们在一年的时间里完成了10亿年的博士研究工作,然后免费地将其提供给全世界。全世界已经有200万研究人员使用了它。

我们还成立了一家新公司Isomorphic,试图进一步下游发展,开发所需的药物,并试图缩短研发时间。我的意思是,这太令人惊叹了。德米斯,他们授予你诺贝尔奖是有原因的。非常感谢你在这个领域所做的所有工作,这真是太了不起了。谢谢。

现在进行快速问答。有没有哪部电影、歌曲或书籍让你对未来充满乐观?我看过很多电影,它们给了我很多灵感。比如,《银翼杀手》可能是我最喜欢的科幻电影,但它可能并不那么乐观。如果你想要一个乐观的例子,我会说伊恩·班克斯的《文明》系列。我认为这是对……

后AGI宇宙的最佳描述,在这个宇宙中,人工智能、人类以及实际上各种外星物种共同生活,并在银河系中实现了最大程度的人类繁荣。这是一个我渴望为人类创造的令人惊叹、引人入胜的未来。你希望人们更频繁地问你什么问题?

我经常想知道为什么人们没有更多地讨论一些真正关于现实的基本属性,包括和我一起讨论。这些属性在我小时候就驱使我去思考构建人工智能,以帮助我们获得这种最终的科学工具。例如,我不明白为什么人们不更多地担心时间是什么,什么是……什么是……什么是引力,什么是……什么是……基本上是现实的基本结构,就像……它一直摆在我们面前,所有这些显而易见的事情都一直影响着我们。而我们,我们真的不知道它是如何运作的。我不知道为什么这不会让人们更加不安。

它让我不安。而且,你知道,我很乐意与人们就这些事情进行更多辩论。但实际上,大多数人似乎……他们似乎回避这些话题。你在你所在行业之外看到了哪些进步或动力激励了你?这是一个难题,因为人工智能非常普遍。它几乎触及了……哪个行业不在人工智能行业之外?我不确定还有多少。

也许,你知道,量子领域的进展很有趣。我仍然相信人工智能会首先被构建,然后可能会帮助我们完善我们的量子系统。但是,你知道,我和一些量子领域的伙伴,比如哈特穆特·内文,一直在打赌,他们会先构建量子系统,然后这将帮助我们加速人工智能的发展。所以我总是密切关注量子计算系统方面的进展。

最后一个问题。如果你能让我们对未来15年如果一切对人类有利会发生什么留下最后的思考,第一步是什么?好吧,我希望在未来10到15年里,我们在医学领域能够取得真正的突破。

我认为,在接下来的10到15年里,我们实际上可以真正解决所有疾病。这是Isomorphic的使命。我认为,通过AlphaFold,我们展示了以数字速度进行科学研究的潜力。为什么这不能也应用于……

寻找药物?所以我希望在10到15年后,我们会回顾我们今天所拥有的医学,就像我们回顾中世纪以及我们当时如何行医一样,你知道,我认为这将是我们能想象到的AI带来的最不可思议的好处。Possible由Wonder Media Network制作。主持人是Aria Finger和我,Reid Hoffman。我们的节目制作人是Sean Young。

Possible由Katie Sanders、Edie Allard、Sarah Schleid、Vanessa Handy、Aaliyah Yates、Paloma Moreno-Jimenez和Malia Agudelo制作。Jenny Kaplan是我们的执行制片人和编辑。特别感谢Surya Yalamanchili、Sayida Sepiyeva、Thanasi Dilos、Ian Ellis、Greg Beato、Parth Patil和Ben Rellis。

还要特别感谢Leila Hajjaj、Alice Talbert和Denise Owusu-Afrie。