AI并非可有可无,它几乎是让我们理解任何我们现在正在研究的问题的必要条件。
我认为这是一个非常有趣的文化转变,十年前,人们会认为计算机试图做这些事情是荒谬的。我认为十年后,人们会觉得人类做那些事情才是荒谬的。比如,你脑子里记不住那么多数字。
从本质上讲,我们已经进入了一个时代,单个人类的大脑无法理解我们现在能够获得的数据量。
其中一些结构可能需要一个博士生的时间才能解决单个结构。而现在我们谈论的是真正的规模。
已经有1600万或1700万用户使用了该数据库。如果这不是对这个星球的积极评价,我不知道还有什么能算作积极评价。有17亿人对构建结构预测感兴趣。我对此感到非常高兴。
过去几年充斥着AI的公告。让我们回顾一下:2022年4月发布了Dall-E 2,同年夏天Stable Diffusion迅速流行。然后在11月,ChatGPT问世。
然后2023年见证了Claude、Llama和Mistral等模型的发布,而我们才刚刚进入2024年的四分之一。我们已经看到AI音乐和视频模型的扩展速度超过了几乎所有人的预期。虽然大部分注意力都集中在创意工具上,但在2021年,生物学领域出现了一项AI突破,引起了广泛关注,那就是AlphaFold 2。这项预测蛋白质结构的突破性工具由DeepMind团队于当年7月发布并开源。此后,来自190多个国家的170多万名科学家一直在利用它,影响了从基因组学到计算化学的各个领域。与此同时,DeepMind团队一直在努力研究机器学习如何进一步拓展科学的边界。
它横跨许多学科,从结构生物学、基因组学到蛋白质设计、合成基因组学、计算化学、气象学、核聚变、纯数学到未来科学。
他们发表了诸如高精度天气模型、AlphaGeometry(1月份发布,其几何能力达到了人类奥运会金牌运动员的水平)等论文,以及其他关于材料、数学函数等的论文,当然也包括持续推进AlphaFold的工作。今天,我们荣幸地邀请到DeepMind负责科学研究的副总裁Pushmeet Kohli。Pushmeet将与我和a16z的普通合伙人Vijay Pande一起进行讨论。Vijay长期以来一直参与这一交叉领域的研究,他曾是斯坦福大学的教授,在多个系任职,从计算机科学到结构生物学再到生物物理学,并且还是2000年发布的Folding@home项目的创始人。我们将一起回顾通往AlphaGo的历程。
但更重要的是,我们现在正处于AI如何显著影响我们进行和推进新科学的阶段,从新的实验室经济学到临床试验再到药物研发等等。所以问题就变成了,人工智能能否帮助我们发现全新的科学?它已经做到这一点了吗?让我们拭目以待。需要提醒的是,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对a16z基金的任何投资者或潜在投资者。请注意,a16z及其关联公司可能会持有本文讨论的公司股份。有关更多详细信息,包括我们投资的链接,请访问a16z.com/disclosures。
所以AI一直是人们关注的焦点。许多人熟悉面向消费者的应用,比如ChatGPT或Midjourney。但AI已经存在相当一段时间了,并且也正在影响科学领域,我认为这非常令人兴奋,我相信你们两位也是这么认为的,Pushmeet。也许我们可以从这里开始,谈谈你的背景,你如何进入科学与AI的交叉领域,以及你在DeepMind的工作,我认为DeepMind是AI领域的旗舰公司之一。你为什么选择在那里专注于此,而不是其他一些领域?
是的,我进入今天在DeepMind所做工作的历程相当曲折。我最初是计算机科学家,曾在微软研究院工作十年,主要从事盲数学方面的工作,解决复杂的数学问题。我遇到的许多问题都与机器学习有关。
我从计算机视觉、计算机图形学、信息检索开始。在经历了这些应用之后,当深度学习出现时,我真的很兴奋,我认为这是机器学习将如何影响应用的改变者。Demis,一如既往,是DeepMind当时的CEO和创始人,他当时还是个年轻的创业者,他联系我说,我们从一些论文中认识你。
但是,我不,你加入我们。我说,不,我当时正在从事游戏方面的工作。我转向产品和应用。
他说,整个游戏的事情只是说,我们的想法是最终影响科学和应用,这是世界上最大的挑战,他阐述这个观点的坚定程度。我当时想,这家伙明白了。所以我于2017年加入了DeepMind。
我告诉他,如果你对现实世界的应用非常认真,我们需要确保机器学习系统是可靠的。事实上,当我加入DeepMind时,我创建了DeepMind的可靠性和安全性团队,大约一年后,我们将其扩展到一个更广泛的跨学科研究领域,在这个领域中,你想将机器学习应用于具有挑战性的问题。
我认为你能从事的最具挑战性的领域是科学。这是一个完全出乎意料的建议。我上次上课是在学校,所以我对此相当怀疑。
我告诉他,我是个错误的人选,我没有生物学、物理学或化学背景。但他表示,不,我的意思是,你处理这些问题的方式很好。让我们尝试一下,看看会发生什么。因此,我们启动了科学项目,最初只有六七个人在两个项目上工作,现在已经有100到120人,并且我们有许多举措,涵盖生物学的许多领域,从结构生物学、基因组学到蛋白质设计、合成基因组学、量子化学、气象学、核聚变、纯数学到未来科学。所以这是一段漫长的旅程,但开始时有点偶然。
是的,也是一种非常科学的迭代方法。我喜欢这一点,Vijay。在我们深入探讨Pushmeet参与的更多项目之前,我想听听你的背景,以及你如何进入科学与AI的交叉领域,因为你在这方面也有着相当传奇的经历。
当然。是的。从1999年到2015年,我在斯坦福大学担任教授,实际上是在多个系。我的主修系是化学,但也在计算机科学、结构生物学任职,还与物理系共享职位。在这个交叉点上,很明显机器学习是一个非常令人兴奋的工具。
我认为早期真正发生的事情,从90年代的基因组学一直持续到今天,是生物学和生物技术中数据量的增长,变得非常定量化。一旦开始变得定量化,机器学习就非常有用,正如Pushmeet提到的那样。我认为我们许多人,包括我自己,特别兴奋的时刻可能是在2013年、2014年和2015年,深度学习开始兴起的时候。我认为在深度学习之前,机器学习需要人类自己提出特征。而深度学习就像一个工具。
它可以取代更多的人类思考部分。事实上,许多有趣的成果是之后出现的。这些涌现的特性非常令人兴奋,当时很明显我们需要大量的计算能力。
因此,实际上在2000年初,我创立了Folding@home分布式计算项目。实际上,我们是首批使用GPU进行科学计算的项目之一。所以所有这些都结合在一起:数据、计算能力,以及最终的算法。一旦这三个要素结合在一起,我认为我们许多人都能看到它正在起飞。时机绝对成熟。
我认为这引出了“为什么”这个问题。你已经谈到了一些,但Vijay,是什么让你对这个交叉领域如此兴奋?我们是在2024年录制的这段节目。
AI实际上可能从50年代就存在了。仅仅是因为我们拥有足够的计算能力吗?是因为我们在建模方面取得了突破吗?在我们深入探讨一些具体的例子之前,请你描述一下是什么让你对未来如此兴奋。
是的,让我们退一步。我认为我们在生物学中真正看到的是一场工业革命。但是如果你看看生物学,甚至今天在某种程度上,与十年前、五十年甚至一百年前相比,你会看到实验台和穿着白大褂的人,以及移液器等等,也许实验设备有所不同,但非常非常相似,非常手工和匠人式的。
正在发生变化的是它正在工业化。我们看到机器人技术的兴起,我们看到随着这种工业化的发展,出现了海量的数据。所以AI需要数据,数据也需要AI。
因此,随着生物学获得所有这些数据,我们可以真正进入这个领域。作为生命科学和医疗保健领域的人,最吸引人的一点是,它并没有被技术所推动,并没有被IT所推动。
在很大程度上。医疗保健和生命科学加起来几乎占美国GDP的25%。那是数万亿美元的资金流入这个领域。而其中很少一部分,或者说几乎没有一部分,被技术革命所改变。
所以这场革命,我认为,是因为AI使得这种工业化成为可能。特别是将这些手工匠人式的流程转变为工程化和工业化的流程。这是其中一个方面,还有许多其他方面,比如我们谈到的机器人技术,我认为这是最令人兴奋的。
这是一个我们可能在2015年看到了一些端倪,可能是一个25年或30年的历程,我们已经经历了十年,工业革命不会在一夜之间发生。但当你回顾过去时,整个世界都会发生改变。所以我们正处于这场革命的中心。我总是很羡慕那些生活在19世纪20年代的人们,他们经历了从无到有的蒸汽机时代等等。而现在,我认为我们正处于这场革命的中心。
这是一个非常特殊的时刻,对吧?你看到一张照片,我认为是在纽约,那里有许多马匹排成一列,对吧?当时这看起来很正常。然后你看看十年后,它们被汽车所取代。
所以,也许我们可以用AlphaFold作为例子,因为许多听众可能最熟悉这篇论文和这项突破,但这可能也是一个很好的例子,说明它并非一蹴而就。我认为大多数人在2020年注意到了它,但它并非始于2020年。所以也许你可以谈谈这个过程。
什么是AlphaFold?它是如何诞生的?以及它对当今世界的影响。是的,我之前说过我如何开始在DeepMind的科学项目,当时我们有两个小型项目,一个是蛋白质结构预测,另一个是量子化学。从蛋白质结构预测项目开始,简单来说,现有的问题是,我们给定一个氨基酸序列,我们想预测蛋白质的结构,我们想了解这些氨基酸的3D坐标。
这非常重要,因为如果你了解蛋白质的3D结构,它会告诉你该蛋白质的功能是什么。这对药物研发、对理解基础生物学都有影响。所以它。
所以我们开始研究这个问题,因为我们认为它满足了我们在寻找问题时的关键要求之一,那就是它是一个具有基础性的重要问题。一旦你解决了它,它就会在疾病理解和生物学中产生许多不同的影响。而结构生物学是。
不仅如此,它还是一个典型的机器学习问题。你需要大量的数据来解决这个问题,因为你正在处理一个巨大的解空间,而且你拥有原始材料,即数据。结构生物学界在构建一个非常好的数据集方面做得非常出色,即PDB。
所以世界各地的科学家们,每当他们发现一种蛋白质的结构时,这有时需要五年甚至十年时间,但他们会勤奋地将这些新结构存入这个数据库。
所以,当我们开始时,我们利用了PDB数据库中现有的结构,并使用深度学习方法。这是一个非常棒的数据集。不仅如此,机器学习中的另一个大问题是如何评估机器学习模型,因为机器学习模型最容易做的事情就是欺骗自己。这些模型非常擅长作弊。
如果你给他们任何作弊的方法,他们就会作弊。因此,蛋白质折叠界和折叠结构预测界举办了这种一年一度或两年一度的比赛,称为CAST,即结构预测关键评估。他们会进行盲测,就像蛋白质结构预测的奥运会一样,人们会得到一些蛋白质序列,其结构对任何人来说都是未知的,只有一位进行实验的人提交了它,然后他们将接受测试,模型的真正泛化能力将得到体现。
所以我们认为这个问题确实符合我们用于长期解决问题的几个关键标准。所以我们从一个团队开始。调查他们在这个问题上能取得多少进展。我们充满希望,乐观地认为机器学习可以发挥作用,但我们不知道这对我们来说是一个新问题。我们带着很多事实和动力来处理它。
我开始的时候是哪一年?
我们大约在2017年开始,并在2018年底参加了关键评估。当我们进入CASP13时,我们并不确定。我们可能排名前三,但实际上表现非常好。
但这不仅是当时的水平,而且比当时的水平高出一大截。这验证了我们的假设,即深度学习的哲学,以及深度学习的多学科性质。
所以我们引入了一些非常优秀的结构生物学家。大约有六个人加入了Jumper的团队,Jumper当时是团队的领导者,这给了我们很大的信心。现在我们是世界上最好的,但模型仍然没有用,对吧?它对我们来说已经足够好了,但它远没有解决这个问题。然后我们必须做出一些改变,我们能否很少地迭代它,并一次性解决它,但这就是它。所以我们首先要做的是从头开始,把AlphaFold从桌子上拿开,说我们开始采用的这种方法是……
行不通的。是什么让你意识到AlphaFold1无法让你更上一层楼?因为我认为即使在科学以外的AI领域,也有很多疑问。
我们能否仅仅依靠缩放定律?我们需要某种新的突破才能解决你的问题吗?它可能是AGI,也可能是其他什么东西。是什么让你意识到这一点很棒?我们对我们的结果非常满意,但我们实际上需要抛弃它并重新开始。
AlphaFold1采用了经典的方法。在这种经典的两阶段方法中,机器学习模型的工作是,给定氨基酸序列,它不会直接预测氨基酸的3D坐标。它预测的是氨基酸之间的距离。
然后是第二阶段,它假设这些距离约束,并恢复三维结构。因此,机器学习神经网络的工作仅限于找到氨基酸残基之间的距离,这种两阶段模型非常有效。但它不是非常可微的,因为如果你做了一些改变,你就无法反向传播到神经网络,因为你是在第二阶段之后找到的结果,神经网络不会得到这种监督。
因此,我们认为,为了能够正确地训练模型,我们需要端到端的方法。我们需要一个模型,它可以直接从序列到结构。这是需要进行的改变的一个关键因素。但这对我来说是一个艰难的改变,因为当你构建这个端到端网络时,你从一个低得多的基线开始。
所以让我们快进一下。所以你抛弃了AlphaFold1。然后之后发生了什么?
所以我们开始了这段漫长的旅程。我们开始取得进展,AlphaFold2的性能比AlphaFold1低得多。即使我们有这个中心化的架构。
团队中的每个人都可以提出想法,并在中心化的架构上尝试他们的想法,看看每个想法或每个改变能带来多少增量。我们正在稳步取得进展。然后有时进展会停滞不前,有时甚至会停滞数月。
人们会问,我们是否达到了极限?但随着时间的推移,我认为在大流行开始的时候,我们获得了一些非常大的数据集,我们认为我们正在取得真正的进展。如果你看看矩阵,关于你想要预测的结构的精度,AlphaFold2的精度是惊人的。
我们已经超过了AlphaFold2的阈值。这当然是前所未有的,这也促使我们进一步推动它。然后是AlphaFold1到AlphaFold2,然后是AlphaFold2及以后,对吧?这就是我们需要做的。
然后大流行发生了,它确实让整个团队认识到这个问题的重要性,因为我们也都在家里隔离。而且有科学家说,如果你有不同SARS-CoV-2蛋白质的结构,那将非常有帮助。现在,研究界很快就找到了刺突蛋白的结构,因为它与我们的AlphaFold1非常相似。
但是病毒的必需蛋白质,这些蛋白质的结构却无人知晓。因此,我们能够计算这些预测并与试图处理这些动态并考虑设计药物等的专家分享这些预测,这确实让团队认识到这个基本问题对现实世界的影响和相关性。大约在2020年9月,第二届CASP比赛结束时,我们收到了组织者的一封邮件,想聊聊。
这前所未有。人们感到惊讶,为什么CASP组织者想聊聊。
他们对预测的准确性感到非常惊讶。事实上,他们中的一些人推测,也许该团队作弊了,结果太好了。
但显然,有一位特定的科学家提交了一种蛋白质,但不知道其结构。他们听说在比赛结束时会获得这种结构。但这种结构对任何人都未知,AlphaFold能够为他们提供一个初始起点,这可以帮助他们确定这种特定蛋白质的结构。
所以他们完全惊叹于这样的系统现在存在于CASP比赛中。我们后来发布了AlphaFold2,它不仅准确,而且非常高效。因此,我们决定实际上找到几乎所有科学家已知的蛋白质的结构,大约有1.5亿个,并将它们放入一个数据库中,与我们的合作伙伴欧洲生物信息研究所EMBL-EBI一起。然后将其作为一个资源,任何人都可以访问。
是的,太棒了。我很想把它交给Vijay Pande。
是的,你显然经营实验室很长时间了,你也在另一边,对吧?所有这些研究人员现在都可以访问这个数据库,顺便说一句,对于观众来说,这些结构中的一些可能需要花费很长时间才能解决单个结构。
现在我们谈论的是真正的规模。而且,同样,这被部署到所有可以访问它的研究人员。所以Vijay,也许你可以谈谈这到底意味着什么。如果我们也可以将其应用于科学的其他领域。
这方面的影响是多方面的。我可以从学术角度来看待它,也可以从过去十年投资初创企业的角度来看待它。初创企业也使用它。
首先,我认为也许值得强调结构本身的重要性。我的大学斯坦福大学之所以有结构生物学系,是因为结构通常与功能和其他生物学方面密切相关。也许最著名的例子是DNA结构。
沃森和克里克提出了这种结构。通过观察结构,你可以推断DNA是如何复制的,以及遗传学是如何运作的。某种程度上,这是一个非常基本的例子。
所以这也许是最引人注目的例子之一,但还有许多例子表明,如果你有结构,你就可以理解功能。因此,结构生物学是我们在模型尺度上理解生物学的方式的一部分。对于药物设计来说,如果我们了解结构及其动态,我们就可以更有效地理解如何靶向蛋白质并设计疗法。
因此,结构生物学的重要性是巨大的。这也是结构生物学处于复兴时期的时候,正如你提到的,过去需要数年时间才能获得实验结构,而现在新的方法,如冷冻电镜,可以在更短的时间内获得结构,甚至更快。所以这里有不同的声音。
我认为对于结构生物学领域来说,我认为我们将看到新的实验方法和计算方法的结合。我认为对我来说最引人注目的是,分析师们正在访问这些数据库并使用它们,这几乎就像你使用人类基因组数据库一样,人类基因组数据库将基因组转化为数据库。查找你基本上不必自己做实验,你可以进行计算查询。
我认为AlphaFold所做的是,它将结构生物学变成了一个数据库查找,不是一个真正的数据库查找。
但随着预测质量越来越高,它就变得和数据库查找一样了。这太重要了。我认为最后一点是,学术界和工业界之间总是会发生转变。
也许三十年前,学术界会设计计算机芯片和新型微处理器等等,新的架构,我们现在不这么做了。现在,学术界认为这并不是一件有意义的事情,在公司里做得更好,尤其是在规模上。我认为最引人注目的是,我认为由于多种原因,这是DeepMind非常适合做的事情,而学术团体我认为真的做不到。这种转变现在表明,现在我认为对于这种类型的活动来说是一个非常有趣的时刻。现在在工业界开始一些这样的活动。
这真的很有趣。你谈到的学术界和工业界的关系是人们现在经常谈论的事情,即这些不同的AI模型是否真的能够从根本上推进科学,就像你通常认为学术界是推动科学进步的一方一样。所以我很想听听你们两位的意见,也许先从Vijay Pande开始,是什么迹象,无论是通过AlphaFold还是你看到的其他项目,实际上表明,是的,这些模型,这些科学发现,从某种意义上说,能够帮助我们真正推动前沿,而不是仅仅帮助我们在我们已经拥有的领域提高效率。
我认为Pushmeet提到了,这是一个基础性问题。但如果你以药物设计为例。首先你必须了解生物学。
用于生物学的AI是一个非常有趣的领域,我们也许可以开始理解通路、疾病和人类生物学的本质,而不需要在人类身上进行实验,这始终是理解人类生物学最大的限制之一。我认为我们非常了解小鼠,因为我们可以对它们进行实验,但我们永远不能直接在人类身上进行实验。但是,随着用于人类的AI模型变得更具预测性,特别是比小鼠更具预测性,小鼠从某种意义上说是一个模型,对于解开生物学奥秘非常有趣。
因此,用于生物学的AI是一件事。我们必须谈谈用于化学的AI。我认为AlphaFold在化学领域,我们现在试图通过物理化学来理解,或者试图理解我们如何快速地药物靶向蛋白质,我们如何设计抗体和蛋白质作为整体。
最后,我认为用于临床试验的AI将是可能产生最大经济影响的地方。临床试验可能花费数亿美元甚至数十亿美元,即使是10%的改进,对于一项价值数十亿美元的企业来说也是巨大的。
而且我们已经解决了更难的问题。但我认为,当我们在那里产生影响时,我认为临床试验将会更好,可能更容易获得资金,并且有望更成功,因为我们将选择正确的临床试验来进行。然后最终会变成用于个性化医疗的AI,这是临床试验的自然延伸。
现在我不希望像对待小鼠或大鼠一样对我进行实验,但我希望确保我得到最适合我的药物。你和我的不同,对药物的反应也不同。能够预测这一点将是巨大的。所以我认为有这种艺术性。我认为我们才刚刚开始。
当然,我们谈到了AlphaFold,这非常令人兴奋,也许也是大家最熟悉的,但你的团队还创建了许多其他论文,涉及到AI与科学的交叉领域,你可以说,AI数学,AI物理学。这些东西包括材料、图形,这与天气预报有关,还有FunSearch和几何学。因此,我很想再次听到你对这些不同模型如何推动前沿发展的探讨。在AI帮助我们真正发现新的科学方面,你从团队正在进行的一些其他项目中看到了什么?
从本质上讲,我们已经进入了一个时代,在这个时代,单个人的大脑无法理解我们正在收集到的关于宇宙的数据。嗯,这在任何领域都是正确的,你知道,在生物学中也是如此。没有生物学家能够理解,至少是所有我们可以获得的生物学数据。
没有物理学家能够查看并分析所有正在收集的高能物理数据,甚至数学家也无法查看我们现在可以计算和模拟的大规模数学模拟数据并从中找出结果。我认为发生的事情是,AI不仅仅是一种锦上添花的东西,它几乎是我们理解和推理我们现在正在研究的任何问题的必要条件。
我在生物数学中有一些例子,关于拓扑结构的工作,你用两种不同的定义来描述它,有一种是代数定义,另一种是几何定义。数学家理解这些定义,但从未理解它们之间的联系,对吧?我们展示的其中一项工作基本上是,我们为这两种定义生成了大量数据。
然后,使用神经网络,你能否根据一种特征预测另一种特征?我们的想法是,这应该是已知的。但事实上,它可以进行预测。
当我们深入研究时,我们发现了一个非常好的猜想,没有人遇到过。我们与数学家一起工作,不仅证明了这一点,而且还证明了这两种特征之间存在非常优雅、良好的关系。所以这就像在数学中完全基础性的发现,以前完全不为数学家所知,现在却被机器学习发现了。
而且,我想。我们在我们正在研究的任何科学领域都看到了这一点。我们正在发现新的见解,新的模式,这些模式是以前没有预料到的,仅仅是因为分析原始数据规模的技术不存在。
我认为在生物学中,尤其是在大约十年前,甚至更早之前,人们常常认为生物学太复杂了,以至于无法理解,你甚至无法理解它,你唯一能做的就是做实验,看看会发生什么。我认为我们正在看到这种转变的开始。
人们开始思考,好吧,存在复杂的系统。我们有很多不知道的东西,还有很多东西需要学习。但是,AI实际上可以将所有这些整合在一起,并开始将这些东西变成生物学的自然语言。
我认为这是一个非常有趣的文化转变,十年前,人们会说,计算机试图做这些事情是荒谬的。我认为十年后,人们会认为人类认为他们无法在脑子里计算数字是荒谬的。我们已经在其他地方看到了这一点,比如国际象棋,计算机能够成为特级大师似乎是不可能的。而现在……
没什么可尝试的。
是的,是的。我们在围棋中看到了这一点,以及所有其他事情。所以我认为这只是一个文化转变,但我认为这不是一件坏事。
我的意思是,起重机可以举起比最强壮的举重运动员多得多的重量。我们认为这是一件好事。这总是关于我们和他们。我认为有趣的问题将是,一旦你可以做我们能做的事情,我们将如何一起做这些事情?
是的,我们能做什么?我认为最令人惊奇的事情之一是,DeepMind在很大程度上已经将这些模型及其结果提供给了社区。因此,研究人员可以接触到它们。
所以也许我们可以谈谈这个。研究人员如何利用这些新的突破?关于我们没有足够的抗癌药物或存在短缺的统计数据有很多,而这些都是我们想要解决的非常现实的问题。
所以Pushmeet,也许我们可以从你开始。在这些技术的部署以及研究人员如何使用它们方面,你和你团队看到了什么?
是的。所以这又是一个令人着迷的旅程。我并非来自生命科学领域,所以从事AlphaFold的工作是一次学习经历,但随后实际上将AlphaFold发布给社区……
这更是学习经历。所以我们有一个数据库。当我们构建它时,我们希望它能够在全球各地为科学家所用。
但科学界的反响是前所未有的。我不知道的是,今天的完整数据库已被190个国家/地区访问,并且已经有160万或170万用户使用了该数据库。如果这不是对地球的积极评价,我不知道还有什么能算作积极评价。有17亿人对蛋白质结构预测感兴趣。我对此感到非常高兴。
在世界各地发生的事情以及这些影响方面,我们看到了令人惊叹的范围,例如,AlphaFold被用于突破性的基础生物学发现,我最喜欢的领域是核孔复合物,基本上是核孔复合物的结构,以及细胞核如何控制物质进入细胞核的方式,你知道,我的意思是,这种未解的结构,这种复合物以前是未知的。研究人员使用AlphaFold的结构来拼凑整个复合物。最近发表在《自然》杂志上的一篇论文展示了如何开发一种抗癌药物。
同样,如果用户使用AlphaFold来设计它。还有许多其他领域,人们一直在使用它来推进工作,开发新的疫苗,对抗抗生素耐药性,以及合成生物学。早期阶段的关键合作伙伴之一是加州大学伯克利分校。
美国,它花费了大约一半的资金来开发能够分解塑料的酶。所以你有了这个,从基础生物学、药物发现到合成生物学和酶的开发,AlphaFold都产生了影响。因此,甚至很难预测该数据库的用途。
我认为在生物学领域内部,也出现了一种转变,我认为人们正在更好地理解预测。我认为以前实验是金标准,这是人们唯一想听到的。
我的意思是,巴黎也一样,就像我当时一样,当你处理大型语言模型时,你基本上是在处理对接下来会发生什么的预测。人们理解预测的当前用途,但拥有它具有巨大的价值。我认为很有趣的是,我们会谈论这么多技术,但我认为这是我们需要推动的人类转变和文化转变。我认为让我对Pushmeet刚才谈论的内容最兴奋的是,我认为这是我见过的这种文化转变的迹象。
也许你还可以谈谈其他一些事情。Vijay,在你和Pushmeet分享更多关于这些研究人员的信息时,我想到了这一点。这如何改变实验室的经济效益?对吧?
如果你考虑一下我们之前谈到的内容,比如发现一种结构可能需要整个博士学位。
现在我们有了新的工具,我们看到这些经济效益正在我们的一些消费领域发生变化。这些变化非常明显。这如何改变整体的研究经济效益?
我的一位前同事谈到的一种特定幻想,我们称之为“海滩生物技术”,你假设有一个人和一台笔记本电脑在海滩上,你在海滩上,你有一些合同研究组织来进行实验。你有一些AWS。
云,或者其他什么,一些GCP云在某个地方运行你的计算。我认为一个人和AI还不太可能实现,但我认为这是一个有趣的幻想。
我认为在实现一个人这种愿望的道路上,规模较小的团队可以用更少的资源做更多的事情,更有效地建立初创公司,更快地取得成果。这种变化将会……我想提到的原因是,加快商业试验的速度很好,但我认为主要的经济回报将来自临床试验方面。但我认为预期是,用于生物学和基于人类数据的靶点理解的AI也将有助于缩小试验规模,此外还有其他任何东西。所以我认为总的来说,我认为我们可以更快、更便宜地获得这些疗法,而且效果更好。是的,而且……
也许Pushmeet,我们可以直接解决这个问题。如果你能为那些不是研究人员、还没有利用这些工具的人提供一些信息,如果有人想获得蛋白质结构预测或使用我们讨论过的一些其他模型,例如图形或材料发现,那么实际成本是多少?
是的,对于AlphaFold来说,它是完全免费的。你只需要访问AlphaFold数据库,找到你感兴趣的蛋白质,现在已经有2.5亿个蛋白质,然后就可以使用了。它是免费的,地球上的任何人都可以使用。
所以它确实以一种方式使事情民主化,例如,在拉丁美洲或印度工作的科学家,他们正在研究被忽视的疾病,例如,以前他们无法获得他们感兴趣的蛋白质的结构,现在他们只需点击一下按钮就可以获得这些结构。当然,还需要做很多研究才能将这项工作转化为更有针对性的成果。如果你试图完成Vijay概述的愿景,还需要更多的投资。
为了获得这些结构,你需要考虑如何将它应用于腿部,如何进行先导化合物设计,如何解决共价问题?因此,为了使这些模型和这些预测能够用于具体的应用,需要大量的投资。
我们有一个来自DeepMind的最终版本,即Isomorphic Labs,它现在也在投资这个领域。与此同时,我们正在继续从事基础工作,并且现在已经发布了关于下一代AlphaFold的公告或更新,它超越了蛋白质,扩展到其他生物分子,如DNA、RNA、BDM、小分子和糖。
我认为你向社区开放这一点非常棒。我认为我想听听你们俩的看法,那就是这些模型与开源之间的关系。我的意思是,这在整个AI领域都是一个很大的争论,但我认为尤其是在科学方面,我认为存在两种极端观点,对吧?
我认为没有什么比人们对治愈癌症、解决贫困和农业危机等想法更兴奋的了。但与此同时,人们也会感到非常害怕,对吧?我认为这就是人们的科幻噩梦的来源,对吧?比如,“哦,有人可以设计一种可以杀死我们所有人的分子”。我想,从Vijay开始,你对AI与科学的关系以及为什么它应该是开源的有什么看法?
我认为开源的美妙之处,我们在AI和生物学中看到了这一点,但我更自豪的是,人们可以建立在彼此的基础之上。我认为AI领域真正了不起的事情是,在过去五年或十年里,感觉好像每周都会出现一个令人惊叹的结果,而这其中的关键部分是,它会附带代码或获取报告,你可以自己检查。
你甚至不必相信结果。你可以自己运行它。人们甚至开源了这些东西的测试,这至关重要。
我们正在建造摩天大楼。每个人都建造一层新楼层,我们进展非常快。这就是开源在过去所能做到的。
如果它不是开源的,我必须阅读论文,我必须自己编写代码,有时论文中的一些细节可能不太清楚。所以我可能不会费心,对吧?我只是去做我的事情。
所以我认为开源允许我们做的是建立在彼此的基础之上,并且快速发展。当然,某些部分不会是开源的。我认为幸运的是,你不能开源一种药物化合物,因为那样的话,没有人会为试验付费,诸如此类的事情。
鉴于数亿美元甚至数十亿美元的资金,这种经济效益是没有意义的。因此,某些部分将是封闭的,并且有数百家生物AI和AI药物设计的初创公司可能会利用已经开发出的方法,开发他们自己的方法,并在此基础上进行构建。我认为药物将来自那里。
他还谈到了这种担忧,因为这非常强大,我们可能会用它做一些危险的事情。这无处不在。存在一些误解,因为实际上,用于治疗疾病的药物设计的复杂性与制造生物武器的复杂性之间存在巨大的不对称性,这是一个非常难以解决的问题。
但是,事实证明,提出实际上很危险并被谈论的东西真的很容易。事实上,这就是我们面临一项试验的原因,因为即使是你认为真的希望根本不会有毒的东西,结果也证明是有毒的。所以,制造有毒的东西实际上很容易。谷歌会教你如何做得对,以及如何获得所有这些其他东西,好坏参半。所以我认为这种不对称性在于,如果我们取消用于药物设计的 AI,你就会失去所有好处,而不会阻止对我来说已经存在的坏处。
我认为这是一个很多人没有考虑到的好点子。也许你可以说说为什么 DeepMind 选择开源这些模型,这在不同的 AI 公司中并不一定是常态?
团队内部和公司内部对此进行了大量的讨论。我认为最终决定中考虑了几件事。其中一件是我们想要结束,就像那是基础吗?它是如此基础,如果我们将其封闭源代码,它将难以充分利用其影响,对社会的影响,我的意思是,这将是困难的。
这是因为它非常基础,而且很难预测它的潜在应用。举个例子,当我们发布 AlphaFold 的几天后,有人对 AlphaFold 预测相关的确定性进行了分析,并发现事实上,酒精即使没有经过训练,也是预测蛋白质紊乱的最佳预测指标。所以,如果我们将其封闭源代码,我们根本不会想到这一点,对吧,如果有人在社区中与模型互动,他们就会发现这一点。
所以,当你考虑它的时候,当然,是如何最大限度地发挥其对社会的积极影响和对科学的积极影响。第二个是责任。我们咨询了许多专家,从结构生物学、化学到药物发现,以确定在这里正确、负责和安全的方法是什么。
即使考虑到恶意用例,在我们进行过真正的宗教研究之后,我们认为将其发布是安全的,并且以最广泛的方式发布和开源它的影响将超过我们需要建模的成本,因此我们决定应该开源它。我认为这个决定得到了验证,AlphaFold 对社区的影响。当然,这并不适用于所有不同的模型。事实上,随后,我们有一些没有开源的模型。但我认为,对于 AlphaFold 来说,决定非常非常明确地支持以最有效的方式与世界分享它。
那些你没有选择开源的模型。如果你愿意分享的话。
你是如何做出这个决定的?许多不同的因素,既包括发布的科学影响,也包括发布某些东西的商业成本,同时利用它进行商业化,甚至是安全论点。举个例子,我们去年发布的最新模型之一是 AlphaMissense,这是一个预测错义突变影响的模型,该模型所做的是,它产生了最先进的准确性。在预测错义突变是有害的还是有益的或可能是良性的方面。
在这种特定情况下,我们发现该模型对人类基因组、人类错义突变(例如七千一百万个)的预测,如果我们发布这些预测,将满足诊所或实验室感兴趣的大部分目的。因此,我们只发布了预测,而不是模型本身,因为该模型还有许多其他用途。你可以在不同的等位基因上运行它。还有其他商业方面的考虑。因此,我们发现我们可以发布预测,我们可以分享方法,但我们不会开源方法。
这说得通。我认为一开始,你分享了你的团队正在研究的许多不同的项目或科学研究领域。我只是很好奇,因为这听起来像是在许多领域都取得了成功。有没有哪些科学或数学领域,你尝试过使用机器学习和 AI 来解决,但效果不佳,无论是由于我们没有 vj 提到的那种奠定基础的先验数据集。我只是很好奇,在这些领域中是否存在任何限制。
你的团队正在转向一个规范,我希望他能回来谈谈,对吧?我认为我最终会得到的是系统生物学,这是一个非常重要的课题,需要在系统层面真正理解生物系统的行为。只是数据和评估还没有达到那种程度,也许基因组功能性对结构能量的影响。
在我们实际启动任何这些领域的倡议之前,我们需要经历一个巨大的尽职调查过程,因为从本质上讲,你正在做出一个非常长期的承诺,以及对某些事情的影响,我们最好的科学家和工程师正在致力于这些领域。当你非常认真地承担这项责任,并且只有当我们对这个问题的影响充满信心时,我们才能对评估指标充满信心。跟踪进度。我们有原材料,数据或辅助数据来获得好的数据。只有这样,我们才会对特定主题做出长期承诺。
突出显示的数据问题。我认为 AI 用于语言模型或视频与 AI 用于生物学或医疗保健之间最大的区别之一是,我认为生物学和医疗保健中大多数有趣的数据要么是暗数据,即总是有医疗记录等等,你无法在互联网上访问这些数据,这对于了解健康、临床试验标志等等非常有用。
它要么是暗数据,要么从未被测量过。所以我们需要做实验。我认为拥有数据可能并且我认为这将与其他地方不同。
也许算法可以真正推动事情发展,因为每个人或多或少都有相同的数据。我认为在这里,人们可以通过他们的数据来区分。因此,创新将是 AI 创新与数据收集创新相结合。显然,还有很多事情,我敢打赌,主动学习的界面以及如何使用数据、更多虚构实体等等。但数据游戏,我的意思是,这将是巨大的。
绝对的。VJ,我很想听听你的看法。你已经谈到了几个例子。你希望在哪些不同的领域分配更多关注?或者你只是认为有一系列巨大的挑战,最终可以用这项技术来解决?
关于 AlphaFold 的第一件事,但这个关键的评估结构预测是,我认为它也激发了所有这些其他的前瞻性试验和前瞻性研究。所以还有很多事情要做,我认为,对小分子结合的测试。
所以,我认为随着时间的推移,我们会看到这些方法在这些评估中发挥作用,但在我看来,圣杯是能够预测临床试验,以及能够理解药物如何在人体生物学中发挥作用的东西。这对我来说是一个挑战,因为作为一名系统生物学家,这是最大的挑战。所以这就是圣杯。
我认为我们可能会分阶段完成。你可以想象,甚至像针对特定器官的模型,或针对身体特定部位的模型,然后我们将它们组合在一起。专家图片现在很常见。也许这将是一种方法。
但是,一旦这些模型比动物模型更好,你将如何完成这项工作?我认为这将是一个真正的转折点,一个我们可以更快地前进的转折点,我们可以进行研究,而无需进行这些动物实验,这非常昂贵。甚至还有疯狂的事情,比如现在,由于猴子非常紧缺,所以猴子短缺,因为对猴子的需求量很大,需要进行这些实验。所以我认为,要达到这些人类模型比替代方案更具预测性的程度,还有很长的路要走。但我认为,一旦我们达到这一点,那将是一个主要的转折点。
哇,我不知道猴子短缺,但我的意思是,这确实很重要,对吧?正如你所说,希望我们能够拥有一个未来,在这个未来中,我们今天在研究中做的一些事情看起来非常过时,因为我们有更好的选择。Pushmeet,DeepMind 下一步感兴趣的领域是什么?我的意思是,你已经在做很多事情了,但我真的很想了解一下你对什么感到兴奋。
我认为,好的。关于科学和这些领域中任何一个领域中令人着迷的是,还有很多工作要做。我的意思是,即使在结构预测方面,我刚才提到的 AlphaFold 的最新版本,世界上的工作是将其扩展到一般生物学。
例如 DNA,理解 RNA,理解小分子和蛋白质之间的相互作用,以及更大的复合物。抗体,还有很多我们可以扩展到基因组学中的东西。我们已经研究了基因表达,基因组的一部分与最佳不变性和非编码部分相关,对吧,或者像关键的顺式调控元件表达。
我们取得了进展,但我们并没有完全结束,对吧?所以我们在所有这些领域都做了很多工作,在材料科学方面,我提到了这个模型的名字,它能够预测 40 万种新的稳定化合物,这比已知稳定化合物的数量多了一个数量级,对吧?但是,你如何现在考虑某种化合物,然后推断出它们在特定应用中可能有用的特定特性,对吧?所以在这些学科中,我们并没有瞄准一次完美的解决方案。说这是一个主题,长远来看,是考虑科学研究方式的范式转变,并朝着更理性的建模、这种方法以及跟踪遇到的问题迈进。所以还有很多事情要做,我们只是试图专注于一些具体的领域,当新的领域出现时,如果在数据方面以及在价值结构方面都存在,那么审查它们就太棒了。
我没有像 VJ 那样做过那么多研究,但我确实做过一个暑期电池研究和材料研究,我们试图发现新的钠铁过渡金属材料。
我的夏天实际上是,我的意思是,当我上大学的时候,所以我并不先进,但我实际上是像找到一篇论文,记录了如何在实验室中合成这种材料,混合它,清洁一个小电池,在手套箱中进行操作并运行它。只是看看它有多有效。显然,在许多情况下,它非常无效。但每隔一段时间,我们就会发现一种材料,这完全是反复试验。当我看到像这样的论文时,以一种全新的方式大规模地做事情,更便宜,你不需要所有这些大学生日夜待在手套箱里,这太令人兴奋了。
对我来说,最终的目标是,正如我们所讨论的,我们正处于这段旅程的中间,这是一段技术旅程,这是一段文化旅程,这是一场文化转变,感觉我提出的宏伟目标是一个反复试验的事情,在系统生物学中。这还很远,对吧?这需要一段时间。
是的,但我们可以共同完成很多事情,十年、二十年。想想五年前、十年前、十五年前,十五年前。人们并没有那么多谈论深度学习,或者才刚刚开始。
所以,这意味着我们有远大的目标,但我认为我们正在为之奋斗。我认为现在只是在一步一步地建立这种力量。很高兴能再过五年与你们聊天。
希望更早。
我认为在过去几年中,有一件事非常令人兴奋,那就是基础模型的兴起。当然,人们对大型语言模型和基础模型非常兴奋。
如果你看看这将对科学产生的影响,现在在我与你谈论的大多数研究中,我们都在使用结构化数据,这些数据要么是收集的,要么是在某些情况下,是持续存在的工作数据,但随着基础模型的兴起,这开启了现在使用非结构化数据来馈送这些模型的可能性。因此,这确实为大规模注入科学知识到模型中打开了大门。这是一个非常令人兴奋的方向,我认为这将使许多以前无法实现的问题现在处于可行性范围内。
当然,在理解不确定性和某种污染方面存在挑战,所有这些技术问题都需要解决。但一旦做到这一点,我认为这将对所有用于科学发现的模型产生惊人的影响。所以这是另一个令人对未来感到兴奋的原因。绝对的。
而你刚才提到的所有问题也为人们提供了修复和参与整个生态系统的机会。所以这真的很棒,Pushmeet。VJ,谢谢你,正如你所说,让人们对即将发生的事情感到兴奋,因为我认为这两个实体的互动,在 2024 年有很多事情要做,成为其中的一部分?就像你说的,我们处于 90 年代的等价物中。所以 2021 年的人们会回顾。
在这个基金里绝对地。
如果您喜欢这一集,如果您坚持到目前为止,请帮助我们发展节目,与朋友分享,或者如果您感觉真的很有雄心,您可以在 latestpodcast.com/basiccincy 上给我们留下评论。坦白说,制作预测有时会感觉就像你只是为了避免说话。所以,如果您喜欢这一集,如果您喜欢我们的任何内容,请告诉我们。下次再见。