嗨,各位听众。欢迎回到No Friars。今天我们邀请到了ARC研究所的首席执行官、首席技术官和核心研究员,以及Avivo的联合创始人,来讨论他们发布的Tahoe 100数据集——这是有史以来创建的最大的单细胞药物扰动数据集,以及我们在AI生物学领域的现状,为什么我们需要虚拟细胞模型,而不仅仅是蛋白质结构预测模型。
以及我们何时才能最终看到机器学习在生物学领域应用增长带来的治疗成果。嗨,我是Johnny,我在Vivo从事单细胞RNA测序工作。我是Nima。我和Johnny一起是创始人之一。我最初是量子化学家,但现在已经转型为计算化学家,喜欢玩弄生物数据。
我们正在建设Vivo来真正做到这一点,预测化学物质如何在不同的生物环境中与细胞相互作用。有些人称之为虚拟细胞。这基本上就是我们正在做的工作。我是Patrick Hsu,ARC研究所的创始人之一,该研究所致力于生物学和机器学习的交叉领域,试图理解并最终治疗复杂的人类疾病,这些疾病是大多数主要致死原因。
我是Dave,ARC研究所的首席技术官,专注于计算生物学和为生物学构建新型AI模型。我是Hani。我是ARC的核心研究员。我与Dave和Patrick密切合作,推动我们的虚拟细胞计划。祝贺大家。今天是个大日子。让我们直接进入正题。什么是Tahoe 100,它的意义是什么?Tahoe 100是世界上最大的单细胞RNA测序数据集,它使得
基本上大量的机器学习应用成为可能,包括虚拟细胞等,但也使许多药物发现应用成为可能,并且从我所认为的我们作为该领域的现状来看,这标志着一种不同药物发现方式的开始,即了解如何制造药物,并将AI机器学习人员纳入其中。也许我还想补充一点。
在过去20年左右的时间里,人们在蛋白质结构、蛋白质功能以及药物分子如何与蛋白质相互作用方面积累了海量的数据点。但我们缺乏的一点是不同细胞在不同环境中的行为方式,以及这些细胞中不同基因在其他基因存在下是如何发挥作用的。
我们相信现在是这个时代的开始。您已经看到了基于过去二十年积累的数据集构建的蛋白质语言模型的出现。
但现在是真正拥有关于细胞数据、它们的功能以及它们如何与药物分子相互作用的数据的时代。正如John所说,tau确实是一个具有里程碑意义的数据集,它使我们能够真正测量药物如何与来自不同患者模型的不同细胞相互作用。这使我们能够构建类似于我们在蛋白质语言模型中构建的模型,但在细胞环境中。如果您仔细想想,实际上,就像在
在AI的历史上,它是由这些出现的数据集所中断的。如果您考虑一下Fei-Fei Li在2009年编写的ImageNet,以及它对推动机器视觉非线性飞跃所做的贡献,
我认为这里的希望是,通过生成数据集,特别是扰动数据集,使我们能够阐明细胞反应,我们将能够真正推动在细胞水平而不是蛋白质水平进行建模的能力。所以我认为这是其中一个时刻。
是的,很多人一直在讨论生物学的基础数据集是什么样的,对吧?这对于训练基于CASP(基于PDB数据的竞赛)构建的AlphaFold等蛋白质结构预测模型非常有用。但是,您如何为细胞和细胞动力学做到这一点,这实际上告诉我们生物学以及它在健康和疾病中的反应方式。所以我认为这些是向前迈出的核心步骤,我们希望提升我们的
我们研究生物学更高层次抽象的能力,而不仅仅是单个分子机器,而是它们在整个细胞环境中的运作方式。
也祝贺整个ARC团队。鉴于你们正在研究虚拟细胞模型和蛋白质结构预测、蛋白质语言模型,能否稍微解释一下为什么我们需要两者,以及我们在这两方面的进展如何?我认为我们正在学习这一点,对吧?我们通过在……上训练这些大规模基础模型来观察生物学的这些涌现特性。
核酸和我们今天将要讨论的这些虚拟细胞模型。而且,你知道,我们在内部经常进行这种辩论。所以,你知道,我有一种工程计算机背景。所以我思考的方式是,你知道,如果你考虑一下细胞,DNA存在于ROM(只读存储器)中,对吧?所以它为细胞编码。但是RNA存在于ROM中,所以它就像工作内存。
RNA不断改变其表达水平。它几乎就像20世纪80年代的那些图形均衡器之一,每个基因都有大约20,000个条形图。它会根据细胞所经历的情况不断调整其表达水平,无论是环境、压力、衰老、疾病状态还是健康状态。
我认为,我们在这个领域试图用这些数据做的是创建这些虚拟细胞模型,这在某种程度上是对细胞的虚拟CPU的推断。那么细胞如何响应输入呢?该输入可能是编辑的基因,也可能是药物的应用。然后这如何反映在转录组图谱中呢?
因此,CPU是对您想要构建的AI模型的一种比喻。然后,一旦您有了AI模型,真正有趣的是您可以开始提出反向问题,即,鉴于处于特定疾病状态并表现出特定转录组图谱的细胞,
我该如何扰动该细胞,无论是基因编辑还是药物,以将其扰动回健康阶段?我认为这正是这些数据的令人兴奋之处,它随后创建了这些模型,然后创建了这些工具,并有望加速药物发现,我还想快速补充一点,当我们考虑生物学中的不同领域时,我认为以及构建这些领域的AI模型时,其中有些部分
我们是数据匮乏的,有些部分我们是计算受限的。我认为,例如,对于DNA语言模型,再次感谢该领域以及几十年来对大量基因组进行测序,我们并不那么受数据限制,但是
计算,特别是上下文以及我们实际上可以消耗多少DNA以及输入的大小等等,这实际上是我们试图解决的一个很大的限制,但是当涉及到细胞状态模型时,这是一个我们绝对非常缺乏数据的领域,因为能够以单细胞分辨率分析细胞基本上是一项新技术,并且
在过去十年中出现,但在过去五六年中真正爆发。我们才刚刚能够以这种规模生成这种数据。这不仅仅是规模。也许是一件事。这不仅仅是规模。我认为这里的想法是,我认为我们有,我认为大约有
在SC Basecamp之前,这是一个与Tahoe一起发布的数据集,位于由Orc人员创建的虚拟细胞图谱上,该图谱基本上汇编了所有公开可用的数据。在此之前,我认为已经汇编在一起的人类细胞数量,如果您慷慨点,大约是4500万到6000万个单细胞数据点。
但规模是一回事。问题是,这些数据中包含多少信息内容。质量,是的。它们是否来自非常不同的生物环境?我们实际上构建了,你知道,这些虚拟细胞模型的早期版本。我们称它们为单细胞基础模型,或者您实际为它们使用的任何名称。我们看到的是,如果您实际上减少了1600万的数量,将其下采样99%,例如,
即使只使用1%的数据来训练您的模型,模型的性能也不会降低那么多。这意味着您实际用于训练这些模型的数据的信息内容并不惊人。因此,拥有来自非常不同的生物环境的数据
这对于为模型提供信息内容至关重要,以便它能够学习。这回到了Dave所说的内容,即扰动数据集。扰动使您能够创建新的上下文,使您能够创建新的细胞状态,然后模型可以从中学习,因此可用于不同类型的应用程序。然后我稍后会让Johnny谈谈也许
例如,创建这个扰动数据集的挑战是什么?在我们进入这个话题之前,我们能否先退一步,用外行人的术语来描述数据实际上告诉你的内容以及先前数据来自哪里,即使信息量不足?如果您查看过去十年生成的数据,它基本上是各种学术团体(例如我们)或……
一些行业人士生成的所有这些小型数据集。这有很多问题。首先,存在批次效应。因此,即使一个人在两天内进行相同的实验,他们的数据看起来也是相同的,即使是相同的细胞。因此,当您考虑尝试构建生物学互联网(这是构建这个chappy GPT时刻所需要的)时……
规模方面。规模方面,对吧?因为你需要大数据。如果我们没有大数据,机器学习就不会为我们做任何事情。您拥有一个标记不佳、批次效应严重的数据集,这对于AI来说可能略微有用,但还不够。因此,这个数据集基本上使过去十年所有现有数据的规模翻了一番。它涵盖了来自不同患者的50种不同的癌症模型。所以它是
来自50位不同患者的细胞,1200种药物治疗。这是一个非常深入且丰富的数据集,实际上没有批次效应。因此,我们认为这实际上不仅仅是机器学习的附加数据集,我们实际上认为这是第一个将使该领域的机器学习成为可能的数据集。
可能值得一提的是为什么是扰动数据,对吧?我认为关键是我们是从相关性(这是许多生物学研究的内容)开始的。它是描述性的,对吧?你有点盯着东西看。你试图看看当你这样戳的时候,还有什么变化,然后从关联变化到因果关系,对吧?这就是使用遗传或化学扰动能够让你有一个非常清晰的之前和之后,你有一组后果
因果变化实际上可以驱动特定的细胞状态。关键是以一种可推广的方式做到这一点。因此,您可以查看许多不同类型的细胞、许多不同类型的组织的表观遗传学
MEL模型为了学习细胞状态可能性的一般意义,将需要在该多样性数据上进行训练。我的意思是,从拓扑意义上讲,模型试图做的是在高维空间中创建一个流形,这是一个高维潜在空间。所以实际上……
为了探索该流形,模型需要看到许多不同的扰动和响应。然后,一旦你这样做,你就会拥有这个广义流形,它允许模型对在其样本中没有看到但仍然适合该流形的进行预测。为了使它更易于理解,在此之前公开可用的数据几乎全部来自健康组织。很少来自实际患病的细胞。
而且几乎所有数据,不是全部,几乎所有数据都是观察性的,这意味着你从肝脏样本中提取细胞,然后对其进行单细胞RNA测序。这基本上具有Patrick谈到的限制。它是否捕获了您试图建模的基因-基因相互作用的因果关系?第二个问题是它是否允许您模拟新的扰动
实际上会如何影响细胞,无论是基因扰动还是药物扰动,这实际上是Tahoe在这种情况下关注的重点,扰动数据集。从这个意义上说,就像Tahoe,我认为当您将世界上所有扰动数据集放在一起时,如果您慷慨点,大约是100万到200万个单细胞数据点。
我的意思是,这是公开可用的数据。我们不知道不同组织内部有多少数据。公开可用的是200万。Tahoe是10000万。因此,我们基本上已经大幅增加了这个数字。现在,当您将其与来自世界各地不同物种的大量观察数据集结合起来时,这基本上是档案所做的工作,他们
他们将整个数据集放在一起。事实证明,已经有2亿到2.3亿个单细胞数据点。他们试图尽可能减少这些数据集之间的差异,以便它们彼此一致,以便他们可以训练机器学习模型。这就是今天意义所在。我想对此进行更细致的说明。我认为关键是,如果您想要一个能够学习心脏、大脑、肝脏或骨骼中发生变化的模型,您需要能够跨所有这些不同类型的细胞进行训练。
但是,如果您只查看正常的健康细胞,对吧,您就不会一定了解流形和潜在空间在疾病中的变化,对吧?因此,能够查看许多不同类型的细胞
不同癌症中的组织类型是一种能够获得基础科学和药物发现真正关心的这些真正关键的疾病状态的方法。- 我们应该如何看待1亿个数据点或2.3亿个数据点以及此版本的规模?这足够有用吗?我们现在对缩放定律了解多少?- 简短的答案是一个非常困难的问题。在我们到达那里之前,我们不会知道。
我们可以从中获得启发的基本上是人类语言中的大型语言模型,以及像DNA语言模型这样的东西,我们有足够的数据来进行缩放定律。
我们在这个领域的位置,你知道,你大约需要1万亿个训练标记,这基本上是你想要达到的目标,对吧?总的来说,GPT-3我认为是5000亿个标记。ESM-3是7000亿个标记,所以接近1万亿。是的,所以1万亿听起来是一个舒适的目标。
那么问题就变成了,你如何计算标记?因为,你知道,细胞最终并不完全是句子。但是,你知道,基因及其表达,如果你将它们计算为标记?我认为我们收集到的这个集合,我认为让我们接近我们想要开始提出和回答这些问题的地方。
所以我认为,你知道,它为我们提供了几千亿个训练标记,用于我们现在拥有的模型架构。将其视为一个细胞集合,对于这些数据细胞来说,有2000到5000个基因。每个基因及其表达基本上是我们正在做的标记。因此,1亿个单细胞数据点类似于大约2000亿到3000亿个标记。
现在,这里有一个更细致的说明,那就是有多少标记实际上对模型有信息量。我没有以正确的方式提出这个问题,但你会理解它的要点。你如何决定在基因组景观中的哪个位置开始?你如何选择扰动?我认为你想要匹配,这与药物也一样,你想要匹配你的
你的追求,你的扰动工具包,就像你投向生物学的箭一样,针对你拥有的生物学。对于癌症来说,这意味着追逐与癌症相关的基因,影响细胞生长的基因。
影响DNA调控的基因,以及靶向关键癌症通路的药物。所以我觉得对于癌症来说,相关的问题。但是这个数据集,即使它主要基于这些类型的癌症化学扰动,它们也,这些通路是如此保守和基础,以至于它们广泛适用于神经科学领域或一般的免疫细胞发育。所以我觉得这真的……
将能够获取此数据、将其吸收、构建模型、然后训练,然后理解如何将该数据完全转换为不同的上下文的基础模型。是的,所以这是关键点
我认为这是Vivo拥有的真正特殊的事情之一,它是这个马赛克平台。因此,它使我们能够从许多不同的患者身上获取细胞,然后在癌症中,这意味着各种癌症,肺癌、胰腺癌等等,来自具有自身特殊遗传学的不同患者,并将它们组合成一个单一的马赛克肿瘤,然后我们可以重复地针对其筛选数百或数千种药物。
因此,这项关键创新基本上使我们能够一次测试数十或数百种癌症模型,而不是一次测试一种癌症模型。这使其成为一个真正可扩展的数据生成平台。这就是我们用来生成Taha 100的方法。当我们考虑实际上我们如何根据信息内容构建这些池时,我们希望通过涵盖许多癌症患者来最大化它,对吧?因此,在这个数据集中,我们根据它们每年的发生频率涵盖了最大的癌症类型。
但是,随着我们继续扩大这个数据集,我们希望考虑罕见疾病,也许更多地涵盖癌症领域的各个方面,这些方面是由机器学习告知的,这将帮助我们填补基础模型中的空白。另一个方向是化学空间。所以我想,如果问题是关于,你知道,我们如何优先考虑,但坦率地说,我们有,
当你生成50倍于公开可用扰动数据集的数据集时,这些数据集是在五年内生成的,而这些数据集是在大约十年内生成的,
你不需要那么优先考虑。在我看来,这就是它的妙处。你可以在化学空间中扩大规模。你可以在患者样本空间中扩大规模。这样,你就不必事先提出关于我必须向模型提供什么的假设。你可以根据需要生成尽可能多的数据。随着规模的扩大,你可以更加无偏见。完全正确。无假设、无偏见的数据生成。我认为,这正是这里的妙处。是的,让数据给你带来惊喜。让数据给你带来惊喜,完全正确。
我想谈谈这一点,我希望这里的人们是新一代生物学家的代表。但我认为,阻碍生物学进展的一件事是,我们一直都非常依赖假设。我认为原因是许多这些实验都很昂贵。它们需要大量的时间和资源。
但我认为现在确实是测序成本下降、单细胞样品制备成本下降、计算成本下降的时候了。我认为也是时候改变生物学中的这种思维方式了,变得更大胆一些,你知道吗?在数据生成和您组合的样本类型方面,要更自由一些。所以,是的,我认为,我的意思是……
这是局外人的看法。我想谈谈在生物学领域更有雄心壮志以及公开发布这些数据,但我认为我们应该退一步,用外行人的术语来谈谈该平台的功能,如果我说错了任何内容,您可以更正我。所以你有这些肿瘤……
是来自不同患者的细胞的马赛克,代表着大量的患者遗传变异。然后,每只小鼠实际上都可以用不同的药物进行治疗,之后你提取的信号是药物对抗这些不同患者类型的相互作用。没错。好的。没有人认为这很疯狂。
不疯狂,因为这每天都在我们的实验室里发生,但这确实是科幻小说,老实说。太好了,太好了。我只是想,例如,将其简化为对你说它是一个具有超级肿瘤的平台,你可以从中提取所有这些数据时,与……相比,它的效率有多高,这真是令人难以置信,好吧,我们将观察,你知道,一次一种患者类型。我认为这实际上是一个非常有趣的观点。如果你映射
过去50年生物医学研究中每个实验的标记数量。它看起来就像所有投资者和创始人真正了解和喜爱的曲棍球棒一样,只是向上和向右。
我认为我们思考科学的方式正在改变,对吧,基于这一点。而且我认为,今天关于假设驱动型研究与无假设型研究存在激烈的讨论,对吧?我们应该进行机制研究还是大规模分析?但老实说,我认为这些东西会随着规模而消失。是的。
完全正确。你不需要在这两者之间做出选择。是的。也许这就是我对机器学习和生物学这个时代的看法,即迄今为止生成的大多数机制数据实际上都是为了提出非常具体、范围非常明确的问题而制作的。每个实验中更多的标记只是这样做的方式。
我的意思是,也许我可以换一种说法。我认为在生物学中,我们所做的是将人类视为吸收信息并提出假设的基础模型,对吧?而且,你知道,但现在我们实际上想要超越这一点,因为人类当然会带有他们自己的直觉、偏见等等。例如,在UCSF,我们经常……
只是说,你知道,我们使用我们的一些药物化学家(如Kayvon Shulcat)作为神经网络的最后一层,对吧?他们已经建立了这种直觉,你知道,我通过这个AI模型生成的这种化学物质,它实际上看起来像真实的东西吗,对吧?是的。他们甚至无法用语言表达为什么他们认为。是的。
它可能是一个好的驱动程序,也可能不是。人们批评这些模型会产生幻觉。但如果你仔细想想,科学研究的过程就是涉及幻觉。这就是创造力。所以你们都是这个领域Sutton更好教训的支持者。将直觉融入模型或过程是不对的。我们只需要扩展数据。至少我们希望你不需要在那里做出选择,你知道吗?
我们在生物学中看到了蛋白质的缩放定律的证据,对吧?这已在蛋白质语言模型中得到证明,在DNA中也是如此,这就是我们在ARC的EVO系列模型中所展示的。我们还看到了推理时间缩放定律,这在我们最近的研究中。因此,有一些早期迹象表明很有希望,尽管,你知道,我们需要良好的基准,并且我们将不得不随着时间的推移跨不同数据类型来观察这一点。
对我来说有趣的是,如果你在这个领域待了足够长的时间,我来自量子和计算化学方面,每次你从A领域取得一定的成功并想将其转化为B领域时,许多人,包括我们自己组织中的人,都会列出100个不同的理由,说明A领域,学习成果不适用于B领域。
但你每次都会感到惊讶。然后,下次当你尝试用B2C做同样的事情时,同样的列表实际上就开始出现了。在某种程度上,我认为被低估的一点是,那些学习人类语言的相同模型,它们正在学习结构生物学的语言。然后通过Evo工作,他们正在学习生物学的语言。
DNA,你知道,这太不可思议了。我不认为这很简单,顺便说一句,如果你,如果你再次在这个领域待了足够长的时间,你知道很多人都在说,不,不,这些蛋白质语言模型永远不会在其中发挥作用,需要领域特定的模型来模拟这种现象。所以,这样,我认为我认为这确实是我们要带到这里来的精神,当蜂蜜说我们应该利用这些模型的学习成果来实际转化到这里时,
这正是我们应该做的。我们应该考虑什么有效,至少尝试在这些新领域中使用它。我们正在讨论的领域以及Vivo感到兴奋的领域,以及Arc的虚拟细胞部分感到兴奋的领域是系统生物学的语言。你应该做的第一件事是尝试在其他领域中有效的技术在这个领域中。也许它有效,也许它无效,但如果你不尝试,你永远不会知道。
我的耳朵里充满了音乐,因为至少在我们投资的基金中,这是我们唯一真正坚信的事情之一,即许多这些技术在人们还不确定的地方有效且可扩展,通常情况下,我们不会拥有传统类型的发现和公司建设方面的专业知识。但实际上,它们似乎非常普遍适用,对吧?
我认为这是一个很好的过渡,可以引出一个问题,你知道,你们正在开源数据。为什么要这样做?是的,我们在Vivo生成了数据,Vivo是一家私营风险投资支持的公司,一家初创公司。因此,Johnny和我,当Tahoe的想法最初出现时,Johnny告诉我,是的,Nima,这是一个机会。我们可以生成1亿个单细胞数据点。我说,可以吗?
我说,是的,是的,我们可以。他说,好吧,让我们去做吧。我想在我们与Johnny、Hani和我是Vivo的联合创始人进行透明地交谈时,就在几个小时内,我们说,好吧,让我们去做吧,让我们开源它。我们为什么要这样做?首先,我们想在土地上插一面新旗帜。我们想表明城里有了新的游戏。实际上,作为社区,作为领域,提高我们的游戏水平是可能的。
我们想展示这一点,以便人们真正摆脱这种数百万个单细胞数据点、10万个单细胞数据点、观察性数据。我们提高了他们的水平,实际上达到了更大的规模。这就是第一点。第二点,我们想要——所以我们公司的D&I非常非常小。这是一个由超级明星组成的小型团队,而不是雇佣100人。矛盾的是,开源实际上允许我们做到这一点。
在某种程度上,我认为我们与Dave谈论过Tahoe。那是在新年夜的前一天。那是在圣诞节和新年之间。然后Dave对此非常兴奋。然后我们的团队对此感到兴奋。如果没有开源方面的内容,它就不会那么令人兴奋。整个社区都对玩这些数据感到兴奋
兴奋地玩这些数据,告诉我们这些数据的好处,这些数据不好的地方。这基本上允许我们,我们内部的三四个人组成的团队,让我们保持这种状态,并基本上将所有志同道合的人(他们拥有相同的使命,即构建虚拟细胞)带到一起,帮助我们完成这项任务。对我们来说,我们的想法是我们将消除这样做的主要瓶颈,我认为每个人都一直在说,那就是数据。
我认为这其中的偶然性是,Arc完全致力于使命驱动的科学和推动科学进步。我们正在构思创建我们正在称之为,并且我本周正在启动的东西,称为Arc虚拟细胞图谱。所以那里的想法是,我们真的可以找到高质量的精选数据集,并将其发布到世界各地,以加速虚拟细胞建模吗?然后我们开始聊天,就像,你有什么?
这简直令人难以置信。所以我们本周实际组装的是这个新的图谱。因此,在某种程度上,这场演出的明星是Vivo Taho 100数据集。我们还在用观察数据来补充它。因此,我们创建了一个名为SC Basecamp的东西,
你几乎可以把它想象成谷歌爬虫和索引。因此,我们构建了这个代理,它进入互联网,基本上挖掘公共单细胞测序RNA数据,然后以非常统一的方式对其进行整理,并产生非常好的观察数据集。大约有2.3亿个细胞。将其添加到Taho 100的1亿个细胞中,您现在拥有3.3亿个细胞。因此,对于对细胞水平建模感兴趣的世界各地的科学家来说,这是一个非常令人兴奋的资源
在细胞水平上,并且非常互补,你知道,拥有这个观察数据集,你可能可以在预训练模型上使用它,然后是来自TAO-100的扰动数据集,这允许你将这些动态引入并使模型更丰富、更具预测性。
我们对Arc和社区的AI科学代理非常兴奋。我认为今天的能力还处于早期阶段,但我认为我们想展示一个例子,说明它如何做一些非常有用的事情。我认为现在很清楚,基本上所有干实验室工作流程都将通过代理或副驾驶实现自动化。这通常是计算生物学家团队会努力完成的事情。
我们的核心见解是,序列读取档案是所有来自下一代测序的生物数据最大的存储库。例如,你获得NIH的资助,你将所有这些数据发布到网上,或者你发表在期刊上,你将所有这些数据作为期刊出版物的一部分。但是这个
非常分散,注释不良,非常庞大。对您以统一方式提交数据没有任何要求。没错,它非常混乱。因此,我们构建了这个代理来爬取所有这些数据,收集它,组织它,处理它,并在这样做的过程中,基本上隔离并消除许多以前的批次效应或数据偏差。
是的,我的意思是,我想补充一点,现实情况是这些数据集是随着时间的推移生成的,可以追溯到十年前。因此,工具发生了变化,工具的版本发生了变化,基因组构建也发生了变化。因此,仅仅通过获取……
数据集并整理在一起和收集在一起,你就会用这些分析效应、批次效应来感染和污染你的数据。所以我们的想法是……这些是整个领域的基础数据集,对吧?人们使用、解释并在此数据之上撰写论文。是的。
是的,就是这样。我的意思是,我们的想法是至少消除这一点。我的意思是,有很多技术实验批次效应,但当然,在这段时间内,试剂的化学性质发生了变化,所有这些都发生了变化。但至少我们尽我们所能去消除分析部分。我们实际上对这在数据中有多么明显感到惊讶。消除它实际上非常有帮助。也许在vivo方面。
这个关于数据集感染的整个想法,因为这个巨大的批次……我喜欢这个短语。也许,Johnny,你想谈谈有多少人实际做了实验?这就像……
- 是的,就像Tahoe。- Tahoe?- 是的。- 好吧,最终实际上是Vivo的四个人。我们认为最终花了三天时间。- 想想杠杆作用。这很好。- 是的。- 你知道为什么这非常重要吗?因为有时我问Honey和Johnny,比如,我不知道,药物A对细胞系X有什么作用?生物学家在我们手中使用这个词,它这样做。这就是我说的,我的意思是,Dave,你告诉我,我们来自不同的背景。
计算机科学家不会那样说。在我的环境中。这是一种情况。实际上存在一种并行关系,但它也不是很好。没错。所以我认为这就是Johnny在那里构建的东西的天才之处。这实际上是由极少数人完成的。
自动化将在你甚至没有进行太多自动化的情况下将其扩展到一定程度,因此从某种意义上说,这种事情的美妙之处在于你知道Johnny在构建Tahoe时所设计的正是这一点,少数人,少数人做着完全一致的工作,进行60,000次实验。这是一个拥有1亿个单细胞数据点的,但它实际上是60,000个药物患者相互作用、药物细胞系相互作用。我有点做过四个人,我认为这只是减少了Johnny所说的数据集感染的感染性
数据集感染的方面。历史上第一次有机会让科学家和企业家使用这个数据集并创建这些虚拟细胞模型。你如何判断这些模型的质量?
我的意思是,核心思想是它的预测能力,对吧?因此,你取一个细胞,扰动它。你可以从基因的角度来做,你可以抑制或上调基因或使用药物,然后你观察反应。因此,模型的衡量标准是它预测我们所说的差异表达基因的程度。
现实情况是,今天的最佳模型在这方面非常糟糕。就像我们所说的DEG的可预测性,大约在10%的范围内。今天是否有公认的基准?没有,但实际上我认为这是行业将从中受益的另一件事。这是一个很好的观点。但是,你知道,如果你考虑我们想去的地方——
我们的一个猜想是,模型表现不佳的原因之一不仅仅是模型结构。我们在机器学习领域了解了很多丰富的结构。问题是数据质量。因此,希望通过这个Newark虚拟细胞图谱和Taha 100,我们终于有了起点,我们可以构建丰富的模型并获得这些虚拟细胞模型的高预测值。这就是为什么这是一个真正令人兴奋的时刻。
也许值得直截了当地说。我们为什么甚至关心虚拟细胞模型?我们有真实的细胞,对吧?为什么不在这些细胞上做实验呢?我认为最终生物学非常缓慢,对吧?我们房间里的所有人以及你们许多观看这段视频的人
可能都尝试过拿起我的宠物,将透明液体从一个试管移到另一个试管,培养细胞,制造动物,并处理实时发生的生物学现象,对吧,所以你知道,这是一个有趣的故事,在我博士学位的最后一年,我的导师
试图说服我开始一个衰老项目,对吧?这将涉及让动物衰老,你知道,大约两年。你知道,这是一个实验回合。正如你所想象的那样,我拒绝了。我说,先生,我可以毕业了吗?但这实际上就是发生的事情,对吧?这实际上只是我们的劳动力保留。对,对。你受到生物时间的限制,这对我来说来自工程背景的人来说完全是疯狂的。
并且对神经退行性疾病或任何其他需要时间才能发展的领域都非常重要。是的。因此,你知道,这种大规模并行化的计算机模拟听起来很棒,但它需要准确。准确率为10%。你只是在模拟噪声,对吧?
因此,你知道,我们如何从一个主要尊重实验的学科转变为更像物理学那样,理论推动许多进步的学科?我认为这些虚拟细胞模型是实现这一目标的核心手段。
那么,你能更具体地说明一下吗?如果这些虚拟细胞模型有效,并且,你知道,我们甚至还不知道如何衡量它们,因为它们今天以任何有成效的方式都不存在。但如果它们应该存在,那么,科学家、生物技术领域或患者会期望获得什么?也许从药物发现的角度来看,我可以谈谈,从更科学的角度来看,ARC的人。因此,我们在Vivo关注的是预测,比如,
一种新的化学实体如何与来自不同患者或患者模型的细胞相互作用。这确实是它的核心。帕特里克谈到了这种计算机模拟。我可以在计算机中预测这种新的化学结构吗?顺便说一句,药物是化学结构。我希望你不会对此感到惊讶。这种化学结构是否会将患病细胞
比如癌细胞,从患病状态转变为健康状态,或者对于癌症来说,实际上是杀死它,从字面上看。如果我可以预测这一点,那么我在设计有效地做到这一点的新化学物质方面的能力,它们不会,你知道,它们会杀死癌细胞,但它们不会杀死健康细胞等等,会大幅度提高。
这就是我们想做的。从字面上看,这就是我们正在生成的数据来训练这些类型的模型。还有什么要补充的吗,Jony?是的,我完全同意。我的意思是,我们未来愿景和路线图的一个重要部分是,我们认为会有一个时刻,从虚拟细胞模型中,会产生一种药物。基本上,这种药物实际上会使健康的患病细胞再次变成健康的细胞。
我认为这是目标,这将重塑我们进行任何药物发现的方式。我想补充一点,有两个方面的普遍性需要考虑。一个是细胞维度,另一个是化学维度。在细胞方面,每种疾病都是独一无二的。存在相似之处。存在驱动疾病的癌症突变块等等,但也存在非常多的个体差异。
你可以观察来自患者的细胞,但你不能对每个患者、每个出现的肿瘤做同样的事情,这些人都在Mosaic中这样做。所以我们的想法是,使用虚拟细胞模型,你可以利用这些经验教训,然后将它们应用于你可以在患者身上进行的所有这些新的观察。
所以这是一个维度。另一个维度是化学物质。在计算机库中,你有数千万种化合物和生物制剂,如果你真的用心去做,那么生物制剂是无限的。但大多数这些化合物从未存在过,也永远不会存在,因为它们没有用。因此,一个可以遍历这个真正巨大的化学空间的模型
去寻找,你知道,你需要关注哪一部分,然后去合成和检查,这将极大地促进发展,因为其他人,你知道,拥有行为良好的库,你知道,几十万个库,他们使用片段并试图将它们组合在一起。因此,人们设计药物的过程是一个缓慢的筛选过程。这将使我们能够真正超越整个管道。
90%的药物在临床试验中失败。因此,你知道,我们在制造药物方面非常糟糕,对吧?我认为这意味着两件事。首先,也许我们的药物物质不是很好,就其效力、结合靶标的能力、毒性、药代动力学特性而言,所有这些事情,对吧?你知道,承认,你知道,这些事情并非最佳。
另一个是我们可能使用了错误的靶标。
我认为,你知道,这些虚拟细胞模型的想法是,你将能够显著减少正确靶标的搜索空间。然后你实际上可以,你知道,真正专注于制造正确的化学物质或化学物质药物组合,以在正确的细胞中进行正确的改变,对吧?这就是为什么机制和药物发现如此紧密地交织在一起,并且
这就是我们真正需要这些模型来帮助加速的原因。这非常重要,因为这是除了每个人都在谈论的蛋白质语言模型之外,我们还需要虚拟细胞的原因。我认为我之前说过,蛋白质语言模型说的是结构生物学的语言。
蛋白质结构是什么样的,它是如何折叠的,它是如何与之相互作用的?你如何对接配体?没错。一个小分子药物。没错。或者抗体如何与另一种蛋白质结合?这是一个结合问题。结合是指你试图查看一种化学物质是否与另一种化学物质结合。
但生物学更复杂。再说一次,我是一个计算化学家。我是一个量子化学家。我希望,实际上我用我的博士学位来构建基于物理学的量子力学模型,来模拟这些类型的结合。但事实证明,生物学要复杂得多
更复杂。我们试图击中的蛋白质靶标有一个背景。它是细胞的一部分。对于癌症来说,细胞是肿瘤的一部分。肿瘤是更广泛的生物系统的一部分。因此,在我看来,虚拟细胞将使我们能够超越结构生物学的语言,并进入系统生物学的语言。
并了解药物如何与更广泛的生物系统相互作用,而不仅仅是我们已经用蛋白质语言模型破解代码的一个靶标。那么我有一个更高层次的系统问题。我们处于单细胞阶段。那么多细胞和聚集体以及细胞器呢?将来所有这些都可能实现吗?
是的。我的意思是,我认为虚拟细胞上的第一件事,你知道,方向是什么,或者任何建模都是什么抽象的正确级别?因此,我认为我们房间里的人认为抽象的正确级别是在转录组水平,因为你拥有这些非常复杂的基因通路。因此,每当细胞改变其环境、发生反应时,它都会反映在转录组中,并且确实反映在转录组中。所以我想
所以我认为这是第一个问题,即使在一个细胞内,什么是正确的抽象?因此,我们认为这具有,你知道,因为如果你考虑一个细胞,它就像一个非常精致的机器,并且,你知道,你可以制作一个任意复杂的模型,但我们相信这种基因水平是正确的水平
进行建模。我认为超越这一点,是的,你可以创建非常先进的模型。我认为你看到人们在做类固醇和类器官。因此,你将细胞混合物混合在一起,然后运行它们,并试图模拟,比如说,心脏组织或脑组织。真正有趣的是,也许你有一个含有20,000个细胞的类器官,并且
你仍然可以应用我们正在讨论的技术,例如进行这些药物扰动并将它们应用于这些细胞或这些基因扰动,并观察反应。因此,现在发生的事情是,你超越了单个细胞,但你也在模型中捕获了细胞间的动态。但我认为它自然地从单细胞到这些更复杂的多细胞。最后一个问题。
对此做一个小的评论,那就是我们正在建模的是单个细胞,但这种上下文依赖性也捕获了来自环境的影响。所以John是,我们拥有的模型实际上是这个Tahoe特定实验中的球状体模型,但我们也有体内模型,我们有人的小鼠,你知道,它们捕获了小鼠的一些免疫系统。所以从某种程度上来说,是的,你
你正在构建一个细胞的计算机模型,但如果一个模型很好,它可以在不同的生物环境中模拟它,在这种免疫环境中,在这种肿瘤与另一种肿瘤中,在这种突变与另一种突变中。所以我们称之为单细胞。
但拥有如此多的单细胞数据点的整个想法是,你可以在不同的环境中拥有它。是的,这似乎是一个非常重要的细微差别。是的,环境的信息通过细胞过滤。因此,如果你以足够的精度观察细胞,你甚至可以预测环境中有什么。它应该在模型中表示。你也可以添加空间数据。哦,是的,当然。
好的,我有一些热门话题问题要结束。Nima,我将从你开始,因为我们一直在热烈讨论为什么对你来说Vivo成为平台公司而不是像99.9%的生物技术公司那样的单一假设公司非常重要。有什么区别?我认为区别在于你组建的团队和你拥有的雄心壮志,你知道吗?
单一假设公司基本上是这样的想法,Honey谈到的基础模型基本上是我们提出一个假设,然后我们在不同类型的实验中对它进行测试,并且我们基本上非常强烈地激励自己通过某种方式,比如一家建立在这个假设基础上的公司。他们非常强烈地激励自己使这个假设有效,并且
你实际上在生物技术中经常看到的是,在你对三个不同的患者样本进行测试后,你将药物带到临床。如果你实际上是一家平台公司,这意味着你试图做的是拥有足够的假设,并以一种无假设的方式生成新的假设
这不会让你依赖于一个假设。因此,它允许你在寻找新药或寻找治疗疾病的新靶标的过程中更加科学。我认为这就是为什么我认为核心的原因,我们最初有很多假设要追求,只是构建,你知道,一种资产,两种资产类型的公司。但我们决定将其打造为一家平台公司,因为它使我们能够在我们实际决定带到临床的东西方面更加严格。
最近有很多关于另一个问题的新闻,那就是中国生物技术公司的崛起。对于这里的研究界核心成员来说,这是一个威胁吗?你怎么看待它?好吧,他们的成本基础肯定更有竞争力。我认为生物技术和制药行业饮水机旁的许多讨论是,他们如何能够以这种速度做到这一点?
他们能否以这种成本做到这一点?为什么他们的数据包看起来这么好?他们有安全性,有毒性,他们有所有这些支持IND的研究。竞争非常激烈。我认为人们对管道的效率以及主要制造所有这些不同抗体的能力感到非常惊讶。我认为这对行业来说是一件好事。我认为每个人,包括患者,
投资者,生物技术公司本身都希望降低成本基础,对吧?我们希望能够更快地制造有效的分子。我认为所有这些都会,你知道,在系统中竞争,以能够降低目前非常高的成本基础,你知道,在美国,对吧?我认为目前的核心挑战之一是我们有
各种各样的服务和合同研究合作者,你可以尝试将它们连接在一起。有,你知道,以前虚拟生物技术是一个非常流行的概念,对吧?人们发现,实际上,当你尝试这样做时,即使它在纸面上看起来非常好,它也极其缓慢,对吧?
然后人们尝试了另一种方法,那就是让我们完全垂直整合,并拥有所有东西。好吧,这非常昂贵。显然,答案可能是中间的更符合黄金分割率。我们需要真正称职的供应商和合同研究组织,他们了解药物发现和开发过程。然后我们需要各个公司能够以真正资本效率高且精简的方式运营。我认为
行业目前正在围绕这些变化进行重塑,以找出构建初创公司、构建药物的正确方法。是的,我完全同意。我认为这是一个重要的时刻。我认为我还没有看到的一件事是我们实际上承认了这一点。它只是突然出现在我们面前。我认为这是因为
我认为美国是创新中心,但我认为我们需要对生物技术中的这一点更有意图。我认为你在科技领域看到了创新。我认为这被视为一种口号。我认为生物技术领域的创新实际上被视为中国零公司和企业擅长的事情。我认为我们发现这实际上并不是创新。
我的假设是,我们正在努力做的事情,我们正在将大数据和人工智能真正融入我们进行生物学的第一层。这就是我们领域应该是什么样的创新。如果我们作为社区不推动这一进步,我们就不可能在行业中拥有这种创新。Johnny说它打在了我们的脸上。它让我们大吃一惊。但实际上,三年前Johnny和我第一次谈论Sol vivo时,
当我们考虑Sol vivo时,实际上,Johnny正在,他实际上正在告诉我中国正在发生的事情,以及围绕我们认为非常重要的许多事情的商品化这个整体论点,你知道,比如分子设计等等。所以从这个意义上说,我同意,我认为有,
有两种方法可以做到这一点。监管控制,试图游说政府和所有其他机构,以限制我们可以与中国公司互动的程度。这是另一种方法。使其成为我们生态系统的一部分,并改变我们对商业模式的思考方式,以及我们组建团队的方式,正如帕特里克所说的那样,你知道,我们是建立一个拥有1亿美元资金的完全整合团队,还是像我们在Vivo那样拥有14%的小型团队?我认为这些是我们应该考虑的事情。实际上,就像,我想把这变成一个更大的声明,它更
里根式的。我认为生物学领域迎来了一个早晨,你知道,就像有一个不同的,我们应该在这里玩一个不同的游戏。如果你想坚持旧的做事方式,那将行不通。旧的方式是什么?有很多计划。你知道,如果我有感觉,几天前我们和Dave发短信谈论过这个。
如果我有,我不知道,每次某个大型组织宣布这个非凡的令人印象深刻的事情,他们说,哦,我们将在三到五年内提供给你,老实说,我现在会非常富有。这是生物学的精神。你宣布这个巨大的事情,你说你将在三到五年内做到。不,我认为现在是时候了。我们有工具。
现在是构建的时候了,现在是做的时候了。这就是Evo 2在几个月内创建的方式,从第一篇Evo论文到发生的事情。这就是Tahoe创建的方式。第二部分是小型、超级专注的超级明星团队。大型组织,垂直整合的组织,不仅仅是资本密集型。它们实际上效率也很低。他们进展非常缓慢。你实际上会在大量的官僚主义中让他们陷入困境。
我认为第三点与这种否定论调有关。同样,在生物学领域你想做的任何事情中,都会有很多非常优秀的生物学家告诉你为什么这行不通。我认为这种情况必须改变。我们必须改变它。我们必须对此有不同的看法。我们必须尝试一些事情。现在我们有了这样做的工具。关于最后一点,当我与制药公司的人交谈时,他们会说,哦,人工智能和药物研发,非常有趣。
但你知道吗?实际上,我并没有在我的顶级预算中投入太多资金用于药物研发。大部分资金都用于临床开发。因此,他们中的许多人实际上对诸如自然语言工作流程之类的事情更感兴趣,这些工作流程可以总结临床试验文件(这些是大量的监管文件),并对其进行总结,以便更容易编写、阅读这些文件,以及更普通的 AI 事情。分层队列。是的。
是的,而且……降低该周期部分的成本。我认为随着这些模型的改进,他们将会看到,虚拟细胞模型实际上可以帮助你找到正确的靶点,这样你就可以将炮口对准正确的方向并测量……
两次,然后切一次,那就是该行业的成本基础将会下降,而准确性应该会提高。我真的很高兴你们两位都提到了那些反对者,因为如果你们不提,我就会提。我认为我已经……
向生物技术公司推销人工智能至少十年了,对吧?而且我们也没有看到很多,而且将治疗方法推向市场也有自然的生命周期。所以假设你实际上需要 11 年以上的时间,但如果你要给更广泛的受众留下一个关于为什么这是真的的单一说法,显然,与例如十年前相比,方法有所不同,
十年前可能是计算机视觉和消费者规模的测序数据,对吧?但是为什么现在这会奏效,或者我们什么时候才能真正开始看到这些机器学习方法的治疗效果呢?我的意思是,我会回到机器学习领域的类比。我们有,你知道,我们称之为人工神经网络,很长时间了。然后人们就会纠结于,哦,这个感知器无法模拟异或门,或者其他什么。感知器,这是什么,90 年代?没错。没错。
它有点像,你知道,在一段时间内反复出现。直到,你知道,我们的计算能力提高了,数据增加了,然后,你知道,更复杂的模型,你才会达到这些非线性的拐点,对吧?我前面提到过,你知道,2009 年的 ImageNet 时刻,当时发生的事情是它推动了
卷积神经网络的发展。我认为 AlexNet 是真正指明方向的模型。在那之前,你知道,你会认为,哦,只有人类才能高质量地识别图像。计算机永远做不到。当然,现在我们知道计算机比人类做得更好。所以我认为人工智能和生物学也是一样的。当我看到,你知道,相对较新地进入这个领域时,当我看到单细胞测序的能力时,
如果你不是生物学家,这简直令人难以置信,但我们可以以单细胞分辨率来看待它的表达如何随时间变化,这太不可思议了。你可以利用它,然后你可以生成大量关于它的数据,然后你可以使用这些更复杂的模型和模型训练,突然之间事情就发生了。如果你看看 EVO2 模型,我们用 9.3 万亿个细胞训练它
但我们没有告诉它任何关于 DNA 的信息。我们只是说,这里有很多地球上的 DNA,你知道,我们可以找到的每一块 DNA。然后模型学到了什么?它开始学习各种各样的东西。例如,它知道核糖体结合位点在哪里。它知道什么是密码子简并性。然后我们展示的一件事是它实际上可以预测,呃,
你知道,BRCA1 变体的致病性,众所周知,它会导致乳腺癌和卵巢癌。如果我没记错的话,它在 ROC 曲线下面积为 0.94,看着蜂蜜。我的意思是,这太不可思议了。我们从未教过它任何东西。它只是学习了这些东西,零样本学习。所以我认为我们现在正处于这个拐点。我认为我们所有人都在某种程度上,你知道,会同意这一点,我认为我们现在正处于这个时间点,我们将看到这个拐点,它将是关于,它将是数据,对吧?这将是我们昨天和我们本周开始的地方之间的区别。这将是数据。所以我们是在 GPT-1 和 GPT-4 之间吗?在生物学中。但你们认为我们处于什么位置?我就像,我更像 2。是的。我们就像,
正在开发 GPT-2,但我们就像,我们没有足够的数据,伙计们。我们需要更多的数据。我认为如果你深入一点,谈论不同的领域,我认为在蛋白质模型中,我们已经超过了 GPT-3。当涉及到单细胞模型和虚拟细胞模型时,是的,我认为现在是 GPT-1 到 2。我认为我们更接近 GPT-1 而不是 2。是的。
这是一个非常令人兴奋的时间表,尽管如此,如果你只是采用其他领域的进展和进展速度并将其应用于此。但我认为困难正如你所说,对于 GPT-4,你立即知道你得到了什么。
但是如果我们达到了 GPT-4 的,你知道,例如细胞状态模型,用于药物研发,正如你所说,需要一些时间来证明这一点。我认为在药物研发中,很多小数字总是会占据主导地位,对吧?你知道,一个将你的成功率从 10% 提高到 30% 的平台是惊人的,但它仍然是 30%。你需要走运。对。
- 对,你仍然有药物开发周期,这是一个 10 年的顺序。所以你仍然必须等待它来证明自己。- 在一个 10 年的滚动窗口中缓慢上升。- 没错。- 这是一场音乐会。- 如果我们是六个乐观主义者,那么我会说我们将只处理它,系统人员,我们将只把它当作一个系统来处理。如果这是一个在开始时非常严重的令人衰弱的瓶颈,那么希望它是一个突破。我认为这是一个很好的结束语。Connie、Dave、Patrick、Nima 和 Johnny,非常感谢你们这样做,并祝贺你们。是数据。
在 Twitter 上关注我们 NoPriorsPod。如果你想看到我们的脸,请订阅我们的 YouTube 频道。在 Apple Podcasts、Spotify 或你收听的任何地方关注该节目。这样你每周都会收到一集新节目。并在 no-priors.com 上注册电子邮件或查找每集的文字记录。