人工智能已经推动了生物技术的突破——但现在,人工智能的进一步发展也即将推动药物发现。Sarah Guo与Chai Discovery的联合创始人Joshua Meier和Jack Dent进行了座谈,他们的新推出的Chai-2设计了定制的抗体,其与目标结合的比率高达惊人的20%。Jack和Joshua讨论了Chai-2在发现用于制药行业的抗体方面的成功率的影响,结构预测如何在使模型发挥作用方面发挥关键作用,以及未来使用该模型优化其他分子特性的潜力。此外,他们还讨论了他们认为生物科学家应该学习什么才能最好地利用Chai-2的技术。
00:00 – Joshua Meier和Jack Dent介绍 01:09 – Chai Discovery的起源 06:12 – Chai-2模型 10:13 – 为Chai-2指定目标的标准 13:12 – Chai-2模型的工作原理 16:12 – Chai-2产生的词汇 18:15 – 对Chai-2影响的希望 20:33 – Chai-2模型的接受度 22:16 – 湿法实验室筛选和生物技术的未来 27:08 – 优化其他分子特性 31:37 – Chai未来的投资方向 36:20 – 生物科学家应该学习哪些Chai-2知识 40:23 – Jack和Josh如何适应生物技术领域 43:38 – 平台投资和Chai-2 46:53 – Chai Discovery的规模化 48:21 – Chai Discovery的招聘 49:09 – 结论</context> <raw_text>0 嗨,听众们。欢迎回到No Priors。今天,我很高兴能与Josh Meyer和Jack Dent交谈,他们是Chai Discovery的两位联合创始人,也是Meta、OpenAI、AppScience、Stripe的前生物、人工智能和工程领导者。本周,Chai发布了其行业领先的Chai 2零样本抗体发现平台。
其核心是一个生成模型,可以设计出与指定目标结合的抗体,其命中率是先前计算方法的百倍。我们将讨论他们的产品、Chai的下一个前沿领域、他们为什么看好生物技术,以及为什么最有效的抗体工程师很快就会成为专业的提示工程师。Jack,Josh,祝贺Chai 2发布。感谢你们的参与。欢迎。感谢你们的邀请,Sarah。我们很高兴来到这里。很高兴来到这里。
Josh,我先问一个问题,你和团队中的一些科学家在不同的环境中已经从事人工智能药物发现工作大约十年了。我也关注这个领域超过十年了。我们还没有看到通过这些人工智能计算技术成功上市的药物。
你知道,使用这些AI计算技术。是什么让你相信?为什么你们在那个时候成立公司?这是一个很好的问题。我们很多人在这个领域工作了一段时间,而且,你知道,并没有成立公司,因为它实际上是一个研究理念,我认为直到最近才出现。有一些迹象表明,总有一天这会奏效。
但这并不是公司的发展时间表,对吧?你不能真的想着十年后事情会成功就成立一家公司。你也不想在事情已经成功之后才成立公司,从而错失良机。所以最佳时机是,好吧,我们可能有一到两年时间来真正启动这项工作。
我们在成立公司时做了一个赌注,那就是它会成功。有几件事促成了这个决定。首先,我们押注结构预测、蛋白质折叠会变得更好。所以很明显,蛋白质折叠在几年前,大约在2020年左右就被认为是解决了。你有了AlphaFold2的突破,能够以实验精度预测蛋白质结构。
但这只是一次一个蛋白质结构。所以我们可以取一个单一的蛋白质序列,然后我们可以看到该蛋白质的样子。这对基础生物学非常有用。因此,我们可以了解我们正在研究的蛋白质是什么样的。但是,如果你考虑药物发现,这是我们在Chi Discovery真正关注的领域,在药物发现中,你需要了解多个分子如何相互作用。因此,你需要了解小分子药物如何调节蛋白质,或者抗体蛋白质如何调节抗原蛋白质。
所以我们开始看到一些早期迹象表明这是可能的。再说一次,我们押注我们将能够利用我们在扩散模型和语言模型方面看到的突破性进展将其提升到一个新的水平。上一代结构预测模型
实际上只会预测,你知道,一次一个构象蛋白,有点像蛋白质的一个视图。这就像早期的图像模型,它们没有扩散模型。你实际上无法看到可能出现的各种生成。我们认为同样的事情也会影响药物发现和蛋白质折叠。
这就是我们决定成立公司的一些情况。我们确实成立了公司。也许最后,我应该说,我们之前的几乎每一家AI生物技术公司都对其工作进行了某种非常紧密的实验室整合。我认为实验室整合很棒。我们在Chai做了很多实验室实验。但缺少的是,你是否真的可以拥有某种可移植的AI平台?
一些真正具有通用性并可以应用于许多不同领域的东西。如果你能做到这一点,这意味着你的影响力可以真正提升到一个新的水平。我们可以采用我们刚刚发布的Chai 2模型,并将其部署到数百个不同的项目、数千个不同的项目中。我们开源的Chai 1,
已经在整个行业中应用于大量不同的领域,但我们甚至不知道它被应用于所有领域,因为它已经开源了。但这也是对我们来说非常重要的一点。呃,如果我们要看到生物学从一门科学转变为一门更工程化的学科,这是公司的最终目标。
是的,我想在我们更多地讨论这里技术方法时,回到你所说的实验室整合问题。但是Jack,我和你是在这样的背景下认识的:你是一位备受推崇的Stripe工程和产品领导者,来自工程方面,并寻找AI中最有趣的问题。为什么你决定从事这项工作,而不是我们讨论的其他一些事情,比如Cogen等等?
是的,正如你所知,Sarah,我花了不少时间思考我的下一步以及在Stripe工作之后我想做什么。我对此要感谢Josh,我们是很好的朋友,甚至可以追溯到大学时代。我们在哈佛大学是PSET伙伴。
一起上了很多同样的课程。当我在最大限度地利用CS课程时,Josh也在不知何故地学习化学、物理学和所有其他科学课程。但我们参加了很多相同的课程。在我们大学毕业后各奔东西时,我们真的只是定期保持联系,每三个月或六个月一次。Josh总是会跟我谈论他的研究。一旦清楚地表明
Josh和我们在这个领域所做的研究不再仅仅是一种玩具,而是真的会影响和改变整个行业。这个想法变得具有感染力,对吧?一旦你有了这种认识,就很难不去关注未来。虽然直到最近我们才知道这些事情是否会奏效,当然,还有很多事情有待证明,
一旦你开始掌握这样一个事实的影响,那就是在未来几年里,我们人类将能够以原子精度设计分子,那么
几乎很难再从事其他任何工作了。对社会的影响非常广泛,包括人类健康,而不仅仅是健康,还有很多其他领域会受到影响,我们可以深入探讨,但这对整个行业来说是一个平台的转变。因此,将这与这样一个信念或确信结合起来,你可能能够让它发挥作用。我认为这很有趣
在许多方面,很难说不从事这项工作。所以Chai 2有一个突破性的结果。你能给我们一个外行人的解释,说明结果是什么,模型本身是什么,以及你认为最有价值的部分是什么吗?
当然。CHI2是我们最新的模型系列,在许多不同的任务中都处于最先进的水平,但我们最兴奋的是设计。我们已经证明,我们可以设计一类被称为抗体的分子,
它们也是一些治疗上最有趣的分子。这些分子占所有近期药物批准的近50%,十大畅销药物中的七种实际上都是抗体。因此,我们用CHI2证明的是真正能够设计出针对人们想要追求的目标的抗体,只需……
在一个小的,我们称之为24孔板的装置中,只需20次尝试即可。这意味着我们选择一个目标,运行我们的模型,要求模型设计一种抗体。然后我们将该抗体运送到实验室。我们在实验室中大约有一个为期两周的验证周期。两周后,我们看到大约接近20%的抗体实际上以预期的方式结合了它们的目标。所以Triton是该领域的一项重大突破。
我们开始这个项目时,实际上只将成功率定为1%。这是公司全年的目标。我们之所以将这个目标定为1%,是因为之前对这个问题的尝试可能只有大约0.1%甚至更低的成功率。这些是计算技术。如果你看看传统的基于实验室的高通量筛选技术,人们实际上是在筛选数百万甚至数十亿种化合物
只是为了找到一种粘附的分子。我们之所以称之为药物发现是有原因的。这是一个发现问题。这是一个搜索问题。所以人们实际上只是在这些巨大的酵母或噬菌体文库中淘金,或者,
你可能会注射一只老鼠或一只羊驼。你可能需要等待几周时间让它们生病。然后你可能会放血,取它们的等离子体,取出抗体并分离它们。这实际上是我们对COVID所做的工作。我们实际上取了一些已经感染COVID的人,从他们体内取出抗体,试图找到一种能够中和病毒的抗体。所以你可以想象,这不是一个理想的、最有效率的或最符合原则的过程。
因此,我们用CHI2证明的是,与之前的计算技术相比,我们在计算上发现抗体的成功率提高了多个数量级,并且与传统的基于实验室的替代方法相比,提高了许多、许多、许多数量级。在我们看来,这意味着对该行业来说意义重大。有两种看待这个问题的方法。当然,有更快、更好、更便宜的方法。这将使我们能够针对目标制造药物,并更快地将其转化。但我认为我们真正兴奋的事情,也是我认为更重要的事情是……
未来将解锁的整个目标类别,这些目标类别以前的方法根本无法获得。我认为总的来说,生物技术行业,现在每个人都有些沮丧。在过去的五年里,XBI的表现并不理想。我认为我们在过去几十年中生物技术市场最糟糕的时期之一。但我们认为,有了Chai2,我们开始看到,我认为,生物技术领域真正平台转变的早期迹象,这种转变很少见。我们在70年代有过一次,当时有很多新的技术,但这样一个想法,在未来五到十年内,我们将能够发现整个新的分子类别,以及我们将解锁的整个新的目标。
以及我们可以打开的时间市场和我们可以提供给患者的疗法,以真正治愈以前没有治愈方法的疾病。这对我们来说是一个令人难以置信的令人兴奋的前景。我想回到影响力上来,因为我认为这里的影响非常巨大。但是,如果我们只考虑第一个问题设计,我认为,你考虑了52个问题。为什么这么多?你如何指定目标?我想到的是像结合表位X,
但我相信作为药物设计师,你们还会有其他要求。这是一个很好的问题,Sarah。所以在CHI-2论文中,我们研究了50多个目标。
在这个领域中,大多数现有的关于人工智能药物发现的论文通常只研究一两个或三个目标。但同样,如果我们将其视为一个工程问题,那么确保其具有通用性对我们来说非常重要。这就像想象一下,你有一篇新的LLM论文,你说,哦,我解决了一个USMO竞赛中的一个问题,非常酷。
这就像,你需要一个真正的基准,你需要真正大规模地拥有这个基准。你需要有足够的问题来说服自己系统正在工作。这就是为什么每当我们进行这些实验时,你知道,有时我们会尝试一两个目标,只是为了确保没有很大的错误,并且,你知道,确保不是所有东西都失败了。但是,你知道,即使在一两个目标中所有东西都失败了,命中率也是50%。你可能只是运气不好。所以这就是我们决定在这里做一个大型基准测试的原因之一,真正说服自己事情正在起作用。
我们选择这50个问题的方式,生物学家会嘲笑这一点,而工程师会喜欢这一点。我们实际上只是去供应商目录查看库存,因为我们想快速完成这个实验。我们同时订购了所有这些设计。所以我们实际上编写了一个抓取程序,它会去查看库存。我们会去挑选蛋白质。我们会去查找该蛋白质的序列是什么。
现在我们需要确保这也能从训练中得到支持,对吧?所以我们会取该蛋白质序列。我们会将其与所有类似SABDAB的数据库进行比较。这是一个蛋白质数据库中抗体结构的集合。我们会确保这些序列中没有一个在那里,而且这些序列中没有一个甚至接近于那里的任何东西。我们删除了序列同一性超过70%的东西。所以实际上是与我们训练中可能看到的东西有点不同的东西。然后选择这些,制作我们的设计,然后我们将所有东西都运送到实验室。
所以我们实际上认为50%实际上是一个下限,因为我们可能只是因为我们设置这个实验的方式而搞砸了事情。我们没有考虑生物学。这些不一定是有用的治疗方法。其中一些甚至已经针对它们制定了药物方案。我们只是从模型评估的角度来做这件事。让我们了解模型运行得如何。让我们说服自己。让我们说服社区Chai 2正在工作。然后
在将其应用于问题方面,我认为,你知道,现在我们已经有数百人想要在明天尝试该模型,并将其应用于他们正在进行的各种药物项目。所以这就是我们提出这50个任务的方式。让我们对这个进行基准测试,并将其视为一个工程问题。我们为NoPriors拥有广泛的受众,从商界人士到工程师、机器学习研究人员,以及其他领域的科学家。你能为听众提供什么样的关于模型内部工作原理的直觉吗?
特别是对于那些可能对结构预测模型有一些了解的人。结构预测确实是使这些模型发挥作用的关键部分。这实际上是我们成立公司时做的第一件事,我们冲刺构建了一个最先进的结构预测引擎。我们实际上开源了该引擎的第一个版本。它被称为Chai One。同样,世界各地的科学家现在都在使用它。但是结构预测基本上为你提供了一个原子级的显微镜。
它允许你看到原子在三维空间中的位置。一旦你可以做到这一点,并且拥有这个显微镜,那么下一个问题就是,好吧,我们可以开始移动这些原子吗,对吧?我们现在可以开始进行序列更改。然后我们可以看到这些更改在三维空间中的影响。因此,实际的设计模型,你可以将其视为用一些信息提示它,例如,这里有一个我们想要设计抗体的目标,
以及针对它的抗体。然后模型将尝试再次在三维空间中放置这些原子以满足该约束。就像我们告诉模型,这里有一个目标,我希望你制作一个结合到该位置的分子。然后模型将进入并生成一个适合该位置的序列和结构。这就是对此的高级直觉。是的。关于这一点的一个直觉是,你可以几乎将结构预测视为
作为该领域的ImageNet时刻,在结构预测中,我们要求模型从序列到预测结构。这有点像分类任务。然后设计,你试图设计粘合剂,这更像是一个生成任务。这有点像分子的mid-journey。而结构预测,你正在寻找……
预测原子在三维空间中的位置。在设计中,你正在获取现有原子的位置,并试图制作一组新的原子,这些原子与原始集合互补。所以人们喜欢使用的一个比喻是锁和钥匙。
在设计蛋白质或药物时,你有一些目标,即你的锁,你试图使用一个生成模型来设计一把适合该锁的钥匙。模型的工作方式实际上非常有趣。它们实际上是通过在三维空间中放置单个原子来进行推理的。
而且当我们查看整个结构的误差时,它们通常将这些结构的分辨率、误差降低到小于一个原子的宽度。当我们谈论原子级显微镜时,你就会明白为什么这对于设计很重要,因为
如果你看不到锁,你怎么能希望能够设计钥匙呢?是的,从预测精度来看,这完全是疯狂的。如果你将它与LLM进行类比,你知道,你已经学习了语法、句法、语义,这些能力在模型中出现,你可以衡量。在Chai Tu中,你认为是否存在类似于新兴词汇或概念的任何东西?
是的,我认为关于原子级显微镜的这一点实际上就是这一点,对吧?有一些东西,我不知道,我认为很深奥。我们仍然没有完全理解它,例如为什么这些模型有效。再说一次,我们甚至不知道这是可能的。显然,我们尝试过。所以我们认为有机会。我认为这只是告诉你一些关于,你知道,也许蛋白质相互作用的特征实际上嵌入在数据中。
我们正在泛化到一个新的环境。所以这不像模型已经看到了针对该目标的特定粘合剂。然后我们只是试图进行一些领域内泛化并遍历该空间。这实际上也是一个非常有影响力的应用。这已经通过生物技术行业完成。我们的团队几年前就已经发表了关于这方面的工作。但我认为这个真正的新前沿是泛化到一个新的空间,它告诉我们
再说一次,模型正在学习一些关于分子如何相互作用的真正基本的东西。再说一次,它能够泛化到在生物学中我们如何实际组织这些问题方面看起来非常不同的问题。我认为关于,你知道,我们如何看待蛋白质家族的不同?我们测试的这些目标是不同的。
再说一次,对于生物学家来说,它们与我们在训练中看到的非常“不同”,但模型似乎并不这么认为。我们甚至在补充材料的论文中有一张幻灯片,我们实际上研究了一个更难的子集。所以不是查看与模型具有高达70%序列相似性的东西,而是实际上一直降低到25%。所以实际上是在查看与训练中看到的非常不同的任务,成功率基本上相同,模型并不在意。再说一次,我认为这表明了模型在这里学习的东西非常深刻。
我的假设在这里也是一样的,显然,实现立即影响的最快途径将是,你知道,临床中的抗体或Chai及其合作伙伴正在研究的其他疗法。但这确实提出了一个问题,例如,
如果模型学习了一些从原则角度来看生物学研究界还不知道的东西,例如,我们也将从这些模型中学习这些规则,或者结构和相互作用的原则是什么。所以我认为这非常令人兴奋。是的,完全同意。你会如何描述整体希望达到的影响?
CHI2的影响,例如将其应用于行业或你们自己的项目?这是一个很好的问题,Sarah。所以我们可以将其分解为两个主要领域。第一个是,再次,就像我们已经将我们转变为一个工程问题,并花费数月甚至数年时间试图发现某种分子。你知道,现在我们可以更快地做到这一点,因为筛选,如果可以这么说的话,发生在计算机上而不是在实验室中。
但第二个领域是我们甚至更兴奋的领域,即我们如何实际解决传统方法根本无法解决的问题。
该模型并不完美。你知道,它在我们尝试的50%的目标中有效。也许对于我们之前谈到的警告来说,这更合适。但是,你知道,对于50%的情况来说。模型的失败模式将不同于今天实验室中的失败模式。我认为这将是真正需要关注的最佳点。哪些领域在几个月前是不可能的,而现在我们可以真正快速地针对这些领域生成潜在的分子。
所以这两个领域是,你知道,今天你可以做的事情。让我们做得更快、更便宜。但我认为真正的突破性机会是以前不可能做到的事情。是的。
我认为,当你考虑这个领域在未来几年如何发展以及鉴于这种平台转变而存在的机遇数量时,任何一家公司都无法独自捕捉到太多的机遇。药物发现本身就是一个非常资源密集型的过程。我认为假设我们能够
即使我们想这样做,我们也能独自追求每一个目标、每一个项目,这可能是一种自负。因此,当我们考虑影响并考虑什么会推动公司前进时,当然,也包括世界,
我们认为做到这一点的方法是与一组真正令人兴奋的合作伙伴一起将它付诸实践。因此,我们已经开放了访问权限。我们的网站上有一个访问页面,人们可以访问并填写。目前正在审核这些内容,收到了大量的请求。但我希望我们能够非常快速地实现相当多的用例。是的。
到目前为止,反响如何?最大的反对意见是什么?因为这是一个,你知道,对高通量筛选的想法或甚至像创新型制药公司和生物技术公司今天拥有的工作流程的重大挑战。是的,这是一个很好的问题。你知道,通常当这类论文发表时,再次,人们已经多次尝试过这样做。批评通常是,你知道,这真的有效吗?你知道,你展示了这个
例如,在COVID上?这是否适用于我们训练数据较少的情况?这些分子质量高吗?我们真的,你知道,相信这些数据吗?所以我认为我们采取的方法,像大规模地对这个进行基准测试,对这种接受度真的很有帮助。我认为人们真的欣赏这种方法,这非常好。人们提出的一些问题是,好吧,就像我已经可以发现药物了。所以,你知道,所以现在我有了AI,它可以更快地做到这一点,但这是否真的改变了分子的种类
我可以使用的工具。它回到了我们之前讨论的内容。我认为还有一些人回应说,不,这里的转变是,那些对你无效或你今天正在努力的项目怎么样?现在你有了工具包中的另一个工具,你必须使用这个工具,否则你可能会落后。
所以我认为看到社区消化这一点非常有趣。当然,很多AI人士都很兴奋,对吧?就像我们在获得人工抗体之前就获得了,你知道,也许是我们之前预期的其他突破。但总的来说,这令人兴奋。
看到这种反响真的很令人兴奋。我的意思是,我们的收件箱里全是邮件。像早期访问一样,在发布后的几个小时内,就有数百人,你知道,联系我们。我们,我们刚刚宣布。所以我想我们仍在消化所有这些。我们是一个小型团队。呃,所以我们正在,我们正在优先考虑对合适的人员进行早期访问,但我们非常兴奋能够将这些模型发布出去,并让他们开始解决一些,呃,
药物发现领域中的一些非常棘手的问题。大规模湿法实验室筛选是否有重要的未来?它是否仅仅成为一个数据收集练习,以填充CHI模型的分布?在未来10年、20年,你认为我们会在哪些领域需要它?是的,我认为如果你只是使用这些模型,然后采样更多,你可能会得到更好的结果。
所以在论文中,我们每个目标只测试了20个分子,最多20个分子。你知道,如果你要这样做10倍,100倍,数量级更多,你可能会进入具有更好分子的空间。所以,你知道,机器学习模型是概率性的。这就像使用ChatGPT。如果你试图解决一个数学问题,然后你查看前一个响应,或者你查看前10000个响应,如果你查看前10000个响应,你会得到更好的结果。是的。
你不能在ChatGPT上使用产品体验来做到这一点。我不会查看10000个数学响应。我甚至不知道哪个是正确的。实验室的妙处在于,我们实际上可以在实验室中测试所有这10000个。所以我不知道你是否必须这样做,但这绝对是一些,我认为,将用这些模型进行测试的事情。
AI has already fueled breakthroughs in biotechnology—but now, further advances in AI are poised to fuel pharmaceutical discoveries as well. Sarah Guo sits down with Joshua Meier and Jack Dent, co-founders of Chai Discovery, whose newly launched Chai-2 designs bespoke antibodies that bind to their targets at a jaw-dropping 20% rate. Jack and Joshua talk about the implications for Chai-2’s success rate at discovering antibodies for the pharmaceutical industry, how structure prediction is pivotal in making the model work, and future potential for using the model to optimize other molecular properties. Plus, they talk about what they believe bioscientists should be learning to best utilize Chai-2’s technology.
00:00 – Joshua Meier and Jack Dent Introduction 01:09 – Genesis of Chai Discovery 06:12 – Chai-2 Model 10:13 – Criteria for Specifying Targets for Chai-2 13:12 – How the Chai-2 Model Works 16:12 – Emergent Vocabulary from Chai-2 18:15 – Hopes for Chai-2’s Impact 20:33 – Reception of the Chai-2 Model 22:16 – Future of Wet Lab Screening and Biotech 27:08 – Optimizing Other Molecule Properties 31:37 – Where Chai Invests From Here 36:20 – What Bioscientists Should Learn for Chai-2 40:23 – How Jack and Josh Oriented to the Biotech Space 43:38 – Platform Investment and Chai-2 46:53 – Scaling Chai Discovery 48:21 – Hiring at Chai Discovery 49:09 – Conclusion</context> <raw_text>0 我认为高通量筛选的未来以及它们与模型如何相互作用,这个问题仍然悬而未决。但我预计人们会富有创造力,并会找到方法将人工智能的优势与生物学的优势结合起来,从而推动平衡向前发展。补充一点,还有一大批非常有趣的
令人惊叹的CRO和其他参与者,他们拥有运行这些传统方法的令人难以置信的专业知识。正如Josh所说,许多公司都在问我们,您能否不仅运行20次,还能运行10万次,即使它只会在20次中有效?因为我可能会找到更好的东西,对吧?而更好的东西是
可能会导致更好的药物。这可能是为患者获得需要注射的抗体或需要皮下给药的抗体之间的区别,例如。因此,我认为使用这些工具,您可以无限地对搜索空间进行采样。传统技术和模型的结合
实际上有望将我们带入这个空间的领域,在那里我们可以为患者找到更好的产品。我想再问一个关于生物技术预测的一般性问题,然后我想谈谈chai的未来。你认为25年后的生物技术是什么样子?
我知道对于任何从事人工智能工作的人来说,这是一个荒谬的问题,你会说,嘿,我去年根本不知道这会起作用。正如我之前提到的,由于宏观因素,利率处于当前水平,以及生物技术实现可行性所需的长期投资周期,生物技术行业目前存在许多悲观情绪。目前,该行业确实存在真正的悲观情绪。几十年后,它就是世界市场。而且
我认为正是这样的时刻,这样的突破,给了我们这些闪光点,以及对这个行业未来的巨大乐观理由。不仅在缩短时间表和降低成本方面,而且还在于从根本上实现这些新产品。
因此,如果我们展望未来25年,我们的成功率已从不到0.1%上升到接近20%
一年。那么,谁又能说在一年后,这不能达到50%以上甚至接近100%的成功率呢?我认为如果您看到我们的微型蛋白结果,我认为在具有皮摩尔亲和力的那些方面,我们接近70%,就像对我们测试的每个目标都非常紧密的结合剂一样。因此,我们测试的所有五个目标都成功了,并且我们订购的70%的设计都成功了。我认为没有理由其他
类分子的成功率不能这么高。我认为一旦你有了它,你就会真正进入这样一个时代,在这个时代,你可以像
我们可能有用于机械工程的SOLIDWORKS,或者我们有用于创意人员的Photoshop。而整个软件套件将存在于生物学中。我认为这意味着能够设计、编程、理解原子和分子之间在最基本层面的相互作用是相当广泛的,并且应该让我们对即将发生的事情充满希望和兴奋。我们昨晚还在讨论也许我们应该戴上棒球帽,上面写着,比如说,“看好生物技术”,因为我认为这是那些特殊的时刻之一,我认为我们真的可以,我们已经从许多写信给公司的人那里听说过,这确实改变了他们的看法。如果您考虑从抗体转向,您知道,显然更高的成功率,然后还有其他疗法,
我们应该在脑海中有一个难度等级吗?还是说它只是酶、肽、小分子和其他领域方面尚未探索的空间?是的,实际上不仅仅是成功率。还有许多需要优化分子的特性。你知道,寻找药物就像大海捞针。
我认为我们已经用Chai2真正地通过了该序列空间的大部分区域,对吧?通过真正关注结合的东西。这就是今天实验室中需要搜索大量搜索空间的地方,也深入研究其他特性。让我们确保这些抗体可以很好地制造。让我们确保它们非常稳定。
因此,我们对许多其他特性感到兴奋。敬请期待。然后另一件事实际上是甚至还有下一代抗体形式。因此,我们预测将会发生的是,人们可能不会对诸如单克隆抗体之类的临床应用那么感兴趣。这些是例如针对蛋白质上特定表位的抗体。
但是现在,如果我们可以更快更容易地制造抗体,您可以想象未来,如果我想击中一个目标,让我选择该目标的两个不同部分,制造两种击中它们的不同的蛋白质,就像基本上两种不同的原始抗体一样,让我将它们组合在一起。这称为双表位,两个表位,所以基本上是两种不同的抗体相互作用。
而如今,这类事情将变得容易得多。我认为如今生物技术中有很多权衡,例如,您知道,针对您的目标的风险、发现过程的风险。制造我们的分子有多难?我认为人工智能将全面提高标准。我认为看好生物技术,呃,你知道,杰克也在这里宣布的运动。如果我们考虑这甚至可能代表什么,呃,
生物技术现在存在很多风险。在相同类型的目标上有很多拥挤。风险
实际上开始降低,就发现这些东西而言。如果您尝试一些人们以前从未做过的事情,那么可能仍然存在临床风险,但是我们只是打开了,我认为机会的范围,呃,可以在这里追求。我认为这非常令人兴奋。因此,我们还有很多工作要做才能验证这一点,就像所有这些都是可能的。但我认为该领域发展的速度,呃,只是给了我们很多乐观情绪,呃,对于接下来可能发生的事情。也许我可以分享一个轶事,呃,
为什么我们如此乐观。在我们构建这些模型的过程中,一位合作伙伴找到了我们。我们甚至真的不知道。我们还没有获得我们最初几批数据,所以我们不知道它是否真的会起作用。但是这位合作伙伴已经在这个问题上工作了几年了。他们有一个由我认为5到10人组成的团队在处理这个问题。他们估计,全部加载
所有这些人也可能使公司因他们所做的实验而损失了大约500万到1000万美元。这是一个他们想要构建一个对两种不同物种发生交叉反应的分子。因此,这种蛋白质的人类形式和蓝藻或猴子的形式,这样当他们将这种
这种分子用于动物试验时,如果,你知道,他们不希望它失败,因为猴子与人类相比,这种蛋白质的版本略有不同。因此,无论出于何种原因,他们都难以使其发挥作用。我们将此放入模型中,并提示模型同时针对这两个目标进行设计,而不仅仅是一个目标。您可以想象,这比仅仅针对一次设计更具挑战性。我们实际上只向实验室订购了14个序列,而且,呃,
我认为其中四个是针对人类的命中。其中一个是针对蓝藻的命中。其中一个实际上是重叠的,并且两者都命中了。现在,这一个使我们能够推进该计划,并为我们可以探索的该分子提供了大量的多样性。首先,这非常酷。其次,我认为有趣的是,许多行业观察家会说,制药行业的瓶颈和支出在于临床,而不是发现。而且,我认为您指出的是,好吧,就像我们可以为临床设计一样。
对。实际上,这是直观的,但这仅仅是因为这是来自对生物技术持悲观态度或担心在项目中取得进展并降低任何给定成功药物成本的能力的人们的论点是公平的。
好吧,你知道,如果发现的风险较小,正如Josh指出的那样,这是一个巨大的说法,那么整个行业就会更高效,对吧?而且更有效。这是希望。是的。我认为我们有很多理由保持乐观。我也不想过度简化事情。你知道,制造药物还有很多其他事情。这其中涉及资本市场。你知道,有很多临床风险。这仅仅是冰山一角。但我们对这可能代表的进展感到非常兴奋。是的。
我想从战略上问一下,Chai 从这里投资的地方。因此,您谈到了您希望能够在 Chai 模型中设计的其他属性。但是,如果我们只是将其泛泛地视为一家 AI 模型公司,您认为防御力在哪里?公司有两个关键投资领域。我认为首先,
这些模型的输出,这些还不是药物。它们是命中,是抗体命中,但要将这些转化为我们可以用于人类的可行分子,还有很多工作要做。我们在预印本中提供了早期数据,表明
人们可能希望从药物中获得的许多特性,这些分子实际上都具有。但我们需要做更多进一步的表征和分析来让自己相信我们可以做到这一点。然后我认为还有下一步,那就是实际上从模型中直接设计整个候选药物。而且
我认为几个月前,我们可能会说这是一个相当超前的想法,公司里没有人真正谈论这个。但是我认为一旦您看到这些结果并掌握其含义,事实上我们可以仅用20次尝试就能获得抗体命中,
没有理由我们不能在相同次数的尝试中生成整个候选药物。因此,我认为在那里会有一些关键的投资。而且,现在的模型只是一个模型。它不是真正的产品。它是一个产品。它在今天当然很有用。但是随着对确保我们可以优化人们关心的所有治疗特性的更多投资,产品可以变得更好。
然后,当然还有围绕它的整个界面和软件层,以使其真正易于使用以及围绕其支持的真正平台。因此,如果您想击中两个目标,如何设计一个同时击中两个目标的分子,您如何在软件中指定它?这将是一个足够……
先进的软件。随着时间的推移,它将变得像Photoshop一样先进。随着我们的发展,我认为我们需要对工程和产品进行一些非常核心的投资,以确保我们正在构建一个我们自己和其他人都会真正喜欢使用的软件。是的,还要补充一点,我们发布了Chai1开源。我们认为它是一个模型。
我认为Chai 2不仅仅是一个模型,对吧?它已经成为一个产品。它实际上是一个更大的管道,甚至可以使这一切发生。而且使用这些模型也变得更加棘手。蛋白质折叠,您输入您的序列,您会得到一个结构。设计是另一回事,对吧?实际上指定提示本身。我们在论文中以编程方式执行此操作,以便大规模评估此内容。但是想要使用此来启动药物发现计划的科学家可能不会使用脚本来提出该提示。
可能会对此进行深思熟虑。我认为这就是为什么在这里投资产品层非常重要的原因。更不用说,从这里开始只会变得更复杂,对吧?当我们开始支持更先进的药物模式时,随着各种特性上线,
正如我们在白皮书中展示的一些早期证据一样,您可能希望同时针对多种蛋白质进行优化。有时,你知道,实际上,现在是成为一只生病的老鼠的好时机。为了获得人类药物,它通常也需要在动物身上起作用。有时药物项目实际上会卡在那里。就像,
好吧,伙计们,就像我们要么有老鼠药物,要么有人类药物。同时获得两者非常困难。实际上,在某些情况下,人们必须发现两种不同的药物。他们称之为替代抗体。我会制作老鼠版本。我将研究它,说服FDA这种机制有效。
但你甚至在冒险。你就像,也许这个分子作用略有不同。我们在论文中确实展示了优化的例子。我们不做老鼠,我们实际上做猴子。所以猴子和人类在一起。但你也可以把其他物种也扔进去。有时你会遇到相反的问题。我想击中这种蛋白质。我不想击中这种其他蛋白质。我们最近有一些初步证据表明这也是可能的。而这些事情,提示要复杂得多。这意味着您需要拥有正确的产品
当你开始在实验室里做那些实验时会发生什么?我们希望模型能够从中学习,然后帮助我们真正成为副驾驶,并推动下一阶段的设计。你知道,所有这一切,再次强调,不仅仅是模型。这实际上是考虑这些工作流程。
这甚至与让大家了解这一点并让他们将此视为其堆栈中的新工具有关。如果您是一位抗体工程师,并且过去30年来一直以某种方式做事,会发生什么?现在有一种发现药物的新范例。这本身实际上是一个公司需要解决的问题。这些都是我们目前正在投资的不同领域。
这实际上引出了我将要问你的问题,那就是,如果你今天是一位抗体工程师或生物学家,那么鉴于,让我们假设他们相信你关于将会发生多少变化以及这些生物学CAD,即将出现的软件套件,他们应该学习什么,擅长什么,去学习什么?好吧,首先,获得访问权限。第二,
弄清楚如何正确提出你的提示,并真正充分利用它。然后我认为第三,开始梦想新的可能性。有趣的是,自从公司成立以来,我们已经与许多抗体工程师进行了交谈。
我们有时会暗示,你知道,我们在这里做什么。你知道,有时你会问市场调研问题。你问,你知道,假设你在任何抗体上的成功率为1%。你会用它做什么?现在,首先,它不是1%,而是10%,人们看到它正在起作用,我认为这很明显,
创造力正在被释放,甚至是我们自己,对吧?我认为当人们在思考这个问题的答案时,你的脑海里总有一些很大的疑问。就像,啊,这是一个假设性问题。你知道,你的神经元不会以同样的方式来处理它。LLM也是如此。就像,想象一下五、十年前问某人,哦,你知道,如果我们可以完美地预测句子中的下一个词,你会用它做什么?
在你开始使用这些模型之前,实际上很难想象。即使是我们内部的团队,你知道,现在,即使不发送到实验室,你知道,我们可以再次选择一些目标,选择一些提示,针对它生成一些东西。你开始查看从模型中生成的生成,你会想,哦,等等,我实际上可以通过以下方式解决这个问题
选择目标上的正确表位,选择目标的正确部分。这两个目标是不同的。就像,当然,我们有一个引擎,模型可以针对一个进行优化,也可以针对两个进行优化,你知道,或者针对一个进行选择性优化,而另一个则不进行优化。但是你实际上可以通过以一种聪明的方式选择你的提示来获得很多这样的东西。所以让我击中该蛋白质的一部分,该部分在两件事之间实际上是相当不同的,或者在两件事之间是相当相似的。
这些是事后看来相当明显的想法,但直到你真正开始自己使用这样的产品,它们才会真正触动你。所以我认为人们只是,一旦他们掌握了这个,我认为他们会,他们会开始梦想新的可能性。——我认为这确实提高了标准。你知道,对此最兴奋的人
通常是这些抗体工程师和这些生物学家。他们今天所做的许多工作都是费力的,他们并不是这些缓慢的反馈循环和这些棘手问题的最大粉丝,因为我们与之交谈的许多人只是真正有动力去解决一个特定的任务。所以你给他们,你知道,我是一个工程师,你给我一个工具,它说我必须编写更少的代码。我喜欢这个。
我现在可以更多地考虑系统设计和架构以及更复杂的产品以及所有其他事情。但这确实会为许多这些人提高标准。我认为人们现在才真正开始,正如Josh所说,思考所有可能性。几周前,我与人们进行电话会议,当时人们说,你认为这什么时候会发生?他们说,哦,不是三到五年。这是一个非常超前的想法。
然后几周后,你向他们展示他们拥有的东西,他们就从椅子上摔了下来。因此,我们将与这些领域,真正的领域专家一起努力,找出这些关键的应用领域。因为生物学如此广泛和复杂,以至于实际上有如此多的知识,如此多的从业者、专家所拥有的知识,没有一家公司会拥有,
这就是为什么我们如此兴奋地走出去并与人们合作,真正将这一切变为现实。在时间用完之前,我想再问几个关于公司建设的问题。也许,杰克,我会从你是个很棒的工程师开始。然后你们也有一支非常以软件为导向的团队在处理生物学问题。其中一些人来自,你知道,特别是该领域的长期研究。
但对于你自己,杰克,就像你说的,你是你的软件人员。你如何快速了解生物领域以开展领先工作?好吧,我认为有两件事。首先,在任何新领域中快速发展总是完全是一场战斗。你必须到达前沿,并且阅读了正确的论文,并且了解你需要了解的领域。你需要学习。你只需要低下头,坚持下去。
在这个过程中,会有兴奋和痛苦的波浪,但如果你真的下定决心,你可以很快到达那里。我想说第二点是,与最不可思议的团队在一起是你能做的最好的事情,远远超过你能自己学到的任何东西。我们当然拥有我曾经与公司合作过的最特别的群体,我们的联合创始人Matt McPartland和Jack,呃,
Boutreau,他们只是罕见的人才。然后是除此之外的整个团队,一些其他药物发现公司的前人工智能主管,一些顶级开源贡献者。该团队多才多艺。它很小,大约有十几个人,但很强大。我认为正如我们在人工智能的其他领域所看到的那样,规模虽小但强大的团队如今可以走得很远。所以……
我认为我们的团队中实际上只有很少的人拥有计算机科学学位。Josh本人获得了化学学位。Alex获得了物理学博士学位,以及许多其他人。但是这项工作如此……
跨学科的,因此真正拥有生物学、化学、物理学、人工智能、计算机科学、工程学方面的广泛知识,这确实需要一个村庄,而且每个人都在互相学习
每天,因为人们必须掌握的主题如此广泛。我认为我们也受益于如此巨大的关注。每个人都非常热衷于尝试解决这个问题。我认为我确实认为这是我们能够实现这一目标的一个重要原因。
我们还有一个团队,由于这种关注,也以工程为中心。因此,如果您查看整个团队,您知道,我们现在有一个非常以研究为导向的团队,但每个人也是一位杰出的工程师,并且非常重视这一点。因此,并非每个人都在解决,你知道,他们最喜欢的宠物问题。我们都在解决同一个问题,并一起解决这个问题。而且,你知道,
在公司的下一阶段增长中,随着我们开始越来越多地投资产品和围绕它的速度以及将其交付到人们手中,这只会变得更加重要。我们如何确保我们在内部发布的最新研究突破
实际上正在进入合作伙伴手中。这再次是我们Chai非常重视并非常重视的事情。是的,我还记得杰克在Conviction的办公室里,在公司成立之初,与你的一些科学家队友讨论dev容器的优点。从一开始,你们俩,你知道,都谈了很多关于平台投资和
所以我实际上认为,对于这样一个以研究为导向的团队来说,这有点非传统,他们说,我们需要进行这项平台投资。你能谈谈这个吗?是的。在我从事Stripe Link工作之前,我已经经历了从零到一百的庞大工程产品的经验,这是一个为期多年的项目。再次,Stripe Capital,其中
工程团队在完成工作时从零扩展到25、50人。Link也是如此,也许更多。而且
我认为你只是会学到,除非有人真的非常小心地将整个系统记在脑子里,并且是架构的有效技术管理者,否则事情就会退化,软件的熵就会接管并使你的进展速度降至零,因为没有人可以完成工作了。因此,有人需要将整个系统记在脑子里,以及所有这些组件之间的交互,并确保
那些正在处理代码库各个子组件的人实际上必须最大限度地减少他们需要加载到脑子里以了解如何完成该任务的上下文量。因此,这些只是真正,你知道,这非常基本。这只是简单性和模块化,但要确保这是一个实践和一种文化实践。而且每个人都对投资这一点持相同意见,是的,
人们没有走捷径。他们认为这是为下一个人奠定基础的责任。在深度学习代码库中,这尤其难以做到,因为如果你引入错误或编写回归,你可能几周后才知道它已经出现。这有点可怕,因为你可能会在训练运行中花费一百万美元,而这个错误是在四周前出现的。Chai的历史上我们确实不得不这样做,但我们不得不回溯Git历史
使用二分查找启动训练运行以识别足够小的拉取请求范围以识别错误,然后转到该拉取请求,识别错误。我认为正是这些经验以及发现该错误的成本,我不确定是否是数百万美元,但这肯定是数万美元的计算时间来回溯并找到该内容。
正是这些经验我认为使严谨成为公司中如此重要的实践和工程严谨性。因此,对它进行严格的处理,我认为有些人惊讶地发现,即使我们进行深度学习,我们对所有内容编写单元测试也相当严格。但我认为这些基本的软件工程实践实际上在大多数研究代码库中都非常缺乏。因此,引入一些这些基本实践
原则使我们能够快速前进,而不仅仅是短期快速前进,而且应该为我们提供一种机制,使我们能够随着时间的推移不断积累这项投资。好吧,这与你将长期生物学从科学转变为工程的使命总体上是一致的,对吧?它有意义,它也会贯穿公司的实践核心。
在时间用完之前,我还有两个问题。第一个是,你知道,你谈到了训练实验的费用,你的决策框架是什么,例如如何快速扩展、计算或在这里并行化实验?是的,我们试图以一种相当简陋的方式建立公司。实际上,当我们开始时,我们也应该谈谈这个。你知道,我们,公司甚至没有,我们位于旧金山。当我们开始时,还不清楚公司是否会在旧金山。而且,你知道,那时我们,
我们那时还没有为公司筹集资金。我们当时使用的是云提供商提供的免费计算资源。我认为对我们来说,关键在于专注于解决问题,并真正说明我们为什么要这么做。
我认为如果这件事是合理的,我们会投资。同样,对于一个工程问题,如果它看起来有希望,你看到了某种规模效应,无论是什么,那就尽可能快地去做,让它发挥作用。但是,如果我们不相信它会成功,也不要分心去做规模化的事情。因此,我认为那种精干的文化,也就是我们在哪里花钱,很重要。
这与取得快速进展密切相关,因为这意味着我们对如何安排时间有很高的标准。团队中的每个人都非常努力地工作。你知道,办公室里总有人在,无论白天黑夜。看到这种情况非常令人欣慰。所以我们努力工作,但我认为我们也工作得很聪明。我认为要想在当今这个领域快速发展,就必须做到这一点。
你现在看到了成功的迹象。你知道,你对生物技术非常看好。这也意味着,鉴于你将努力扩大规模以满足行业和自身的需求,你正在寻找谁来招聘?我们现在正在招聘所有职能部门的人才。所以,