我是Yulin Xuan,JAMA和JAMA Plus AI的副主编,您正在收听JAMA AI Conversations。今天的嘉宾是A.J. Blood博士,布莱根妇女医院的心脏病专家,临床转化研究加速器小组的副主任,以及哈佛医学院的医学讲师。他的研究重点是心脏病、代谢疾病以及实施科学和数据科学的交叉领域。欢迎,A.J. 非常感谢您邀请我。
您发表在JAMA上的研究《使用大型语言模型进行试验资格的辅助筛选与手动筛选的随机对照试验》最近发表了。它表明,使用整流器工具进行AI辅助筛选与手动方法相比,缩短了确定试验资格的时间。
那么,您认为AI的哪些具体功能对这一改进至关重要呢?是的,这是一个很好的问题。当我们查看临床试验筛选过程中涉及的许多流程时,无论是纳入标准还是排除标准,我们发现大型语言模型已经显著改进了自然语言处理及其解析数据和提出和回答临床问题的能力。因此,整流器工具的真正设计目标是使这一过程真正简单、直接且可扩展。因此,它的作用是获取非结构化数据,无论电子健康记录的格式或输出如何,并真正使研究人员能够提出并回答有关它的问题。
因此,传统上,当您进行临床试验筛选时,这是一个非常手动化的过程。您会得到一个结构化数据查询,允许您找到可能符合条件的患者群体。然后,研究助理或研究人员需要进行手动图表审查,以验证资格,然后再邀请任何个体患者参与临床试验。
因此,该工具的真正设计目标是将这个非常耗时且通常很繁琐的过程——根据每个纳入和排除标准检查病历以评估资格——自动化,并真正提升许多研究人员的水平,以便他们能够将时间集中在招募患者和作为我们试验的一部分来照顾患者上。
您能否告诉我们的听众,为什么招募符合特定纳入标准的患者参与试验很重要?是的,当然。每当提出和回答医学和健康方面的新药、新设备或新问题时,从数据和有效性的角度来看,最好的方法是在临床试验的背景下提出和回答这些问题。
我们做到这一点的方法是通过方案。这些方案确实指定了干预措施以及正在提出和回答该问题的患者群体。因此,在创建纳入和排除标准时,我们真正希望确保我们在任何给定试验中研究的患者将反映和代表现实世界中常规临床实践和常规护理中正在被问及该临床问题的患者。
因此,通过确保我们在筛选患者时,他们符合试验的资格标准(我的意思是纳入和排除标准),我们真的想确保这项研究正在向正确的患者群体提出和回答问题,而这个患者群体将能够代表我们对药物、设备或新创新在现实世界中的预期效果。
这比人们想象的要困难得多,也更具挑战性。能够真正验证您的结果非常重要。观察到的情况是,试验数据中剩余待筛选患者的数量差异很大,AI组为37名患者,手动组为887名患者。
那么,您如何解释这种差异呢?它对AI简化流程的潜力有何暗示?AI是如何错过更少患者或手动未计算许多患者的呢?
需要进行筛选?这是一个非常好的问题。再说一次,我喜欢确保我们这样表达的方式是,我们将此视为预筛选。原因是这是一种“人在回路中”的模型。因此,每位患者在被认为符合或不符合试验资格之前,仍然会接受研究人员的筛选。该工具真正实现的是一种更快、更全面的方法
对图表进行预审查,其中包含与每个单独的纳入和排除标准相关的资料,这些资料直接提供给研究人员,以便他们能够更快地提出和回答这些问题。因此,重要的是,这是一项盲法随机试验,它实际上分两个阶段进行。传统护理组,一旦他们有了结构化数据查询,他们就进入手动审查过程。
通过阅读图表并回答纳入/排除标准问题,就像他们通常那样,通过查看图表和笔记的适当部分,以确保这些标准是否分别满足纳入/排除标准。对于AI启用组,AI工具能够审查图表,提出并回答相同的纳入/排除标准问题
提取临床笔记或数据的相关方面,这些方面可以回答这些问题,并将这些信息直接放在研究协调员面前。这使得他们能够更快地评估患者是否符合该试验的资格,这就是我们在此发表的用例。
而且非常重要的是,我们不仅显著提高了资格评估或我们能够找到符合试验资格的患者的速度(这是我们的主要结果),总体速度提高了两倍以上。但是,如果您查看随机化后的10天,手动组约为2.5%,而AI启用组约为20%。因此,效率显著提高。
找到符合试验资格的患者。我们预先指定的次要终点和分层获胜比实际上表明,由于在试验中使用了AI工具,因此招募人数有所增加。这是我们希望看到的,但并不确定,因为这实际上是一个预筛选工具。它的作用是使团队效率更高
因为在筛选和招募患者所分配的时间方面,两组之间的时间是平衡的,我们发现试验中的招募人数增加了近两倍,此外,资格确定也得到了显著加快。
您能否为我们的听众解释“人在回路中”是什么意思?是的,“人在回路中”是指虽然AI工具能够自主运行,但它有一组任务,只需最少的人工输入即可完成,只需真正上传适当的数据集即可捕获数据。
纳入和排除标准以及要向其提出这些问题的正确患者。“人在回路中”真正确保的是,与完全自主的系统相反,在该系统中,任何类型的AI模型、AI代理或计算机系统都能够完全自主地完成流程,从头到尾完全独立完成,“人在回路中”会在该系统上设置一个看门人,并允许人工参与者、经理或真正有影响力的人介入并
并作为确认检查,作为看门人,以确保在流程的某个阶段,这不会完全自动化。这是一项有人工干预的活动,允许进行下一步。对于这项研究和这个用例,在联系或主动联系患者以征求其参与临床试验之前,真正确保这些纳入和排除标准
是适当的,是满足的,并且这个人是适当的联系对象以参与。因此,您的研究显然发现了AI辅助筛选的非常好的结果,但是,如果我没记错的话,它是在单一中心进行的,并且侧重于心力衰竭。您认为这种AI辅助筛选可以在多个临床环境和疾病中发挥作用吗?
简短的答案是肯定的。因此,麻省总医院布莱根妇女医院是一个单一地点,大约有14家医院参与了我们进行的试验。这是我们在麻省总医院布莱根妇女医院拥有的一个非常大的大型场所。为了回答关于心力衰竭的问题,
虽然这是我们研究该工具的用例和范例,但实际上并没有对模型进行任何规范、微调或特殊调整,这使得它成为一项特定于心力衰竭研究的工具。事实上,我们围绕的系统,大型语言模型是驱动该工具的引擎,但有很多预处理和后处理实际上使其
在保持准确性的同时,在经济上可持续、计算上可持续且高效。因此,我们认为这些步骤实际上对许多其他疾病领域具有外部效度,并且很可能对许多其他医疗系统和研究环境也具有外部效度。我们期待通过进一步的研究来证明这一点。我的另一个问题是,您认为AI错过了什么,或者也许……
在纳入标准方面过于宽泛,招募了过多的误报?根据我们的经验,在这项单一研究、单一用例中,我们没有发现它比我们的手动审查带来了更高比例的误报合格患者。因此,这些比率总体上非常相似,这确实令人鼓舞。在我们之前发表在新英格兰医学杂志AI上的研究中,我们实际上展示了使用相同工具进行的回顾性研究
我们使用马修斯相关系数实际上更具体、更准确,在评估患者资格方面优于我们的人类研究人员。因此,我认为我们感到鼓舞,而这项前瞻性盲法试验实际上是对我们发表在回顾性数据中的经验的补充。我们非常高兴的是,前瞻性指标似乎证实了这一点。
但我认为这需要进一步研究,包括外部验证和其他疾病领域,以及许多其他地点,我们希望在那里重现许多这些结果。您认为该工具可以立即用于开始招募临床试验吗?您认为这会有什么发展?
我认为总是有办法改进系统或工具。我们每天都在麻省总医院布莱根妇女医院这样做。在我们系统中,我们正在开始向我们机构的其他研究人员和研究小组进行测试,希望并打算将其广泛扩展到我们的整个企业。但我非常高兴与朋友、同事、合作伙伴和利益相关者交谈。
还将外部验证这项研究,以证明在其他中心和其他疾病领域,我们继续看到真正有希望的结果,这些结果实际上可以加快研究速度,无论是对临床医生、患者还是更广泛的医疗保健社区。非常感谢您进行这次谈话。我们非常感谢您来到这里。我很荣幸。非常感谢您的时间。祝您今天愉快。
我是Yulin Chuan,JAMA和JAMA Plus AI的副主编,我一直在与A.J. Blood博士讨论AI辅助临床试验资格预筛选的作用。您可以在本集的说明中找到文章链接。如需了解更多此类内容,请访问我们的新JAMA Plus AI频道jamaai.org。
要关注此播客和其他JAMA网络播客,请访问我们的在线网站jamanetworkaudio.com,或在您收听播客的任何地方搜索JAMA网络。本集由JAMA网络的Shelley Steffens制作。感谢收听。本内容受美国医学会版权保护,所有权利均保留,包括文本和数据挖掘、AI培训和类似技术的权利。