Diabetic retinopathy remains a leading cause of preventable blindness worldwide, and AI may facilitate screening, if such models continue to perform well when they are deployed in the real world. Coauthors Arthur Brant, MD, of Stanford University, and Sunny Virmani, MS, of Google join JAMA+ AI Editor in Chief Roy H. Perlis, MD, MSc, to discuss a new study published in JAMA Network Open. Related Content: Diabetic Retinopathy Is Massively Underscreened—an AI System Could Help Performance of a Deep Learning Diabetic Retinopathy Algorithm in India </context> <raw_text>0 欢迎来到JAMAplus AI 对话。我是JAMAplus AI的主编Roy Perlis,我很高兴欢迎今天的嘉宾Arthur Brandt博士和Sunny Vermani。Brandt博士是斯坦福大学的眼科住院总医师。
Sonny Vermani是谷歌的集团产品经理,领导他们的健康AI产品团队。今天我们将讨论他们最近发表在《JAMA Network Open》上的一项研究,该研究考察了基于AI的工具在大型临床环境中检测糖尿病视网膜病变和黄斑水肿的真实世界性能。各位,感谢你们今天加入我们。谢谢邀请。谢谢。Arthur,我们先从你开始。
我是一名精神科医生,但我仍然有我的检眼镜。我觉得我必须把它拿出来给你们看,只是为了证明我的可信度。当然,听众们看不到它。你们只能相信我的话。但在我们深入研究的细节之前,你能给我们一些背景资料吗?这是一个多么重大的公共卫生问题?
是的,当然。谷歌已经对印度的糖尿病视网膜病变患者进行了多年的筛查。谷歌的AI名为Arda。在眼科和医学的其他领域,也有许多经FDA批准的设备进行筛查。我们想问的问题是,真实世界的表现是否与回顾性或前瞻性研究中的表现相符或相似?
其重要性在于,您需要确保在批准前的研究中所坚持的任何安全基准,在批准后,当您处于更加多样化的多站点环境中时,仍然能够得到满足。
因此,在筛查了60万名患者后,我们对2019年至2023年间约1%的患者进行了子样本分析,让人工评分员对这些图像进行评分,然后将AI生成的评分与人工评分员的评分进行比较,以确保性能在真实世界中没有下降,在45个不同的地点使用三种不同类型的眼底相机进行筛查。我将暂停一下,进一步放大。
这种筛查的公共卫生背景是什么?换句话说,对于不是眼科医生的听众来说,这种筛查有多重要?在采用这项技术之前,通常是如何进行筛查的?标准护理是什么?
是的,现实情况是,在美国,甚至在其他国家,筛查的频率远低于应有的水平。在美国,每位糖尿病患者至少应该每年进行一次筛查。而我们实际上只对大约一半符合筛查标准的患者进行了筛查。在印度,我们估计现在有1亿糖尿病患者。而几乎可以肯定的是,只有极少数人接受了常规筛查。
在我们合作的站点(这项研究的数据来自该站点,即埃里文德),他们已经部署了大多数人认为是全州眼科护理模式的旗舰产品,在泰米尔纳德邦,他们不仅拥有多家能够提供眼科所有亚专科的重大三级医院,而且还在周边地区拥有大约100个视力中心,以便患者能够在其住所附近获得常规随访
与眼科技术人员或验光师进行。这些相机主要放置在这些视力筛查中心,每当糖尿病患者到其中一个中心就诊时,除了进行其他眼科检查外,他们还可以进行眼底照相。一小部分相机直接放置在糖尿病诊所,我们建议每一位
出现的糖尿病患者至少每年进行一次照相,具体取决于疾病的严重程度。如果他们有一些疾病,他们会更频繁地复诊。如果他们患有严重或更严重的疾病,他们将被转诊到当地眼科医生。
所以这听起来像是你进行筛查的最佳情况。在这个地区以外,情况如何?例如,如果你没有这些相机,如果你没有验光师网络,谁在做这项工作?它发生的频率是多少?效果如何?
我可以谈谈这个。所以很多地方发生的事情是,例如,Arthur刚刚谈到目前印度大约有1亿糖尿病患者。
我们有一些统计数据表明,大约50%的患者甚至不知道自己患有糖尿病。所以这不仅仅是进行筛查的问题。这只是关于了解你在护理方面需要什么。即使人们意识到他们在糖尿病和糖尿病视网膜病筛查方面需要什么,他们也无法获得医疗服务,尤其是在印度和泰国的农村地区以及我们实际开展这项工作的其他地区。
所以问题就变成了,这些患者可以去初级保健诊所,但是那里有相机可以进行筛查吗?有眼科医生吗?所以这不仅仅是技术问题,也是获得眼科医生等专家的问题,他们应该进行这些筛查,这就是为什么我们能够研究AI如何帮助改善这些地方的医疗服务的原因,在这些地方
患者无法轻易找到眼科医生。他们将不得不前往三级医院,这有时可能意味着花一天时间离开他们的村庄前往主要城市。总而言之,这是一个巨大的问题,不仅仅是关于筛查以及应该在哪里进行筛查,还包括患者是否真的能够获得这种护理。
我认为在人工智能领域,我们仍然处于“哇,真酷”的阶段,对吧?能够拍摄图像并对其进行分类是不是很酷?但我喜欢这篇论文的一点是,你们已经超越了这一步,对吧?这项技术已经得到验证,并且已经部署。我认为这是下一波研究,那就是一旦我们部署它,它在现实世界中的表现如何?所以我感谢这一点。我想我有一个问题,
我可以理解模型如何随着时间的推移而变化,例如风险预测,对吧?输入会以多种方式发生变化。你为什么担心图像漂移?你认为随着时间的推移,图像可能会发生什么变化?为什么这是一个问题?
是的,漂移可能发生在几个方面。通常发生的情况是,您使用一组特定的图像来训练您的AI模型。您可能拥有大量的图像,它们都可能来自某个特定的人种、种族或地理位置。
当您实际将此算法应用于现实世界时,您不会只在一个特定位置进行部署和测试。所以问题是,随着您测试这些算法,随着您在临床上部署这些算法,患者群体是如何随着时间的推移而漂移或变化的?其他可能发生变化的事情是类固醇。
相机,这是必需的,在这种情况下是用于糖尿病视网膜病筛查的视网膜相机,它们会随着时间的推移而更新、变化和改进。不同的制造商开始进入市场,他们向使用这项技术的医生提供这些相机。其他可能发生变化的是
实际拍摄图像的人,即这些诊所的技术人员,他们使用这些相机的培训水平也会发生变化。当然,新员工需要更多时间才能拍摄更好的图像。我们在论文中也谈到了不可评分的图像。所以这正是可能发生的事情。这就是为什么在您实际进行临床部署之前,测试所有这些变化非常重要。您的模型……
它是在一组特定的图像上进行训练的,在另一组图像(可以称为您的测试集)上进行泛化。这正是我们在申请监管批准之前所做的工作。这些东西,这些模型的性能是否与我们在其上进行训练的模型一样好,甚至更好?当然,拥有更多样化的训练数据会有所帮助,但训练后测试非常非常重要。
如果我可以补充两点,我们还担心另外两个方面。一个是,如果你查看文献中许多其他的前瞻性和回顾性研究,他们故意排除了照片中存在其他病理的照片。如果患者患有青光眼,如果他们眼侧有疤痕,如果
如果他们患有白内障等,他们正在验证其论文的数据集是高度精选的。但在现实世界中,情况并非如此。随着时间的推移,你会看到一切。你想确保它能够坚持下去,并且性能不会下降
在一个未经整理的数据集中。我想补充一点信息,根据我在斯坦福大学的经验,这些相机都会随着时间的推移积累一些自身的瑕疵。镜头上的一点污迹,一点灰尘,你会随着时间的推移看到,你实际上可以根据你看到的瑕疵来知道哪个相机拍摄了患者。它们都有自己独特的特征。
我相信在这次部署中也可能是这样。你想确保随着设备的磨损,患者的安全得到保障。让我问你一个可能更难的问题。谁有责任进行这些研究?在这种情况下,我认为这是一个联合的,我推测,学术界和谷歌的倡议,但是
随着我们看到越来越多的这类研究,一旦技术部署后,谁有责任确保它不会漂移?这是监管方面的事情吗?是开发它的公司吗?谁应该负责?我在这里给你一个类比。过去,这是在AI模型或非AI模型的产品之前,它可能只是一台相机,比如说。
通常发生的情况是,制造商依赖于使用这些相机的客户向制造商提供任何反馈,说明设备存在一些问题,需要进行修复,对吧?这是非常滞后的。这实际上可能需要很长时间。人工智能技术的伟大之处在于,我们可以主动考虑我们的模型将如何实际运行
在现实世界中。这也给了我们机会来确保我们希望这个算法或模型所做的一切都得到验证,并且保持一致。所以现在问题变成了是谁的责任,对吧?
需要明确的是,当我们将这个算法推向市场时,尤其是在像Irvineye医院这样的临床领域,我们决定主动这样做。我们想出了如何获得数据的方法,这是我们能够从这些诊所检索回来的少量图像样本,并让它们被
眼科医生重新阅读。因为我们的系统是在云端服务的,所有这些都是可能的。对于我们来说,几乎可以实时地测试我们的算法是否运行良好,或者它们是否达到了我们为其设定的基准。因此,如果出现问题,
那么我们将能够很快地发现它。那么这就是,这与其说是责任问题,不如说是谁从中受益的问题。最终,我们希望确保患者获得尽可能最好的护理。这就是医生关心的,也是制造商关心的。所以我认为这对每个人都有好处,这就是为什么我们能够主动地做到这一点,而且这始终是我们的计划。
说到这里,我想,Arthur,在你谈到模型的实际表现之前,我打断了你。你对查看漂移的结果如何?是的。有多种方法可以查看您的最终目标是什么。我们故意选择了一个名为“严重加”的终点。因此,患者是否患有严重的
非增殖性糖尿病视网膜病变或增殖性糖尿病视网膜病变,这是两种类别,如果你错过它,患者可能会不可逆地失明,因此对于那些100.0%的患者,他们被转诊到诊所,我们的转诊阈值是中度严重
PDR或DME。只要你有一个稍微广泛一点的类别,在我最担心的1%的子样本中,100%的患者都被转诊到诊所。这和你所能得到的一样令人放心。这听起来确实令人放心。那么假阳性呢?这种技术的一个典型担忧是,你会增加转诊率。你会让太多人进行后续检查。它在这方面做得如何?
总体的阳性预测值为约50%。所以你会为每一位实际患病的患者送去两位。但同样,另一种选择是让眼科医生对每一位患者进行筛查。因此,总的来说,我认为这仍然是一个很大的胜利。
明白了。所以如果你退一步,我的意思是,在这项研究中,你认为除了技术之外,你是否学到了关于我们应该如何考虑该领域的其他类似模型的任何东西?我认为另一个关键问题是,你如何设置你的设定点?
在ROC曲线上的位置,以及你如何权衡灵敏度和特异性。这可能取决于你所在的地区,以及特定国家或地区正在寻找的阳性预测值和阴性预测值。
从监管的角度来看,你是否可以为不同的国家设置多个设定点,我认为这在很大程度上是未知领域,需要随着时间的推移而成熟。但我认为每个环境可能都有略微不同的设定点,至少对于他们的特定情况来说是最佳的。是的,我同意这一点。我还想补充一点,除了这项研究的内容和论文中发表的内容之外,
这实际上是关于模型以及它与我们过去所做的临床工作相比的表现,我认为我们还学习了一些其他重要的事情。其中一件事情是,说到未知领域,因为这些是农村地区,而且这些是以前没有进行过此类筛查的视力中心,其中一些诊所还没有准备好弄清楚
弄清楚如何实际进行视网膜筛查。相机应该放在哪里,房间应该有多暗,应该提供什么样的环境,因为这确实关系到这些相机图像的图像质量。那么,我们实际上是否有可以接受培训以使用这些相机的技术人员?
患者是否了解如何在这些相机前进行操作以及如何坐在那里,如何将下巴放在下巴托上?在我们……的过程中,我们学习了很多细微的事情。
Irvine Eye 医院正在这些地点部署新的地点和不同类型的相机。所以我们意识到,我们的模型只是其中的一部分,而且是核心部分。然而,输入和输出以及如何处理输出,所有这些事情都非常重要。所以真正重要的是要实际
测试这些系统,不仅仅是孤立地测试,而是从医疗保健的角度、从工作流程的角度来测试,找出差距和瓶颈在哪里,以及我们如何确保这对每个人都是成功的,而不仅仅是对模型是成功的。谢谢。我认为这可能是我们结束讨论的好地方。Arthur,Sunny,再次感谢你们与我们讨论你们在《JAMA Network Open》上发表的研究。对于我们的听众,如果您想阅读更多关于这项研究的信息,您可以在剧集说明中找到文章链接。
要关注此播客和其他JAMA Network播客,请访问我们的在线网站jamanetworkaudio.com,或在您收听播客的任何地方搜索JAMA Network。本集由JAMA Network的Daniel Morrow制作。感谢您的收听,我们下次再见。此内容受美国医学会版权保护,保留所有权利,包括文本和数据挖掘、AI培训和类似技术的权利。