更正:此播客已更新,增加了关于假阳性频率的额外背景信息。开放性神经管缺陷影响大约每 1400 个新生儿中的 1 个。宾夕法尼亚大学佩雷尔曼医学院的 Daniel Herman 医学博士、哲学博士与 JAMA+ AI 主编 Roy H. Perlis 医学博士、理学硕士一起讨论了一项质量改进研究,该研究考察了在筛查这些缺陷的测试中继续纳入种族的必要性。相关内容:研究结果质疑在产前出生缺陷筛查中纳入种族的价值 重新评估在开放性神经管缺陷产前筛查中纳入种族的必要性</context> <raw_text>0 欢迎收听 JAMA AI 对话。我是 JAMA Plus AI 的主编 Roy Perlis,我很高兴欢迎今天的嘉宾,宾夕法尼亚大学佩雷尔曼医学院病理学和实验室医学系的 Daniel Herrmann 博士。
今天,我们将讨论他最近发表在《JAMA 儿科》杂志上的研究,即重新评估在开放性神经管缺陷产前筛查中纳入种族的必要性。Herman 博士,感谢您今天加入我们。很高兴能与您交谈,Perlis 博士。感谢您的机会。在我们深入研究您的研究细节之前,您能否给我们一些临床背景?这种产前检查是在何时以及如何使用的?
当然。开放性神经管缺陷影响大约每 1400 次妊娠中的 1 次,我们用于筛查这些缺陷的工具之一是测量 AFP 浓度或甲胎蛋白浓度。这在妊娠中期早期进行,产前进行,其工作原理是,我们从孕妇身上采集样本,测量 AFP 浓度,并将其与我们预期的值进行比较。
明白了。所以您有一套标准。种族传统上是如何融入这种模型的?
当然。我们进行这些比较的原因是,AFP 浓度在妊娠中期迅速升高。因此,我们不能在例如 15 周妊娠年龄与 20 周妊娠年龄时使用单一的解释阈值。这就是为什么比大多数实验室测试使用更复杂的解释策略的原因。
在那之后,人们意识到 AFP 平均还有其他关联,其中之一就是种族。因此,传统上,妊娠年龄的调整是以种族特异性方式进行的。那从哪里来的?人们最初是什么时候坐下来建立这些模型的?是 30 年前还是 5 年前?
最初的研究是在 70 年代后期进行的,为此使用的统计方法是在 70 年代后期和 80 年代初期开发的。因此,几十年来我们一直在使用这种方法进行妊娠中期筛查。所确定的种族间的关联是
同时观察到的。几十年来进行了许多研究。这些研究之间存在很大的差异。大多数研究往往样本量较小。大多数研究往往样本量较小。它们往往是地域性的。许多研究表明种族之间存在平均关联。有些则没有。这些历史研究之间存在很大的差异。
有趣的是,这可以追溯到几十年前,我认为,就像人们想当然的许多模型一样。在这种情况下,您研究了种族在这些筛查模型中的纳入情况。是什么促使您首先提出这个问题?我们的狭隘问题是,在我们宾夕法尼亚医学的实践中,我们是否希望继续进行这种种族调整?
正如我所说,历史上观察到黑人孕妇的 AP 浓度平均高于其他人。因此,我们知道在我们的临床实践中,我们遵循了指南,即进行这种调整。
我们也知道种族是一种社会建构,它是不准确的,也是不精确的。我们认为,在像这样系统地将种族纳入临床实践中,应该有很高的证据标准。华盛顿大学最近进行了一项研究
试图重新评估这一点,并发现在其人群中,在调整其他患者因素后,与种族的关联似乎消失了。
由于历史研究之间存在很大的差异,我们不确定什么对我们的患者群体有意义。因此,我们想回顾一下,看看我们是否看到了相同的关联,并更深入地思考一下,如果我们将此置于更大的背景下,继续这种做法是否有意义?
如果我理解正确的话,这实际上是,我们应该继续这样做吗?这实际上是一个以临床为重点的质量改进。我们应该这样做吗?这很有趣,因为它与许多以研究问题为先的建模研究不同。在这种情况下,这听起来像是一个非常务实的问题。
这是公平的。我的意思是,我们知道我们正在调整种族。我们知道,回顾文献,从现有的证据来看,这并不明确。因此,我们想更好地了解在我们患者群体中
这种种族调整的影响是什么,以及如何将其与种族医学的危害进行比较,以及更好地理解,如果我们取消种族调整,它将如何改变患者的结局?
我想这可能是我应该问你这个问题的时候了,你发现了什么?当然。我们回顾了宾夕法尼亚医学在三年内对 7000 名孕妇进行的研究数据。我们发现,这与其他一些研究一致,即黑人患者的甲胎蛋白中位数倍数平均略高,平均高出约 8%,并且
当我们追踪整个过程并应用标准解释阈值时,我们发现,当我们使用非种族模型与种族调整模型相比时,黑人患者的假阳性解释频率略高于其他人。
我们可以用不同的方式看待这些关联,但在绝对尺度上,如果我们从种族调整模型转向非种族模型,假阳性率的差异为 0.6%,这意味着,从种族调整模型转向非种族模型,我们预计每检查 170 名患者,黑人患者的假阳性病例就会比其他人多一例。
我喜欢你这样表达的方式。从绝对数字的角度思考很有帮助。也许这不是一个公平的问题,但在进行分析之前,您是否对阈值有一个概念,在这个阈值下您希望在模型中保留种族?例如,如果您说假阳性率为 20%,您会以不同的方式表达吗?
这是一个好问题。我们对这个问题的思考在我们分析数据、更深入地思考其后果时发生了变化。我的意思是,有很多不同的方法来询问公平性的问题。
我们历史上进行这种种族调整的原因是,平均而言,黑人孕妇的浓度略高,似乎是这样。流行病学证据并不表明黑人患者的胎儿开放性神经管缺陷的频率更高。因此,如果其他一切条件都相同,
最大限度地减少假阳性病例的数量并使各患者群体之间的假阳性病例数量相等是有意义的。然而,当我们更深入地思考时,筛查阳性率和假阳性率只是其中的一个因素。这项测试的目的是筛查开放性神经管缺陷。而未知的事情之一是,这种种族调整如何影响开放性神经管缺陷的敏感性尚不清楚。
如何平衡对敏感性和假阳性率的影响是一个重要的问题。但是在这里,我们实际上并不知道种族调整如何影响开放性神经管缺陷的敏感性。因此,在缺乏证据的情况下,没有什么可以平衡的。我们需要更多能够指出这个问题的研究,能够告诉我们,种族调整是否会影响敏感性?
并告诉我们这些患者的结局,这才是最重要的。我想这里的重要概念是,这种权衡可能很大程度上取决于具体情况。因此,在这种情况下,从临床角度来看,我认为您在论文中指出了这一点,阳性测试会有后续检查。对吗?
没错。因此,如果患者筛查结果呈阳性,现在所做的后续检查是非侵入性超声检查,在绝大多数情况下都是诊断性的。因此,我的意思是,我不希望任何人出现假阳性,在这种情况下,假阳性会导致相当大的焦虑,并导致后续检查。
但这种危害在一定程度上得到了缓解,因为诊断性超声检查很容易获得,并且可以在获得筛查阳性结果后不久进行。明白了。我应该在这里指出的一件事是,这是一个关于人工智能的播客。很多时候,我们都在谈论新的 AI 应用。
但我很好奇,您试图解决的关于种族及其在模型中作用的这个问题相当简单。但由于这是一个 AI 播客,您认为对于那些正在构建这些非常复杂的人工智能模型并可以选择在其工作中是否纳入种族的人来说,有什么可以借鉴的吗?
是的,这是一个很好的问题。我的意思是,从这里放大来看,我们在这里的特定问题集中在产前筛查上。它与一般情况不同,因为模型非常非常小。它是透明的,我们可以明确地理解包含种族或不包含种族之间的区别。我认为,其中一个要点是拥有良好的结果指标非常重要。如果您更广泛地考虑,能够评估特定个人的
特定临床问题的 AI 应用,它如何影响不同群体的患者处理我们认为对该患者最重要的临床结果。
并且在开发时这样做非常重要。对我们来说,开发能够在实践中实际做到这一点的工具也很重要,以便监控并说,如果我将此工具应用于实践,它是否改变了患者中这种重要临床结果的频率?在这里,模型更加明确。
我们可以考虑种族纳入或未纳入如何影响患者种族分组的性能和下游临床结果。
对于一般的人工智能模型,我们知道在这些模型的训练中存在很多偏差,并且在使用这些模型时会重复出现。因此,我认为第一个原则是能够在开发阶段和实施阶段很好地评估这一点。然后,作为社区,我们需要花时间去理解这一点
并制定我们认为对个别问题合适的公平目标,以及如何制定这些目标以及如何应用这些价值观,这些价值观来自在我们训练、应用人工智能模型以及监控这些模型时的一组多样化的利益相关者。
那么,对于这个特定模型或这个特定测试,它是否导致您改变了您的实践?宾夕法尼亚大学现在是否改变了它应用这些阈值的方式?是的。我们正在采取两步法来解决这个问题。总的来说,我们看到假阳性率存在细微差异,但由于我们不知道对敏感性的影响,我们也不知道黑人患者平均 AFP 较高的机制是什么,
我们认为没有足够的证据继续在这种实践中调整种族。因此,现在我们已经改变了我们的实践,我们正在计算与患者种族无关的中位数。我们的下一步是,我们实际上正在构建一个新的应用程序,它将允许我们完全从订购和结果过程中删除种族,并将允许我们纳入我们的新方法,并且
还将允许我们改进信息沟通方式、订购流程和结果流程。因此,现在我们正在以与种族无关的方式计算风险和 AFP 中位数倍数。我们的下一步将是从订购和结果过程中完全删除种族。
因此,在开发这类测试 50 年后,您将拥有一个新的迭代版本,希望它能够利用更新的数据和更新的技术。是的。变化不大。测试的核心是相同的。作为研究的一部分,我们实际上更新了方法。因此,我们说,与其对妊娠年龄进行连续调整,然后等待,不如使用多元模型。与其对患者进行分组,
并且必须逐周查看,我们使用了一种明确的分位数回归方法来估计中位数。这不是人们可以想象做的最好的方法。最好有一种方法没有这种关联,这种平均偏差。我们希望了解其机制,并试图了解为什么我们会看到这种偏差,
如果我们可以纳入新的生物标志物会更好。有一些初步证据表明,具有不同糖基化的特定形式的 AFP 可能是一种更好的生物标志物。我们实际上并不知道这些不同的 AFP 变体如何与种族相关联。因此,社区中有一些机会和事情,我们应该朝着这个方向努力,这可以平均提高这种方法。
并提高使用这项测试的公平性。但这是我们现在可以采取的步骤。我们可以从计算中删除种族,我们可以尝试进行额外的研究来询问有关敏感性的问题,进行额外的研究来询问是否存在潜在的遗传因素?是否存在潜在的环境因素?我们能否测量更好的分析物?
所以,还有更多工作要做。Herrmann 博士,再次感谢您与我们讨论您在《JAMA 儿科》杂志上发表的研究。对于我们的听众,如果您想阅读更多关于这项研究的信息,您可以在剧集说明中找到文章链接。要关注此播客和其他 JAMA 网络播客,请访问我们的在线网站 jamanetworkaudio.com 或在您获取播客的任何地方搜索 JAMA 网络。本集由 JAMA 网络的 Daniel Musisi 制作。
感谢您的收听,我们下次再见。