欢迎收听AI Unraveled全新特别深度节目,本节目由加拿大高级工程师兼热衷足球的奶爸Etienne Newman创作制作。很高兴来到这里。如果您从这些深度节目中获益,请花一点时间在Apple上点赞和订阅。这真的对我们很有帮助。绝对的。并且一定要查看节目说明。我们有推荐链接和特别的折扣码。
最高可享受Google Workspace 20% 的折扣。- 哦,不错。- 是的,您可以释放Google Gemini Advanced Pro 的强大功能,这可以说是当今最好的AI模型。- 它肯定名列前茅。- 此外,您还可以获得所有这些很棒的好处,例如团队功能、个性化电子邮件、Notebook LM Plus等等,
还有更多。绝对值得一看。所以今天我们要解决一个非常关键的问题,我认为。我们如何才能使人工智能和医疗保健真正可靠,特别是对于医学诊断?一个巨大的课题。是的。对于您这位学习者来说,这次深度探讨将探索一个强大的解决方案或潜在解决方案,称为一致性预测,简称CP。不错。
别忘了仅仅获得AI的最佳猜测。想象一下,获得一组可能的诊断结果,但有统计保证实际上包含正确的答案。保证部分是关键。没错。因为在医学中,错误的判断可能造成灾难性的后果,对吧?想想...
全球数百万人的死亡仅仅是因为严重细菌感染的诊断延迟。这是一个严峻的警示。因此,向可靠的AI转变至关重要。我们将详细解释CP是什么,它是如何工作的,它的神奇之处,以及为什么它作为构建更安全、更有用的医疗AI的一种方式而引起如此大的兴奋。是的。我认为这里最吸引人的地方是,我们对如何在医学中判断AI进行了根本性的反思。
怎么会这样?最初的淘金热,都是追逐最高的准确率分数,不是吗?提高百分比。对。99% 的准确率。每个人都发生了。或者他们以为是这样。但是,令人不安的责任问题,你知道,当涉及到生死攸关的时候,我们真的能相信这些黑匣子系统吗?
这促使人们将重点转向更深刻、更可靠的东西。可证明的可靠性。好的。这不仅仅是关于平均表现良好。而是关于提供实际保证。是的。这种对值得信赖的AI日益增长的需求,我们也看到它在监管机构中得到了回应,例如FDA。FDA。对。他们越来越严格地审查这些
人工智能医疗设备的安全性和关键的有效性。标准越来越高了。好的。让我们更详细地解释一下AI的核心问题。我的意思是,它拥有令人难以置信的前景,对吧?筛选大量的复杂医学数据图像、电子病历、基因组学、监测信号。但你的数量惊人。以及检测这些细微模式的潜力,这些模式可能对人眼是不可见的。这确实是革命性的。确实如此。但问题来了,对吧?
AI预测,无论多么复杂,都不是绝对可靠的。在高风险的临床环境中,不可靠的AI可能会导致严重的错误,对患者造成实际后果。正是如此。这里的一个关键挑战是AI预测中固有的不确定性。这不仅仅是AI有时会犯错误。有一个
数据本身的根本随机性,我们称之为偶然性不确定性。偶然性。然后是我们的模型的局限性,你知道,我们用来训练它们的数据。这就是认知不确定性,我们知识的匮乏。所以要处理两种不确定性。没错。关键的一步不是忽略这种不确定性,而是主动量化它。
并将其清晰地传达给临床医生。隐瞒它对任何人都没有帮助。一点也不。否则,我们冒着过度自信的预测出错的风险,这会破坏信任,并可能造成伤害。因此,整个不确定性量化(UQ)领域致力于解决这个问题,对吧?
我们已经看到了不同的方法,贝叶斯方法、集成方法。许多不同的技术。贝叶斯方法试图捕捉一系列可能的模型参数。集成方法训练多个模型并查看它们的不同之处。但今天我们的重点完全放在一致性预测上。核心思想是什么?是什么让CP在UQ领域中脱颖而出?一致性预测CP真正引人注目的核心是,
它承诺提供统计保证。这就是区别所在。好的,保证。一致性预测不是只提供一个可能易碎的单一预测,而是为分类任务提供一个预测集。就像一个可能性列表。没错。想象一下一个简短的,甚至可能是优先级的,可能的诊断列表。或者对于回归任务,例如可预测性。
例如预测实验室值,它会给你一个预测区间,一个范围。- 好的,一个集合或一个区间?- 关键的区别在于,这个集合或区间带有用户定义的保证,例如95%,它将包含真实的但目前未知的
结果。哇。好的,所以它不仅仅是高精度。它是一种关于包含真相的保证。这是根本性的见解。从仅仅信任高精度转向对建议的正确性具有统计保证。你之前提到了一些非常有趣的事情。这种保证是无分布的,并且在有限样本的情况下也成立。这听起来非常强大,尤其是在医学领域,数据可能混乱或有限。它确实很强大。这种稳健性取决于一个相对温和的假设,称为数据可交换性。可交换性。好的,在实践中这意味着什么?这样想:如果你打乱了你的数据点的顺序,过去的病人记录和你正在查看的新记录,
潜在的统计模式会发生根本性的变化吗?在许多理想化的研究数据集中,答案可能是肯定的,它不会发生太大变化。但在现实世界中,随着治疗方法的变化、患者群体的变化,可能并非总是如此简单。对。医院的情况会随着时间而变化。没错。可交换性基本上意味着,如果改变顺序,数据序列的联合概率分布不会改变。
它比假设数据是独立同分布(IID)的假设更弱,而IID在医疗保健中往往是一个很大的简化。所以它比IID的假设更宽松,但仍然很重要。这是CP的保证如此普遍适用的关键原因。另一个巨大的优势是,CP是模型无关的。是的。你基本上可以把它包装在你已经训练好的几乎任何现有的机器学习模型周围。
深度神经网络、随机森林、梯度提升,等等。无需重新训练原始模型?很大程度上是的。特别是对于我们将要讨论的常见分割CP方法。你不需要从根本上改变或重新训练那个核心预测引擎。它就像一个包装器。好的,让我们想象一下。与其让AI查看扫描结果并只说恶性肿瘤,一致性预测可能会给我们一组结果,例如
恶性肿瘤、良性囊肿。有可能,是的。是的。或者如果它非常自信并且校准支持这一点,它可能只给出恶性肿瘤。但是,如果根据数据和模型的校准存在歧义,它可能会给你那组结果。它承认不确定性。并包含概率或只是标签。它通常只提供满足基于校准的一致性标准的标签集。
底层模型可能会提供概率,这些概率会输入到计算中,但输出的是具有覆盖保证的集合。明白了。对于回归预测,例如预测药物反应,我们得到的不是仅仅80%有效,而是一个范围,例如75%到85%有效。没错。具有相同的统计保证,
真实的有效性很可能在这个区间内,例如95%的时间。因此,从单点到集合或区间的转变是CP直接解决不确定性的方式。正是如此。在许多医学情况下,不同的疾病看起来非常相似。症状重叠,成像特征细微,
即使对于专家来说,做出明确的判断也很困难。因此,提供一组可能的可能性,并以统计保证为后盾,实际上在临床上更有用,也可能更安全。
好的,现在让我们深入探讨一下细节。CP是如何构建这些具有承诺覆盖率的集合的?你提到了可交换性及其在医学中的潜在缺陷。让我们重新讨论一下。对。所以可交换性是基础。它假设打乱数据顺序不会改变潜在的联合统计数据。以及陷阱。现实世界的临床数据很少是静态的,是吗?
电子病历不断发展,新的治疗方法出现,成像方案得到更新,患者群体发生人口统计变化。分布变化是一场持续的战斗。没错。时间依赖性、校准数据和新数据之间的差异、患者群体之间的系统性差异。
这些都可能违反严格的可交换性。如果违反了可交换性,那么理论上的覆盖保证可能无法在实践中完全按承诺的那样成立。它可能会下降。
这是你绝对需要考虑和监控的事情。这是一个非常重要的警告。因此,虽然无分布性很好,但我们仍然需要仔细考虑可交换性对于我们的特定用例是否是一个合理的假设。绝对关键。好的。现在,你还提到了非一致性分数。听起来很技术性,但你说它们是引擎。它们确实是引擎,是的。NCS或非一致性分数,基本上是一种衡量特定数据点(意味着输入与
潜在输出)与系统已经看到的数据相比有多奇怪或异常的方法。分数越高,越不符合规范,越不寻常。对于分类,一个非常常见的NCS只是1减去基础AI模型分配给特定类别(例如肺炎)的概率。好的,低概率意味着高非一致性分数。没错。如果模型认为对于这位患者的X光片来说肺炎不太可能,那么这个潜在的标签就会得到一个高分。
对于回归,典型的分数只是预测值与实际观察值的绝对差(残差)。误差越大,分数越高。因此,分数反映了AI与潜在答案的差异程度。这是一个很好的说法。这个潜在的输入-输出对与模型学习的模式偏离了多少。以及分数的选择...
它会影响可靠性,即覆盖保证吗?啊,有趣的是,不会。NCS的选择不会破坏覆盖保证的有效性。这是稳健的。但是,这是一个很大的但是,NCS的选择会极大地影响预测集的效率。效率意味着大小。没错。集合的大小。一个精心选择的NCS,一个真正能够准确捕捉不同类型输入的模型不确定性的NCS,
通常会导致更小、更紧凑、更有临床意义的预测集。而一个糟糕的NCS。可能会导致巨大的集合,例如条件A、B、C,一直到Z。从技术上讲,它可能仍然包含95%的时间的真实答案,但这并没有什么帮助。对,信息量不大。因此,CP中的许多研究实际上都致力于设计巧妙的非一致性分数,这些分数适合于特定的条件。
问题和模型,以便在保持保证的同时获得这些有用的小型集合。好的,我们有这些分数来衡量非典型性。下一步是什么?我们如何使用它们来构建具有保证的集合?你提到了一个校准数据集。是的,校准集至关重要。这是一个与训练数据不同的单独标记数据块。它必须与测试数据可交换。至关重要,是的。它需要与你将要进行预测的新的未见测试数据可交换。
使用你选择的NCS计算这个校准集中每个点的非一致性分数。好的,所以你从校准数据中得到一个很大的分数列表。没错。然后,根据你想要的置信水平,让我们坚持95%,所以alpha是0.05,你找到这些校准分数对应的分位数。分位数,就像第95个百分位数?正是如此,经验分位数。所以你对所有
校准集中的所有分数进行排序,并找到低于该分数的95%的分数的值。该值成为你的阈值。我们称之为QAT。好的,我们在校准数据上计算分数,找到95%的临界点QAT,现在怎么办?现在,当一个新的测试点出现时,一个新的患者扫描,你考虑每一种可能的诊断或标签方式。
对于每个可能的标签,你计算它的非一致性分数,SX test Y。使用相同的NCS函数。使用完全相同的NCS函数。然后,你将最终预测集中包含所有非一致性分数SXS test Y小于或等于你之前找到的阈值QAT的标签Y。啊,我明白了。所以如果一个潜在的诊断看起来比95%的校准示例不那么奇怪,它就会被包含在集合中。这就是它的本质。另一种表达方式是使用p值。
对于每个可能的标签,你可以计算一个p值,它基本上是大于或等于该测试标签分数的校准分数的比例。好的。然后你只需包含p值大于你的显著性水平0.05的所有标签。在数学上是等价的。而这个整个过程,计算分数,从校准数据中找到阈值,比较测试分数,这给了我们边际覆盖保证。就是这样。保证PY true X test,一个EGA,
对于从相同可交换分布中抽取的任何新数据点,其真实标签EADF落入生成的预测集CIX test中的概率至少为一个EADF。因此,平均而言,在许多预测中,我们的95%集合将包含至少95%时间的真相。这是CP强大的理论结果。它适用于任何数据分布、AI模型、NCS,只要可交换性成立。你提到了边际覆盖率。这到底是什么意思?
边际意味着它是所有可能的测试点的平均保证。它不保证每个测试点或子组的95%覆盖率,只是整体平均而言。好的,这是一个重要的区别。在实践中,因为我们根据有限的校准集计算阈值,所以实际覆盖率通常略高于1 A-Teri。它往往有点保守,这在医学中不一定是坏事。安全第一,也许吧。
现在,你还提到了两种主要的实现方法:完整CP和分割CP。
为什么分割CP现在是首选方法?对。完整或转导CP是最初的想法。对于每个新的测试点和它可能具有的每个可能的标签,你都会暂时将该测试点与该假设标签添加到你的整个训练数据集中。等等,把它添加到训练数据中?是的。然后你将从头开始重新训练你的整个AI模型,使用这个略微修改后的数据集。然后你将再次计算所有非一致性分数,并查看该假设标签是否符合预测集的条件。你必须重新训练模型...
对于一个预测,可能需要数百或数千次。没错。对于需要数小时或数天才能训练的现代深度学习模型以及数百种可能的诊断来说。
从计算上来说,这完全不可行。完全不切实际。好的,是的,这听起来对于实际应用来说是一个无法启动的项目。绝对的,这就是为什么开发了分割或归纳CP,ICP。它高效得多。ICP的工作方式有何不同?使用ICP,你首先将你的初始标记数据分成两组,通常是一组适当的训练集和一组校准集。
如果你需要一个单独的验证集来进行模型调整,有时是三组。好的,专门的集合。你只在适当的训练集上训练一次你的AI模型。你使用这个固定的已训练模型来计算你单独的校准集中的点的非一致性分数。对,只使用校准集找到阈值QAT。没错。你根据校准分数确定你的阈值QAT。
现在,当一个新的测试点出现时,你使用同一个已经训练好的模型来计算该测试点所有可能标签的非一致性分数。并将它们与你已经计算出的阈值QAT进行比较。正是如此。将分数与QAT进行比较,构建预测集,预测时无需重新训练。它在计算上效率高得多,并且使CP能够用于复杂的模型和大型数据集。这有很大的区别。训练一次,校准一次,然后高效地进行预测。嗯哼。
好的。但是你提到了一个潜在的问题。即使使用高效的ICP,预测集有时也可能过大,对吧?特别是对于复杂的任务。是的。这是一个真正的实际挑战。拥有保证是很好的,但是如果你的胸部X光片的预测集列出了50种可能的疾病...
这对试图做出决定的临床医生来说并没有什么帮助。并没有缩小范围。没错。这就是测试时间增强或TTA作为一种潜在提高效率、收紧这些集合的方法而出现的原因。测试时间增强。其基本思想是什么?TTA是一种经常用于计算机视觉的技术,用于在预测时提高模型性能。
核心思想是你获取你的单个测试输入,例如医学图像,并创建多个略微修改的版本。修改了多少?你可能会裁剪不同的部分,水平翻转它,稍微旋转它,也许调整亮度或对比度,标准图像增强。好的。然后你将你已经训练好的AI模型运行在这些增强的版本中的每一个上。所以你得到了同一个原始图像的多个预测。就像获得略微不同的视图。没错。
然后你聚合这些预测,通常是通过对每个类别的预测概率进行平均来获得最终的,希望更稳健和准确的原始图像预测。所以这就像结合来自同一模型对略微不同的输入的多个意见。正是如此。
它倾向于消除模型对输入中的微小变化、噪声或特定框架的敏感性,并且通常会导致更好的精度和来自基础模型本身的更好校准的置信度分数。好的,有道理。那么这如何帮助解决一致性预测集过大的问题呢?嗯,研究人员,尤其是在麻省理工学院的研究人员,有这样的见解。如果TTA提高了底层预测的质量和校准,
也许你也可以使由此产生的一致性预测集更小、更有信息量。啊,改进CP过程的输入。没错。这导致了他们所谓的TTA增强的一致性预测,或TTA-CP。好的,那么请向我介绍一下TTA是如何集成到CP工作流程中的。当然。在TTA-CP中,该过程如下所示。首先,你获取你的标记数据并将其分割。但现在你可能需要三组数据。
一个主要的训练集,如果模型是预训练的则可选。一组用于学习最佳TTA策略,我们称之为DTTA。以及你通常的一致性校准集,DECAL。好的,一个专门的集合来找出最佳的TTA方法。对。然后对于DTA和DECAL中的图像,以及以后的测试图像,你使用一组选择的增强方法生成多个增强版本。你将你的基础模型运行在所有这些增强图像上。获得大量预测。是的。现在,使用DTTA集,你学习一个聚合函数。
你应该如何最好地组合来自增强图像的预测?也许是一个简单的平均值,也许是一个加权平均值。你学习在DTTA上什么方法最有效以最大化精度。所以你学习了组合TTA结果的最佳方法。没错。一旦你有了这个学习到的TTA策略,即使用哪些增强方法以及如何聚合,你就将其应用于你的校准集decal。你获得了所有校准点的聚合预测。使用学习到的TTA策略。正确。
然后你根据这些聚合的TPA预测计算你的非一致性分数,并找到你的一致性阈值QAT,就像在标准ICP中一样。基于改进的TTA预测。是的。最后,当一个新的测试图像到达时,你应用相同的学习到的TTA策略,创建增强,运行模型,使用你学习到的函数聚合预测。
然后你根据这个聚合预测计算每个可能标签的非一致性分数,并与你的阈值QAT进行比较,以形成最终的预测集。这非常巧妙。你基本上是在应用一致性校准之前使用一些数据来微调预测过程。至关重要的是,你不需要重新训练原始的基础AI模型本身。没错。它就像一个围绕原始模型的复杂后处理包装器。
为了保持保证,一个关键细节是使用不相交的数据集来学习TTA策略,T-T-T-A,以及一致性校准,DECAL。为什么这种分离如此重要?它确保校准数据DECAL在现在固定的PTA策略的条件下与测试数据保持可交换性。如果你对两者使用相同的数据,你就会引入违反CP保证严格成立所需假设的依赖关系。明白了。仔细的数据分割是关键。
结果如何?TTA-CP是否真的缩小了预测集?是的,结果非常显著。在标准基准上,包括医学影像数据集,与应用于相同基础模型的标准CP相比,它们通常会看到平均预测集大小在10%到30%的范围内减少,有时甚至更多。这是一个实质性的效率改进。确实如此。至关重要的是,这是在保持理论边际覆盖保证的情况下实现的。
集合更小,更集中,但平均而言,仍然包含至少1%时间的真实诊断。所以信息量更大,而不会牺牲核心可靠性。双赢。没错。这是一个非常有吸引力的结果。他们是否发现了其他有趣的东西,例如数据分配如何影响事情?是的,他们发现了一个有趣的权衡。
即使他们只使用一些标记数据来学习TTA策略,这意味着与标准ICP相比,可用于最终校准步骤的数据更少,但使用TTA带来的预测质量改进往往超过了具有略少校准数据的影响。所以投资一些数据到TTA中总体上是有回报的?这表明是的。
战略性地使用一些数据进行这种类型的后训练改进技术,可以比仅仅将所有可用的标记数据都用于校准获得更好的实际不确定性量化。有趣。对特定类型的预测有什么影响?他们还注意到,对于基础模型最初置信度较低的类别,TTA似乎特别有用。
聚合视图TTA有时可以提高真实类别的等级或分数,即使它最初不是最佳猜测啊,所以它可以挽救可能处于边界的预测潜在的,是的,这反过来会影响非一致性分数,并可能导致更小、更准确的集合。底线是,改进基础预测的质量直接有助于提高一致性预测的效率,这很有道理,更好的输入导致
导致更好的输出。TKACP很有吸引力,因为它相对易于使用。你不需要全新的模型架构或复杂的反向训练计划。你通常可以将其应用于现有模型以获得更有用的不确定性保证。好的,TTA有助于集合的大小,但我们谈到了标准边际覆盖保证是一个平均值的概念。如果我们需要对特定群体甚至个体患者有更强的保证怎么办?平均值可能会掩盖问题,对吧?你触及了一个非常关键的点,尤其是在医学方面。
平均而言,边际保证PY true CX one对是一个很好的开始,但它不会告诉你关于在特定人口统计群体或患有特定合并症的患者甚至个体困难病例上的性能的任何信息。是的。而且我可能总体上95%可靠,但始终未能针对特定子组。这是不可接受的。绝对不行。这在临床上可能是危险的,在伦理上也是有问题的。
对更细致、更具适应性的可靠性保证的需求推动了更先进的一致性方法的发展。我们希望保证在特定条件下成立。因此,第一步似乎是一致性预测,试图获得以某些特征或群体为条件的保证。没错。目标是在特定环境下有效的覆盖保证。这里较早的方法之一是组条件CP,通常称为Mondrian CP。Mondrian CP。是的。
其思想是你在数据中预先定义一些不同的、不相交的组。
例如,可能基于年龄段,18岁以下、18-65岁、65岁以上,或者可能是在研究中参与的不同医院或使用的不同扫描仪。好的。划分数据。对。然后你分别在每个组内执行标准的一致性校准过程。你计算组特定的非一致性分数,并为每个组确定一个单独的阈值QAT。所以你为不同的组获得不同的阈值。正是如此。这给了你更强的保证。
给定输入属于特定组G,树状结果在预测集中的概率至少为一天。
PY是CGX,X,组G。对于这些特定组来说,这要强大得多。是的。它为这些预定义的不相交组提供了精确的条件覆盖率。但它也有局限性。例如?嗯,如果你的组重叠怎么办?或者如果你想要一个以连续特征为条件的保证怎么办,例如特定的生物标志物水平,而不仅仅是广泛的类别?Mondrian CP不能直接处理这个问题。好的,所以它适用于清晰、独立的组。
但不能满足更复杂的条件需求。还有什么?嗯,认识到对于每个可能的特定输入特征获得精确的条件覆盖率在理论上是不可能的,除非你做出非常强的假设。对。这听起来很难。
研究人员开发了近似条件覆盖率的方法。这里的目标是获得近似条件成立的覆盖率,可能不是在输入特征本身,而是在从输入或模型输出派生的某些统计数据上。例如什么类型的统计数据?例如,试图确保在模型自身置信度分数的条件下进行覆盖。因此,你希望在模型高度自信和不确定时都具有95%的覆盖率。
或者以某种方式衡量输入与训练数据相比看起来有多典型。因此,根据模型自身的行为或输入的特征调整保证
有点像。另一个相关的想法是标签条件CP,你可能会根据预测的标签进行不同的校准。这在分析电子病历文本以进行疾病监测等领域显示出前景,对常见疾病和罕见疾病进行不同的校准。有趣。现在,另一个角度似乎是根据局部特征调整预测集本身的大小,根据特定患者的情况看起来有多不确定,使其更宽或更窄。这导致了
局部自适应CP和保形分位数回归,CQR。没错。直觉是不确定性不是均匀的,对吧?有些患者病例很简单。其他则本质上是模棱两可的。如果标准CP只是应用一个全局阈值,则可能会给出对于简单案例来说不必要的大集合,或者对于困难案例来说太小的集合。因此,我们希望集合大小反映局部难度。正是如此。
局部自适应CP方法试图实现这一点。一种常见的方法是修改非一致性评分本身。不是仅仅使用原始误差或概率,而是用局部误差尺度或变异性的估计值对其进行归一化。你如何估计局部误差尺度?你可能会使用一个辅助模型,也许是在校准集上训练的,根据输入特征预测预期的误差大小。因此,非一致性评分就变成了……
预测误差,估计的局部误差标准差。啊,所以在预期出现较大误差的区域中,较大误差的非一致性程度低于在通常误差较小的区域中出现的相同误差。没错。这自然会导致在高不确定性区域中出现更宽的区间或更大的集合,而在模型通常准确的区域中出现更紧密的区间。
梯度提升等技术通常用于有效地学习这些自适应评分函数。这听起来更细致入微了。CQR,保形分位数回归呢?它是如何实现自适应性的?CQR采取了不同的但相关的途径。它首先利用分位数回归模型。
与预测均值的标准回归不同,分位数回归预测特定分位数,例如结果的第五百分位数和第九十五百分位数,以输入特征为条件。因此它直接模拟范围。是的。分位数回归模型本身就是自适应的。
预测的上下分位数之间的距离会根据输入特征自然变化,捕捉变化的不确定性,异方差性。好的,所以你首先训练分位数回归模型。对。它们给你一个初始预测区间,比如从预测的第5个百分位数到第95个百分位数,但是这个初始区间还没有那个保证的CP覆盖率。那么你如何获得保证呢?然后你使用你的校准集。
对于每个校准点,你测量真实值超出初始分位数区间的距离。
这会给你一组误差或一致性分数。基于初始分位数预测。是的。然后你找到这些一致性分数的适当分位数,并用它来调整或保形地校准初始区间宽度。你基本上根据校准误差添加一个缓冲区。啊,所以你使用分位数回归进行自适应性,然后对残差使用CP来锁定覆盖率保证。没错。CQR很受欢迎,因为它继承了分位数回归良好的自适应性。
通常在适当的情况下产生更短、更有信息的区间,同时仍然提供来自CP的严格有限样本覆盖保证。非常巧妙。现在,有时仅仅控制整体覆盖率是不够的。在医学中,某些类型的错误比其他错误要糟糕得多,对吧?比如错过癌症诊断。绝对的。假阴性可能是灾难性的,而假阳性可能会导致更多检查,但总体上危害较小,这取决于具体情况。
标准CP控制整体误覆盖率,但不区分错误类型。那么有没有办法使用CP来控制特定风险,例如假阴性率?是的。这就是保形风险控制或CRC的领域。它扩展了CP框架,允许控制除误覆盖率之外的其他用户定义的风险指标。例如假阴性率FNR,或者可能是错误发现率。
没错。你可以设定一个目标,比如说,我希望F&R低于5%,CRC提供构建预测集或做出能够证明满足这一风险控制目标的方法,同样是在可交换性的前提下。它在概念上是如何工作的?通常,它涉及以与你想要控制的风险指标直接相关的方式仔细定义非一致性评分和校准程序。
例如,对于FNR控制和二元分类,分数可能与模型预测的正类概率相关,并且阈值被设置为确保所需的FNR界限。好的。你提到了保形风险适应,CRA。CRA是最近的发展,特别是针对医学图像分割等任务。它试图实现更好的条件风险控制。
因此,它不仅控制所有图像的平均FNR,而且还使用自适应预测集和专门设计的评分函数,针对每张图像实现更一致的FNR。
它有点桥接了来自CRC和自适应CP的想法。听起来这些高级方法,条件覆盖率、局部自适应性、风险控制,提供了更量身定制的可靠性保证。确实如此。它们超越了基本的边际覆盖率,以满足更细致的临床需求。但我认为它们在实施方面可能更复杂,或者需要更多数据。这通常是权衡,是的。
更强大、更细致的保证通常伴随着更多的方法复杂性,可能是更强的假设或更难验证的假设,也许是校准需要更大的数据量,
或者需要训练辅助模型,例如用于估计局部误差。因此,从业人员需要在对这些复杂保证的渴望与实际成本和复杂性之间取得平衡。绝对的。这是关于为工作选择合适的工具,考虑具体的临床问题、可用数据和计算资源。
基本的CP通常是一个很好的起点,而这些高级方法在需要更具体的控制时提供了强大的选择。好的,我们已经介绍了理论和高级方法。让我们谈谈应用。保形预测现在实际上在医学诊断中被使用或探索了吗?它似乎非常通用。确实如此。这种与模型无关的特性加上保证使其几乎适用于医学中使用机器学习的任何地方。医学影像似乎是一个主要候选者。
放射学、病理学。绝对的。我们看到CP被用来为胸部X光、肺炎、心力衰竭等提供一系列鉴别诊断。
或者病理切片。临床医生得到的不是一个答案,而是一组具有统计学支持的可能性。帮助管理解释中的不确定性。没错。我们之前提到了保形分诊,使用CP将扫描(例如创伤后的头部CT)分层为低风险、高阴性预测值保证、高风险、高阳性预测值保证和不确定。
需要专家审查。这可以真正帮助优化工作流程。基于可靠的风险评估简化流程。对。而效用导向的CP旨在通过对导致相似治疗的诊断进行分组来使集合更有用。除了诊断,分割呢,比如异常值?
勾勒肿瘤。巨大的领域。CP可以量化分割中像素级的不确定性。像素肯定是肿瘤的一部分吗?可能或不确定。例如,Mondrian ICP已被用于前列腺MRI分割。通过识别不确定的边界像素,你可以获得更可靠的体积测量。这对跟踪治疗反应至关重要。绝对的。
而CRA,保形风险适应,正被应用于结肠镜检查视频中的息肉分割等方面,旨在实现一致的检测率,控制不同患者和条件下的假阴性。好的,从图像转向基因组学,另一个复杂的领域。是的,CP也在那里找到了立足点。为基因组变异调用提供置信集,区分真实的突变和测序噪声。
根据患者的基因谱预测患者对药物的反应,药理基因组学,但预测周围有一个置信区间。预测免疫疗法的反应,抗菌素耐药性。这两个。
在任何你拥有复杂生物数据和预测模型的地方,添加一层保证的不确定性量化都是有价值的。它有助于管理期望并根据确定性水平指导决策。使用电子病历数据进行临床风险预测,例如败血症呢?非常活跃的领域。有一些系统使用Mondrian CP结合在电子病历数据上训练的梯度提升等模型来预测败血症死亡风险。
它们提供风险评分和置信度水平,标记不确定的病例。帮助临床医生集中注意力。没错。其他工作使用CP与深度学习相结合,用于非ICU患者的早期败血症检测,旨在通过提供置信度评分来提高特异性。
还可以预测细菌感染的可能部位,气道、尿液、血液,并进行校准的置信度,以指导初始抗生素的选择。甚至使用电子病历中的文本进行疾病监测。是的。标签条件CP结合主动学习已被探索用于通过分析临床记录来监测疾病暴发。
试图可靠地识别可疑症状或疾病的提及。令人惊叹的是,应用范围如此广泛。药物发现也是如此。绝对的。预测分子特性、筛选候选药物、评估潜在毒性、预测药代动力学,所有这些都是使用ML的领域,并且在通过CP添加可靠的置信度度量可以使预测更值得信赖并对决策更有用。识别药物靶点也是如此。甚至更利基的领域。中医。心理健康。我们到处都能看到探索。
根据症状区分中医证候,根据面部表情视频预测抑郁症严重程度,甚至通过让大型语言模型输出可能的答案的保形集来使大型语言模型提供更可靠的答案集用于医学问答。哇。因此,CP的灵活性在不同的算法、传统的ML、深度学习、LLM和不同的数据类型、图像、基因组学、EHR、文本、化学结构中真正闪耀。关键的收获是通用性非凡。
但你也提到,最成功的应用往往超越了基本的CP,对吧?他们使用定制的变体。是的,这是一个重要的观点。
虽然基本的分割CP是一个很好的起点并提供了价值,但在复杂的医学领域中获得最佳结果通常需要利用我们讨论过的那些高级方法:Modrian CP用于群体公平性,CQR用于自适应区间,CRC用于风险控制,保形分诊用于工作流程优化。适应性通常是释放全部实际潜力的关键。好的,我们有这些强大的工具,越来越复杂。
但是我们如何才能有效地在诊所中使用它们呢?将保形预测集(例如湿疹、牛皮癣)转化为真正的临床行动的障碍是什么?这就是百万美元的问题,不是吗?弥合统计有效输出与真正临床效用之间的差距。因为得到一个集合,它是否有助于缩小可能性,或者它只是增加了临床医生的认知负担?这是一个合理的担忧。
临床医生应该如何解释该集合?排除集合中不存在的事物,关注集合中的所有事物,使用集合大小本身作为衡量不确定性的指标来指导进一步的测试?是的。如果集合中的条件需要非常不同的治疗怎么办?统计上有效的集合可能与临床决策途径并不完全一致。这就是效用导向的CP试图根据治疗影响构建集合的想法变得非常有意义的地方。而且这不仅仅是关于AI的输出,还关乎与人类临床医生的互动,对吧?他们有自己的知识。
绝对的。人类临床推理很复杂。临床医生有轮胎、经验、直觉,他们如何将CEP集合与他们自己的思维相结合。研究表明,它可能具有细微的影响,有时是积极的,有时可能会引入新的偏差。因此,它不是对判断力的简单即插即用替代。绝对不是。我们需要仔细的人为中心设计,考虑可视化、解释和工作流程集成。
将CP实际集成到临床工作流程中的一些有希望的途径是什么?几种模型正在出现。一种是主要使用CP进行决策支持和病例标记。标记。是的,标记AI高度不确定的病例。也许预测集非常大,或者包含非常不同的诊断。
然后,这些标记的病例将被优先用于人类专家审查,就像我们提到的败血症-RISCA系统一样。好的,使用不确定性来指导注意力。另一种是分诊系统模型,例如保形分诊,将患者分层到风险类别中,高PPV、高NPV、不确定,并有保证,直接影响工作流程和资源分配。更结构化的集成。第三种方法是将CP用作现有AI工具的安全层。
在部署新的诊断AI之前,你可以将其包装在CP中以获得不确定性估计和可靠性保证,从而增加一层保证。就像质量控制检查。有点像。
所有这些的基础是需要与电子病历和影像系统、KCS无缝集成。CP输出需要随时可用、易于可视化并且是正常工作流程的一部分。而不是临床医生必须有意识地打开和查阅的某种单独工具。说得对。但是实现这一目标的实际障碍是什么?肯定存在挑战。数据是一个大问题。ICP需要那个具有代表性的校准集。
理想情况下,它应该反映工具使用地的当地患者群体。因此,可能需要局部校准。通常情况下,是的,以确保保证在特定环境中真正成立。
这需要收集和管理本地数据的基础设施,这可能是一个障碍。如果标记数据非常稀少,ICP本身的数据分割效率可能很低。计算成本。对于基本的ICP来说较少,但是一些高级方法,例如TTA-CP或使用复杂辅助模型进行自适应性的方法,可能会增加计算开销。
我们需要足够精简的解决方案,以适应繁忙的临床环境。以及人的因素,信任和培训。非常重要。是的。临床医生需要了解CP集是什么,以及一次性保证实际上意味着什么以及不意味着什么。就像它不是针对这个特定患者的保证一样。
否则,即使有关于不确定性的信息,也存在误用或倒退到自动化偏差的风险。良好的培训和清晰的沟通至关重要。以及选择alpha,95%或90%,谁来决定?这是一个关键的决定。选择alpha涉及保证强度之间的权衡,较低的A意味着更强的保证,以及集合的效用。较低的A通常意味着更大、信息较少的集合。
这通常需要临床领域专家的仔细思考和投入,才能找到特定应用的正确平衡。因此,它确实强调了实施这不仅仅是一个技术问题。它关乎人为因素、工作流程、培训、信任。绝对的。以人为本的设计,直观的不确定性可视化方法,强大的培训计划。这些与算法本身一样重要。而局部校准的想法,虽然是一个挑战,但它也可能是一个机会。
解决分布变化并在当地建立信任。没错。使用特定于工具部署的医院或诊所的数据进行校准意味着可靠性保证适合该上下文。这可以显著提高临床医生的信任度和AI的实际效用。
好的,让我们稍微转向伦理和监管方面。公平性是AI的一个巨大担忧。CP如何与公平性考虑相互作用?这是一个复杂的互动。一方面,CP提供了关于不确定性的透明度,这可能会突出不平等。
但它并不能自动解决公平性问题。怎么会这样?好吧,即使你实现了整体边际覆盖保证,与其他群体相比,某些人口群体的预测集可能系统地更大或准确性更低。这就是不相称的影响。平均覆盖率不能保证群体间的公平性。对。即使你使用Mondrian CP来实现每个群体的平等覆盖率,这也不一定会导致公平的结果。
你的意思是?一些研究表明,与仅使用标准边际CP相比,强制执行每个群体的平等覆盖率可能会适得其反,有时会导致更糟糕的决策或加剧不平等,而人类与这些集合进行交互时。这很复杂。因此,平等的统计保证并不自动等于公平的现实世界影响。没错。
一些研究人员建议关注诸如群体间均衡集大小之类的指标,作为实践中公平性的更好启发式方法,但这仍然是一个活跃的研究领域。我们需要端到端的评估,关注整个人工智能系统。安全和信任呢?CP是否有助于减轻诸如自动化偏差之类的问题?它有潜力。
通过明确标记不确定性,例如通过更大的集合或特定标记,CP可以向临床医生发出信号,何时不要盲目信任AI的首要预测。这可以抵消自动化偏差。使不确定性可见。是的。关于AI知识局限性的透明度,以及统计保证的支持,对于建立合理的信任和增强安全性至关重要。
FDA等监管机构如何看待这些不确定性量化技术?他们是否将此纳入AI医疗设备的批准中?监管环境,特别是对于AI和机器学习以及医学,他们通常称之为SAMD(软件作为医疗设备),肯定正在发展。必须很难规范可以学习或适应的系统。是的。传统的医疗设备法规并非真正为可能随时间变化的算法而构建。
FDA使用基于风险的分类系统,但自适应AI带来了独特的挑战。那么他们关注的是什么?越来越关注稳健的性能评估,以及不确定性量化。他们正在积极努力开发评估AI安全性和有效性的适当指标、方法和工具。
包括如何处理和沟通不确定性。是否有批准可能更新的AI的机制?是的。他们引入了诸如预定变更控制计划(PCCP)之类的概念。这允许制造商预先指定他们计划在其AI算法获得批准后进行的某些类型的修改,而无需为每次小更新提交全新的申请。
只要他们遵循计划并监控性能?没错。它需要透明度、强大的监控和对预先商定的计划的遵守。他们还强调良好的机器学习实践(GMLP),其中包括数据管理、模型训练、确保在可能的情况下进行可解释性以及在CP等技术可以发挥作用的所有领域进行严格的评估。
因此,FDA鼓励可靠的AI,但是使用CP的系统仍然需要稳健的校准步骤协议以进行持续监控,特别是如果涉及局部校准或更新。绝对的。记录校准过程,确保校准数据的代表性,监控随着时间的推移可能违反可交换性或性能漂移的情况。所有这些都将是基于CP的医疗AI设备的监管提交和上市后监控的关键部分。好的,总结一下。
保形预测为在医疗AI中进行更可靠的不确定性量化提供了真正引人注目的途径。我们已经看到了它与模型无关的特性,那些无分布保证,校准预测集的概念。这是一个强大的框架。我们还探讨了诸如TTA之类的进步,以使集合更小、更高效,以及Mondrian CP、CQR、CRC等高级方法,以获得更具体的保证,条件覆盖率。
自适应区间,控制特定风险。导致在许多领域都有应用,成像、基因组学、EHR、药物发现。对。但我们也必须承认持续存在的挑战,获得真正稳健的条件有效性,进一步提高效率,使输出易于临床医生解释,确保实践中的公平性,与工作流程无缝集成,以及应对不断变化的监管环境。肯定还有很多工作要做。那么展望未来,关键的研究方向是什么?你认为该领域接下来会关注哪些方面?我认为我们将继续努力推动更好的、更实用的条件覆盖保证方法,这些方法对于特定的亚组或输入类型来说是可靠的。
设计针对特定医学数据和任务量身定制的更智能的非一致性评分对于效率也至关重要。更好地理解人为因素。绝对的。是的。关于人机交互的更多研究,临床医生如何实际使用这些集合,如何有效地可视化信息,它如何影响决策和潜在偏差。解决公平性问题,不仅在统计上,而且在现实世界结果方面。
至关重要。处理更复杂的数据。是的。将CP扩展到处理多模态数据(如图像+文本+实验室)和更有效地跟踪患者随时间变化的纵向数据。开发专门针对基于CP的系统的标准化验证和监控协议对于监管接受和临床信任至关重要。当然,还要继续进行计算效率方面的研究以进行部署。这是一个引人入胜且快速发展的领域。
所以,这是给你的学习者的一些最终想法。随着AI越来越深入地融入医疗保健的结构中,像保形预测这样复杂的技术最终将如何重塑临床医生与技术之间的基本关系?我们如何走向一个未来,在这个未来中,AI辅助不仅功能强大,而且对于患者来说也具有可验证的可靠性和可靠的安全保障?
我认为,对保形预测的原理和潜力的深入研究为我们提供了一个对未来的迷人一瞥。一个未来,在这个未来中,对医疗AI的了解越来越意味着不仅要了解AI预测的内容,还要精确地了解我们对这些预测的信心程度。了解局限性。没错。了解具有统计学支持的局限性。
因此,现在,当你考虑我们讨论过的整个情况时,你认为医疗AI中的哪些特定领域最有可能从这种严格可靠的不确定性量化中获得最大的好处?CP可以在哪里发挥最大的作用?