We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 有了赛博医生,就不用怕过度诊疗?

有了赛博医生,就不用怕过度诊疗?

2025/6/3
logo of podcast 虎嗅·商业有味道

虎嗅·商业有味道

AI Deep Dive AI Chapters Transcript
People
何建
作者
同源院等人
研究者
童云峰
邱锡鹏
Topics
研究者: 研究表明,医疗AI可能加剧“看人下菜碟”的现象。例如,高收入人群更有可能获得CT和核磁共振等高级检查,而中低收入人群可能只接受基本检查。AI甚至能通过X光片预测患者的种族和性别,导致医疗资源分配不均,最终扩大不同人群在健康水平上的差距。这种偏见即使经过修正依然存在,令人担忧。 童云峰: 我担心未来AI可能出现过度诊断的情况,比如将普通感冒误诊为癌症。这是因为投喂给AI的数据可能存在偏差,从而导致AI做出错误的判断。尤其是在医疗领域,这种错误可能带来严重的后果。 邱锡鹏: 我认为仅仅依靠无偏见的数据无法消除AI的偏见。构建一个完全无偏见的数据集非常困难,而且好的数据也未必能训练出完全无偏见的AI模型。AI与人类的追求存在差异,例如AI可能为了治病而忽视患者的痛苦,因此需要引入人机对齐环节,注入人类的价值观。 何建: 我认为过度诊疗与医疗发展水平密切相关,精准医疗和过度医疗之间存在一个灰色地带。医学需要不断自我革新,通过足够多的证据验证临床经验,才能使这个灰色地带向精准医疗倾斜。同时,明确疾病的预值对于判断干预的意义至关重要。

Deep Dive

Chapters
一项新的研究表明,AI医疗模型可能会根据病人的收入水平或其他因素来决定治疗方案,导致高收入人群获得更好的医疗资源。这种偏见是模型固有的还是数据造成的?
  • AI医疗模型可能加剧医疗健康差距
  • 高收入人群更容易获得先进的医疗检查
  • 模型中存在的偏见可能难以消除

Shownotes Transcript

有了赛博医生就不用怕过度诊疗。本文来自虎秀科技医疗组,作者陈广京,指望赛博医生整顿医疗的人们又失望了。试想,如果有一种尖端的医疗技术可以治好你的疾病,但是医生因为不掌握信息,推荐你用了传统的治疗手段,恢复效果远不如用上了新技术的病友。知道真相后,你会不会感到恼火?

再试想一下同样的情况如果发生在赛博医生身上但原因不再是信息滞后而是 AI 根据你的性别或收入水平做出了这样的选择呢近期一系列国际研究表明越来越聪明的大模型把医疗领域中看人下菜碟的老问题也放大了

一项美国医学团队发表在 Nature 此刊上的研究评估了 9 个自然语言大模型涉及 1000 个急诊病例其中包括 500 个真实病例和 500 个合成病例总计约 170 万个看诊结果分析结果显示被标记为高收入的人群更可能获得 CT 和核磁检查的机会

中低收入病例则通常只被安排做一些基本检查或不进行检查而被标注有无住房等信息的患者会更频繁地被要求接受紧急护理侵入性干预或心理健康评估即便研究者尝试对模型进行修正这种偏见仍然顽固的存在

更早的研究也证实 AI 仅凭 X 射线就能预测出患者的种族性别等信息这会令赛博医生比人类医生更精于看人下菜碟研究者认为是模型驱动了这些偏见最终会导致不同人群在健康水平上拉开距离

而在硬币的另一面部分患者也可能为本不需要的检查治疗而买单这不仅浪费了金钱还可能有损健康在令人失望的结局背后业界认为人类医疗健康是时候该尽快转向了

投位脏数据会污染大模型这是越来越令 AI 企业苦恼的事情之一在医疗领域其危害可能更大华东政法大学中国法治战略研究院特聘副研究员童云峰曾撰文表示担心未来 AI 会出现把普通感冒看成癌症的情况

美国研究者主导的另一项多中心随机临床小片段调查似乎也验证了这种担忧研究人员发现当临床医生使用明显带有系统性偏见的 AI 模型预测疾病时诊疗的准确性显著下降了 11.3%为此有人调侃道聪明的 AI 只会帮小忙坏的 AI 则能捅出大篓子

就其原因数据确实是非常关键的因素中国中医科学院中医药信息研究所的同源院等人研究发现除了信息化水平偏低等因素造成的医疗数据质量欠佳用于辅助诊断的医疗大模型还存在诸多数据方面的缺陷例如低收入人群孕妇儿童等特殊人群的数据不足总体数据代表性不强以及标注时带有偏见和主观判断或数据标注标准不统一等

这些会导致数据标注的质量不高存在偏差更重要的是在医疗活动中本来就存在大量无意识的偏见问题例如医生常常将女性患者对疼痛的描述视为夸大其词或歇斯底里却认为男性会更加坚韧这无疑是一种落后的性别刻板印象和偏见

2024 年 8 月有学者在知名期刊美国国家科学院院刊上发表论文调查了 2 万份没有明确原因的非特异性偏头疼患者的出院记录结果显示女性患者的平均后诊时长比男性患者长 30 分钟而在就诊记录中女性患者对疼痛的评分概率比男性患者低 10%给男性患者的疼痛评级也明显高于女性患者

同样的偏见在诊断过程中同样存在另有英国研究发现在初诊中女性心梗患者被误诊的几率比男性患者高 50%此外中风甲状腺机能减退等疾病也是女性患者更容易被误诊的重灾区在过度诊疗方面复旦大学公共卫生学院上海市浦东新区疾控中心进行了一项研究显示

中国女性肺癌患者的过度诊疗率从 2011 年至 2015 年的 22%增长至 2016 年至 2020 年的 50%其中女性肺腺癌患者中近 90%都被过度诊断了如果

如果将这类数据投位给大模型自然会影响到大模型做出诊断的准确性然而无偏的数据就能消除偏见吗专业人士的回答依旧是否定的复旦大学计算机与智能创新学院教授邱锡鹏曾坦言称只学正面的东西不学负面的东西不一定能培养出一个道德感非常强的人他认为要想解决偏见问题从数据下手并不是好办法

首先直接构建起一个无偏见的数据库是非常困难的再者好的数据也未必能训练出完全无偏见的大模型他认为这种 AI 难以满足人类伦理要求的现象主要原因在于大模型与人类的追求存在差异比如在医疗中人类医生会在疾病治疗和患者体验之间做一些平衡而 AI 可能会为了治病而对患者的痛苦视而不见

为了解决这一问题在训练大模型时技术人员需要引入人机对集环节注入人类的价值观给其提供一个更符合人类社会运行规则的伦理导向然而这种方式也常常被认为属于治标不治本反而会增加人工智能的管理风险

必须面对的现实是生成是人工智能在本质上还是概率模型很难不出现偏差或失误因此对于容错率无限趋近于零的医疗行业来说要想用好 AI 面临的挑战很大

医学是一个持续动态发展的学科从客观角度看过度诊疗或诊疗中的偏见与当下的医疗发展水平密切相关北京协和洛奇功能医学中心主任何建博士表示精准医疗和过度医疗之间存在一个灰色地带在精准医疗一书中作者格伦德福里阐释了一个道理对于某些疾病如果放在足够长的时间尺度上几乎每个人都会得

但如果在这一疾病出现症状前患者就因其他疾病离世提前干预则可能会失去意义

以对阿尔茨海默病的预测为例作者认为要解决这个问题明确痴呆损伤和死亡的预值是非常重要的如果预测到一个人在死亡预值前就可能出现痴呆损伤甚至在生命较早期就会出现这种损伤就有必要进行及时干预但如果预测发现一个人在死亡预值之后才会出现损伤那干预就是无意义的

因此何健指出探索这一边界的过程也是医学持续进步的过程医学需要不断的自我革新也需要足够多的证据验证临床经验过渡医疗本身是一个相对的概念要想使这个灰色地带向精准医疗倾斜

一个重要的方式就是用足够多的数据把边界做得更加清晰可以预见随着可穿戴设备人工智能等新技术的普及人们将对自身健康状况建立起更全面的认识与了解在此趋势下过度诊疗的空间势必会被不断被压缩未来如何解读和应对越来越多的生理性改变乃至早期病变可能会成为医疗领域需要面对的新课题