We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode AI当医生,怎样才能不把天“聊死”?

AI当医生,怎样才能不把天“聊死”?

2025/7/1
logo of podcast AI可可AI生活

AI可可AI生活

AI Deep Dive AI Chapters Transcript
Topics
在传统的医疗诊断流程中,医生通过问诊、检查等步骤,逐步缩小诊断范围。AI在医学上的应用,过去通常是将病人的所有信息打包成选择题或填空题,让AI直接寻找答案,忽略了真实诊断过程中的过程性推理。一个优秀的医生不仅需要知道答案,更重要的是知道该问什么问题,该做什么检查,以及何时可以下结论,需要权衡成本和收益,判断哪个信息对下一步诊断最关键。我观察到,AI在模拟真实诊断场景时,需要模拟医生的这种思考过程。 最近的一篇论文提出了使用语言模型进行序贯诊断的方法,模拟真实的医疗诊断过程。该研究设计了一个更真实的考场,即序贯诊断基准(SD Bench),将真实的病例转化为可以互动的模拟诊疗。在这个考场里,AI扮演医生,需要通过提问和检查来逐步诊断,系统还会记录每次检查的费用。这种设计不再是考察AI的知识储备,而是考察AI是否具备像医生一样思考的能力,即策略和智慧。我发现,这种模拟方式更贴近真实的医疗场景。 为了打造更聪明的AI医生,研究者们设计了一个名为MAIDXO的诊断编排器,它不是让一个AI单打独斗,而是在内部组建一个虚拟专家会诊小组。这个小组由多个角色组成,包括负责提出诊断方向的医生、负责选择检查的医生、负责质疑诊断思路的医生、负责控制成本的医生以及负责检查流程的医生。通过引入不同的视角和制衡机制,MAIDXO能够提高诊断的准确率并降低诊断成本。我认识到,真正的智能不仅仅在于拥有多少知识,更在于如何组织和运用这些知识。

Deep Dive

Shownotes Transcript

咱们都去过医院看病是个什么流程你跟医生说大夫我这不舒服医生不会立刻就给你下诊断说你得了什么什么病他会先问你哪儿不舒服多久了有没有干过啥特别的事这就是问诊接着他可能会让你去做个检查拍个片子验个血拿到结果后他再结合所有信息一步一步地缩小范围最后告诉你可能是个什么问题你看诊断是一个连续的动态的抽丝剥茧的过程

这跟咱们做题可不一样做题是题目和条件都摆在那你直接求解而看病更像是在玩一个信息有限的猜谜游戏你得主动去提问去探索才能拿到解谜的关键线索过去我们想看看人工智能在医学上有多大本事是怎么做的呢通常是把一个病人的所有情况什么病史检查结果化验单一股脑的打包好做成一道选择题或者填空题然后让 AI 来回答这就像开卷考试所有资料都给你了

你只要找答案就行这种方法当然能测出 AI 的知识水平但它忽略了真实诊断过程中最宝贵的东西过程性推理一个好医生不仅要知道答案更重要的是他知道该问什么问题该做什么检查以及什么时候可以下结论他得考虑成本不能一上来就让病人把所有检查都做一遍他得权衡利弊判断哪个信息对下一步的诊断最关键最近

有一篇题为 Sequential Diagnosis with Language Models 用语言模型进行序贯诊断的论文就像这个传统测试方法发起了挑战它给我们带来了非常大的启发这篇论文干了两件大事第一件大事它设计了一个更真实的考场研究者们创建了一个叫做序贯诊断基准 SD Bench 的系统他们找了 300 多个新英格兰医学杂志上发表的出了名男的真实病例把他们从一个个静态的文本变成了一场场可以互动的模拟诊疗

在这个考场里 AI 扮演医生他一开始只能拿到一两句话的病人简介比如一个 29 岁的女性因为喉咙痛和出血入院接下来怎么办全靠 AI 自己他可以选择问问题比如病人最近有没有旅行史他也可以选择开检查比如做个胸部 CT 当然他也可以选择下诊断但一旦下了诊断游戏就结束了系统会立刻评判对错

为了让这个模拟更真实系统里还有一个守门员 Gatekeeper 你问问题他就扮演知情的角色回答你你开检查他就把检查结果给你而且你每开一个检查系统都会给你记上一笔账模拟真实的医疗花费这个设计妙在哪儿它不再是考 AI 知不知道而是考 AI 会不会它逼着 AI 像一个真正的医生那样思考我手头的信息够不够下一步我最需要知道什么为了拿到这个信息我应该问问题

还是做一个昂贵的检查这一下就把对 AI 能力的考察从知识储备的维度提升到了策略和智慧的维度那么在这个真实的考场里表现如何呢研究者们请了 21 位经验丰富的全科医生来参加测试结果在这些高难度病例上医生们的平均诊断准确率是 20%左右这不代表医生水平不行而是说明这些病例确实非常棘手需要跨领域的专业知识

而那些我们熟知的直接拿来用的 AI 大模型呢表现各不相同有的模型准确率高但花钱也多动不动就开一堆昂贵的检查有的模型倒是省钱但准确率又跟不上这就引出了这篇论文的第二件大事它打造了一个更聪明的 AI 医生研究者们没有满足于直接测试现成的 AI 而是设计了一套新的工作方法叫做 MAI 诊断编排器 MAIDXO 你可别被这个名字吓到它的思路其实特别好理解

它不是让一个 AI 单打独斗而是让一个 AI 角色扮演在内部组建一个虚拟专家会诊小组这个小组里有五个角色分工明确假设医生 Dr. Hypothesis 专门负责提出最可能的三种诊断方向并且根据新出现的信息不断更新这个排行榜的概率检查选择医生 Dr. Test Chooser 他的任务是从一堆检查里挑出性价比最高的最能区分的几种可能诊断的检查挑战医生 Dr. Challenger 这是个杠精

专门唱反调他会不断质疑主流的诊断思路防止 AI 陷入先入为主的思维定势成本管家医生 Dr.Stewardship 他的眼里只有钱时刻提醒大家要节约成本用便宜的检查能解决问题就绝不用贵的核查医生 Dr.Checklist 负责在后台默默检查确保整个流程没有疏漏提出的检查项目都是规范的你看这套机制是不是很像一个成熟的医疗团队在工作的样子有主攻的有辅助的有负责创新的

还有负责风控和质检的结果怎么样呢当把这个专家小组系统用在最强的 AI 模型上时奇妙的事情发生了它不仅把诊断准确率从 78.6%提升到了 80%以上最高甚至达到了 85.5%更关键的是它把平均诊断成本大大降低了比如它能用大约 2400 美元的成本达到接近 80%的准确率而标准 AI 模型要达到差不多的准确率却要花掉近 8000 美元这意味着什么这意味着

通过一个更聪明的工作流程 AI 可以在更准确的同时也更经济它打破了我们通常认为的想要更准就得花更多钱的困局这篇名为 Sequential Diagnosis with Language Models 的论文给我们普通人最大的启发是什么呢它告诉我们真正的智能可能不仅仅在于拥有多少知识更在于如何组织和运用这些知识那个虚拟专家小组的设计本质上是一套优秀的思维框架它通过引入不同的视角比如

比如挑战者和成本管家建立起一种结构化的有制衡的决策流程从而让最终的输出结果质量更高更可靠这就像我们自己做决策一样一个人的智慧是有限的但如果我们脑子里能预设几个不同的声音一个负责出主意一个负责挑毛病一个负责算成本我们的决策质量是不是就会大大提高所以未来 AI 的发展可能不仅仅是比拼谁的模型更大谁的知识更多更是比拼谁能设计出更智慧的操作系统

和工作流程这不仅仅是技术问题更是个思想和方法论的问题而这种思想无论对一个组织还是对我们每个人都同样适用