最近发表在《JAMA健康论坛》上的一项研究表明,医疗机构或许能够部署在本地运行的定制开源大型语言模型(LLM),而不会牺牲数据隐私或灵活性。哈佛医学院生物医学信息学系的Thomas A. Buckley,BS和Arjun K. Manrai,PhD两位共同作者与《JAMA+ AI》主编Roy H. Perlis,MD,MSc讨论了这一问题。相关内容:开源AI模型能否像GPT-4一样诊断复杂的病例?</context> <raw_text>0 欢迎收听JAMA Plus AI对话。我是JAMA Plus AI的主编Roy Perlis,我很高兴欢迎今天的嘉宾,来自哈佛医学院生物医学信息学系的Raj Manrai博士和Thomas Buckley。今天我们将讨论他们最近发表在《JAMA健康论坛》上的研究,即“比较用于复杂诊断的尖端开源和专有大型语言模型”。
这篇论文探讨了开源AI模型与闭源模型(在本例中为GPT-4)在生成针对最初发表在另一份医学期刊上的病例的鉴别诊断方面的比较情况。Raj,Tom,感谢你们今天加入我们。是的,谢谢。很高兴来到这里。感谢邀请我们。当然。那么,让我们从基础开始。Raj,你能告诉我们一些关于这项研究的信息吗?当然。正如标题所示,
在这项特定研究中,我们非常感兴趣的是比较所谓的尖端或领先的开源和专有大型语言模型在复杂诊断中的表现。直到最近,我认为人们普遍认为专有模型,例如来自OpenAI的ChatGPT模型,一直是许多应用中的主导模型和领先模型。
一些早期的研究表明,一些开源模型的表现并不太好。我认为这种情况最近发生了变化,特别是随着Meta和其他一些公司生产的模型的出现,例如LAMA系列模型,这些模型在医学以外的任务上的表现确实得到了很大的提高。因此,在这项研究中,我们试图对这些更具挑战性的案例进行进一步研究。
这些案例来自马萨诸塞州总医院的病例记录,也称为CPC(临床病理会议),由《新英格兰医学杂志》发表,我们评估了来自META的较新、较大的开源模型之一,即LAMA 3.1(4050亿参数模型)与GPT-4相比在这方面的表现。
所以这就是目标。我们将其设置与之前发表在JAMA上的一项非常有影响力的研究非常相似,这项研究是由我们的同事Adam Rodman和Zaheer Kanji在2023年发表的。
首先,我要感谢你称其为马萨诸塞州总医院。听到这个,我的心里真的感到很温暖。对于那些可能不太熟悉专有模型和开源模型之间区别的人,你能多说一些吗?例如,它们之间有什么区别?为什么普通人应该关心这些模型是开源的还是非开源的?
是的,这些专有模型,你非常熟悉,大多数听众也都很熟悉,例如来自OpenAI的ChatGPT,你必须使用它们的界面。有时会有另一家公司,例如微软,通过其Azure平台提供OpenAI模型。但你实际上是在使用一个我们无法访问的模型。大多数研究人员、大多数临床医生、
使用这些模型的患者和医生无法访问权重,并且将我们的查询发送到另一个平台,然后该模型在那里提供服务或响应。这可能是一些简单的事情,例如你登录ChatGPT网站或使用API,但你仍然是在将查询发送出去,将数据发送到另一个平台,然后获取响应。
非常不同,我认为对于医疗保健应用来说,一个非常关键的区别是这些开源模型,它们的权重是可用的。我们可以从字面上下载这些模型,小版本到我们的笔记本电脑上。我可以在我的电脑上运行它们,而较大的版本,我们可以在医院的防火墙后面,在医院的本地安全计算环境中运行。然后我们可以拥有患者数据,我们可以拥有在不离开医院的情况下运行的数据查询,因为该模型能够在本地检索和运行。它也可以进行微调,可以进行定制,可以在本地进行更改。我认为医院的IT部门、领导层以及
那些担心数据外泄以及数据隐私等非常重要的事情的人,对这一点的看法非常不同,因为数据不必离开医院环境,查询也不必离开医院环境。它们可以保留在本地,我们可以在本地运行这些模型。你提到了这一点,但我所在的地方甚至Wi-Fi都不稳定。可以说大多数人都可以运行一个4000亿参数的模型吗?你在本文中使用的那个模型仍然
有点超出了大多数人本地运行能力的范围。这样说公平吗?
你完全正确。我认为医院内部的设置非常非常不同。医院之间的设置也大相径庭。这是一个巨大而重要的课题,我认为我们仍然处于理解如何将这些大型开源模型在不同医院中进行操作化的初期阶段。
所以Thomas也许可以,我喜欢他对如何实际操作,以及他如何看待这个问题的想法,但也包括我认为他遇到的问题和他在跨越我们进行大量工作的BI以及我们正在合作的不同医院时克服的挑战。是的,是的。我认为这是一个很好的总结。对我来说,这项研究就像一个存在性证明,证明一个开源模型可以完成如此具有挑战性的任务,
我们甚至没有考虑过什么是可能的。OpenAI模型的训练成本可能数百万美元。据推测,它们的规模接近万亿参数,这非常庞大,对于大多数人来说完全不可行。但是这个模型,你实际上可以使用12个A100以全精度运行它,这正变得越来越接近医院可以部署的范围。例如,在BI,我们有8个A100,如果你使用量化权重或将模型蒸馏压缩的技术,实际上就足以运行这样的模型。与此同时,因为我们知道一个开源模型可以完成如此具有挑战性的任务,所以我真的很有希望,越来越小的模型也能做到同样的事情。我们看到模型变得更高效、更小,但在基准测试上的表现仍然保持在同一水平的令人印象深刻的趋势。所以我认为很快就可以在你的个人电脑上运行它了。
所以听起来像是一个概念验证。既然我们已经介绍了这一点,那么你们发现了什么?结果是什么?是的,我们发现了一个非常令人惊讶的结果,即开源LAMA模型的表现与专有GPT-4模型不相上下。
我的意思是,我对此感到震惊。例如,GBD4多年来一直是最好的LLM。这是每个开源LLM几乎都在其上进行训练的模型。例如,数据集是用GBD4创建的。开源模型在其上进行训练。例如,它一直是你需要通过的基准。所以我认为这对开源模型的开发来说是一个真正的转折点,一个你可以从字面上下载到你的电脑上的模型,其性能与这个模型不相上下。
所以这是节目中我们向嘉宾提出一个完全不公平的问题并让他们进行推测的部分。我想,你知道,我们这样的期刊正在努力解决的一个问题是如何决定何时发表使用特定模型集的论文,因为该领域发展得如此之快,对吧?所以,你知道,我们接受一篇使用特定版本的GPT的论文。到论文发表时,我们已经超越了那个版本两代了。
你们是如何考虑这个问题的,或者你们在自己的工作中是如何考虑这个问题的?你们对期刊和读者有什么建议?例如,我们是否应该关注这个版本比那个版本更好?
是的,我认为,Roy,这是一个非常好的问题。我认为,正如你所说,这与正在考虑什么是短暂的、什么是有趣的、什么是持久的编辑和期刊,以及在选择问题和选择项目在这个领域工作时,对研究人员来说也是非常相关的。
这也是我们从NEJM AI开始以来一直在进行的讨论。这是一个非常非常重要的问题。我们在那里真正努力解决的问题,我认为这甚至影响了我们选择问题的方法,甚至包括我们今天正在讨论的这篇论文,那就是试图找到一些东西,这些东西不仅仅是
在此时发布的两个模型的比较,也许在我们的基准测试中好1%、2%或10%。我们真正寻找的是能够开启或解锁新的科学探索途径、新的临床部署途径的东西。在这种情况下,并不是真正关于模型本身。我认为这个项目对我们来说很有趣
而且我怀疑对编辑们来说也很有趣,因为它正在解锁围绕这个问题的科学问题,以及围绕开源模型在这个任务上赶上来的机会,即使在两年前,我认为这项任务也像是科幻小说,对吧?但对于Kanji及其同事发表的那篇JAMA论文,
在这个艰巨的任务上,在这些艰难的案例上,这个开源模型能够与直到最近才占据主导地位的GPT-4模型相媲美。我认为这正如Thomas之前所说,这是一个存在性证明,这表明开源模型在非常有意义的方式上已经弥合了差距,对于我们认为
非常非常有能力的模型。因此,现在我们可以使用EHR记录进行许多有趣的工作,现在可以使用医院本地的数据,这些数据实际上无法离开,现在可以在医院集群上进行实时推理并提供这些二次意见,例如。一旦我们确定开源模型是胜任的、有能力的,就像领先的专有模型一样,我们就可以开始进行许多研究
而我们认为这在科学上和临床上更持久一些。但我认为你的观点非常正确。我们必须避免那种短暂的一次性比较。
好的。所以你回答了我的难题。我想我会继续问——是更难的问题还是更容易的问题?我们将继续进行下一个自适应播客,是的。没错。尽管我们将不得不屏蔽你提到的另一份期刊的名称。因此,这篇论文本身发表在《JAMA健康论坛》上。我在这里寻找一种政策角度。如果你正在为你的医院的CIO提供建议,
你会从这篇论文中得到什么启示?我的意思是,他们是否应该考虑使用这些模型的云版本?他们是否应该购买不再需要那么高级的昂贵硬件?如果他们想要有能力做这种工作,这项工作对医院和医疗机构应该投资什么意味着什么?
这取决于医院的目标。例如,我们正在研究一个问题,我们想从EHR记录中识别错误,例如,在我们可以直接在其上运行模型之前,对所有这些记录进行去标识或预处理或执行此操作将过于繁琐。所以我认为,如果你的目标是能够立即使用医院中孤立的记录,我认为在本地部署这些模型之一非常有意义。
我认为与此同时,如果你需要性能最好的模型,我认为你可以使用API。所以我认为我们将根据你的用例看到这两种方法的组合使用。这并不是你在论文中直接讨论的内容,但因为你们两位都是这方面的专家,大多数医院是否需要性能最好的模型?
尖端模型是否会继续成为必需品,或者我们现在是否已经到了这样一个阶段,即更易于在本地运行且更小、更快的模型可能也能完成大部分工作?
这是一个很好的问题。我认为我们仍然处于严格规划哪些模型可用于哪些任务的初期阶段。因此,我们想用一个具有挑战性的诊断难题来设计这个项目,对吧?我的意思是,你可以争辩说,我认为我们研究的一个局限性是这些案例并不代表临床实践。我认为有很多
医生在撰写病例介绍时所做的工作。他们正在整理所有这些信息,这种压倒性的、嘈杂的环境是医学,医生必须整理这些信息,将病例介绍拼凑起来。这就是我们给模型提供的信息。
所以我认为你暗示了一些极其重要的事情,那就是我们需要研究哪些模型可以用于哪些任务。我们需要更密切地关注对医生有用的特定任务。我认为我们将其视为,再次,我将回到这一点,我真的很喜欢Thomas所说的。这是一个存在性证明,对吧?这是以一种方式设置的,这些是复杂、具有挑战性的案例,
如果开源模型能够做到这一点,我认为这是一个有趣的问题。我们可以使用700亿参数的模型来尝试完成完全相同的任务吗?我们可以完成相关的任务吗?我们可以将其用于更接近信息提取或以安全的方式与患者交谈的任务吗?我认为我们才刚刚开始系统地探索这些问题。我完全同意我认为你的怀疑,Roy,那就是将会有许多模型可用
其功能不如尖端模型,但可以用于许多重要的事情,这些模型更快,延迟更低,能够以不会让医生感到厌烦的方式使用,因为它不必花费10秒钟来思考,也不会让CIO感到害怕,因为没有数据离开医院。我认为有理由相信,我们将迅速探索围绕模型如何与任务匹配的这种科学前沿。
但我完全同意。这是我们需要研究的东西。我还同意这种怀疑,即我们不需要在所有事情上都使用尖端模型。很多好的观点。我很喜欢一开始你就指出,这些小插曲是用非常具体、谨慎的方式撰写的,以传达特定信息。我知道对于CPC来说,例如,所有必要的信息都在那里。
你必须寻找它,但它在那里,并且以这样一种方式呈现出来,它并不一定会引导你找到答案,但如果你倾向于找到它,它就在那里。
我对许多小插曲研究的担忧,我认为现在我们需要一个黄金标准。这是一件非常合理的事情。但我担心的是,它并不公平,因为它并不真正反映个体医生体验中病例的发生方式。所以我很高兴你指出了这一点。我想换个话题。我想最后问你们两个一个问题,那就是,
想想你们的论文,也更广泛地想想你们所做的工作,假设你们穿过校园到布里格姆去看你们的医生,或者到贝丝以色列去看你们的医生。在你们预约期间,她正在网上查找你们的症状。她正在她的笔记本电脑上输入。你认为她使用这样的工具会让你感觉更好还是更糟?我认为我个人会感觉更好。我觉得在训练有素的医生的手中,聊天机器人
我认为现在这是一件相当可靠的事情。我认为他们已经在使用许多这些AI驱动的工具。我认为相信他们会对使用这些工具做出良好的判断是合理的。我认为他们不应该用它来完全诊断我的病人。但如果他们只是有一个后续问题,或者他们想要澄清,我认为我宁愿让他们使用查找工具或搜索引擎,而不是试图从记忆中想出来,我认为这就是我的想法。但是,当然也有一些局限性。我不希望完全由聊天机器人来诊断。我希望他们正在运用他们的专业知识。
这很公平。Raj,你呢?是的,我认为这将是,我将给你一个有点模棱两可的答案,但我认为这是因情况而异的。我认为总的来说,这会让我感觉更好,因为我认为我会通常想象医生会使用这些聊天机器人。
但如果他们正在查找一些非常基本的东西,而我希望我的医生知道这些东西,那也会让我感到不安,对吧?所以我认为这是一种,我们正在走捷径。例如,使用这些聊天机器人的医生类型是什么,然后在实际的临床护理访问或与患者的会面中使用它?
我认为也许其中包含一些假设。但我确实认为,无论我是否感到舒服,医生都在使用这些。我认为他们正在使用这些LLM和其它工具的许多不同版本。我认为Thomas说了一些话,我认为这非常重要。我认为这是我们需要传达的信息。所有这些模型仍然存在问题。
并且存在幻觉。它们自信地编造东西。它们有错误。所以我认为我们仍然处于这样一个阶段,即拥有人的判断力并确保这些模型的输出不被以有害的方式使用,这一点非常关键。
但作为一种想出你可能遗漏的东西的方法,作为一种二次意见,作为帮助患者甚至医生更好地理解护理或价值观的方法,我认为这些模型可以做很多事情,并且已经在做了。
Raj,Thomas,非常感谢你们今天与我们讨论你们在《JAMA健康论坛》上发表的研究。对于我们的听众,如果您想阅读更多关于这项研究的信息,您可以在剧集说明中找到文章链接。要关注此播客和其他JAMA网络播客,请访问我们的网站jamanetworkaudio.com,或在您收听播客的任何地方搜索JAMA网络。本剧集由JAMA网络的Daniel Morrow制作。感谢您的收听,我们下次再见。
此内容受美国医学会版权保护,所有权利均保留,包括文本和数据挖掘、AI训练和类似技术的权利。