2025-11-11 19:27来源:本站

大型语言模型可能会以优异的成绩通过医学考试,但将它们用于诊断目前将是严重的疏忽。医疗聊天机器人做出草率的诊断,不遵守指导方针,并将患者的生命置于危险之中。
这是TUM的一个团队得出的结论。他们首次系统地调查了这种形式的人工智能(AI)是否适合日常临床实践。
尽管目前存在缺陷,但研究人员看到了这项技术的潜力。他们发布了一种方法,可用于测试未来医疗聊天机器人的可靠性。
大型语言模型是用大量文本训练的计算机程序。ChatGPT背后经过特殊训练的技术变种现在甚至几乎完美地解决了医学研究的期末考试。
但这样的人工智能能取代急诊室医生的工作吗?它能安排适当的检查,做出正确的诊断,并根据病人的症状制定治疗计划吗?
由TUM医疗保健和医学人工智能教授Daniel r
ckert领导的跨学科团队在《自然医学》杂志上发表的一篇文章中解决了这个问题。
医生和人工智能专家首次系统地研究了开源大型语言模型Llama 2的不同变体在诊断方面的成功程度
为了测试这些复杂算法的能力,研究人员使用了来自美国一家诊所的匿名患者数据。他们从一个更大的数据集中选择了2400例病例。所有的病人都因腹痛来到急诊室。每个病例描述以四种诊断和治疗方案中的一种结束。所有记录的诊断数据都可用于病例-从病史和血液值到影像学数据。
“我们以这样一种方式准备数据,即算法能够模拟医院的真实程序和决策过程,”慕尼黑工业大学Klinikum rechts der Isar放射科助理医师Friederike Jungmann解释说,他与计算机科学家保罗·海格(Paul Hager)共同撰写了这项研究。
“这个程序只有真正的医生所拥有的信息。例如,它必须自己决定是否要进行血液计数,然后利用这些信息做出下一个决定,直到最终确定诊断和治疗计划。”
研究小组发现,没有一个大型语言模型始终要求所有必要的检查。事实上,程序对病例的了解越多,诊断的准确性就越低。他们经常不遵守治疗指南,有时会安排对真正的病人造成严重健康后果的检查。
在研究的第二部分,研究人员将人工智能对一部分数据的诊断与四位医生的诊断进行了比较。后者的诊断准确率为89%,而最好的大型语言模型的准确率仅为73%。每个模型都能更好地识别某些疾病。在一个极端的案例中,一个模型正确诊断出胆囊炎症的几率只有13%。
使程序不适合日常使用的另一个问题是缺乏鲁棒性:大型语言模型所做的诊断依赖于它接收信息的顺序。语言的微妙之处也会影响结果——例如,程序是被要求进行主要诊断、初步诊断还是最终诊断。在日常临床实践中,这些术语通常是可以互换的。
由于两个主要原因,该团队明确没有测试OpenAI (ChatGPT)和Google的商业大型语言模型。首先,出于数据保护的原因,医院数据的提供者禁止使用这些模型处理数据。其次,专家们强烈建议,只有开源软件才应该用于医疗保健领域的应用。
“只有采用开源模型,医院才有足够的控制和知识来确保患者的安全。当我们测试模型时,知道使用什么数据来训练它们是很重要的。否则,我们可能会用他们训练过的相同问题和答案来测试他们。公司当然会对他们的培训数据保密,这使得公平评估变得困难。”
“此外,将关键的医疗基础设施建立在外部服务的基础上,这些服务可以随意更新和改变模式,这是危险的。在最坏的情况下,数百家诊所赖以生存的这项服务可能会因为无利可图而关闭。”
这项技术的发展进展迅速。Daniel r
ckert教授说:“在可预见的未来,一个大型语言模型将更适合从病史和测试结果中得出诊断。”“因此,我们已经为所有希望在临床环境中测试大型语言模型的研究小组发布了我们的测试环境。”
rckert看到了这项技术的潜力:“在未来,大型语言模型可能成为医生的重要工具,例如用于讨论病例。然而,我们必须始终意识到这项技术的局限性和特殊性,并在创建应用程序时考虑到这些,”这位医疗人工智能专家表示。
更多信息:Paul Hager等人,评估和缓解临床决策中大型语言模型的局限性,Nature Medicine(2024)。DOI: 10.1038/s41591-024-03097-1期刊信息:自然医学由慕尼黑工业大学提供引文:人工智能聊天机器人适合医院吗?大型语言模型的诊断能力测试(2024年,7月22日)从https://medicalxpress.com/news/2024-07-ai-chatbots-suitable-hospitals-diagnostic.html检索2024年7月23日。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。