美国国立卫生研究院(NIH)的研究人员发现,一种人工智能(AI)模型以很高的准确率解决了医学测验问题——旨在测试卫生专业人员根据临床图像和简短文本摘要诊断患者的能力。然而,医生评分发现,人工智能模型在描述图像和解释其决策如何导致正确答案时犯了错误。这一发现揭示了人工智能在临床环境中的潜力,发表在《npj数字医学》上。这项研究是由美国国立卫生研究院国家医学图书馆(NLM)和纽约市威尔康奈尔医学院的研究人员领导的。
NLM代理主任Stephen Sherry博士说:“将人工智能整合到医疗保健中,作为一种工具,它可以帮助医疗专业人员更快地诊断患者,使他们能够更快地开始治疗。”“然而,正如这项研究表明的那样,人工智能还不够先进,无法取代对准确诊断至关重要的人类经验。”
人工智能模型和人类医生回答了新英格兰医学杂志(NEJM)“图像挑战”的问题。这个挑战是一个在线测试,提供真实的临床图像和一个简短的文本描述,包括病人的症状和表现的细节,然后要求用户从多项选择答案中选择正确的诊断。
研究人员要求人工智能模型回答207个图像挑战问题,并为每个答案提供书面理由。该提示规定,基本原理应包括对图像的描述、相关医学知识的总结,并为模型如何选择答案提供逐步的推理。
从不同的机构招募了9名医生,每个医生都有不同的医学专业,他们首先在“闭卷”环境中回答他们分配的问题(不参考任何外部材料,如在线资源),然后在“开卷”环境中回答(使用外部资源)。然后,研究人员向医生提供了正确的答案,以及人工智能模型的答案和相应的原理。最后,医生被要求对人工智能模型描述图像、总结相关医学知识并提供逐步推理的能力进行评分。
研究人员发现,人工智能模型和医生在选择正确诊断方面得分很高。有趣的是,人工智能模型比封闭书本环境下的医生更经常地选择正确的诊断,而使用开放书本工具的医生表现得比人工智能模型更好,尤其是在回答最难的问题时。
重要的是,基于医生的评估,人工智能模型在描述医学图像和解释诊断背后的原因时经常犯错误——即使在它做出正确的最终选择的情况下。在一个例子中,向人工智能模型提供了一张有两个病变的患者手臂的照片。医生很容易就能认出这两种损伤是由同一种情况引起的。然而,由于病变呈现的角度不同,造成了不同颜色和形状的错觉,因此AI模型无法识别这两个病变可能与同一诊断有关。
研究人员认为,这些发现支持了在将多模式人工智能技术引入临床环境之前进一步评估其重要性。
“这项技术有潜力帮助临床医生通过数据驱动的见解来增强他们的能力,从而改善临床决策,”NLM高级研究员和该研究的通讯作者,陆志勇博士说。“了解这项技术的风险和局限性对于利用其在医学上的潜力至关重要。”
该研究使用了一种名为GPT-4V(生成预训练变压器4与视觉)的人工智能模型,这是一种“多模式人工智能模型”,可以处理多种类型数据的组合,包括文本和图像。研究人员指出,虽然这是一项小型研究,但它揭示了多模式人工智能在帮助医生做出医疗决策方面的潜力。需要更多的研究来了解这些模型与医生诊断病人的能力相比如何。
该研究由美国国立卫生研究院国家眼科研究所和美国国立卫生研究院临床中心的合作者共同撰写;匹兹堡大学;达拉斯德州大学西南医学中心;纽约大学格罗斯曼医学院,纽约市;哈佛医学院和马萨诸塞州总医院,波士顿;凯斯西储大学医学院,克利夫兰;加州大学圣地亚哥分校,拉霍亚;以及位于小石城的阿肯色大学。
美国国家医学图书馆(NLM)是生物医学信息学和数据科学研究领域的领导者,也是世界上最大的生物医学图书馆。NLM指导并支持记录、存储、检索、保存和交流健康信息方法的研究。NLM创建的资源和工具每年被数百万人使用数十亿次,用于访问和分析分子生物学、生物技术、毒理学、环境卫生和卫生服务信息。更多信息请访问https://www.nlm.nih.gov。
一个关于国家美国国立卫生研究院(NIH):
有话要说...