原创
作者:领医知识岛 2024年03月13日 17:12 1729 阅读目前,AI已经在包括医学影像分析、药物检测、高危患者识别、医疗记录编码等医学场景取得了多方面的发展。当下的AI虽然并不完美,但是它正在以惊人的速度迅速迭代。
昨天领医知识岛精挑细选了大量的资讯、报告、论文,最终我们还是决定给大家分享一篇关于GPT-4在医疗场景应用的期刊特别报告——《Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine》(《GPT-4用作医学AI聊天机器人的优势、局限和风险》,“领医知识岛”公众号后台回复关键词“Peter”获取pdf版原文)。
尽管这是一年前发表在《NEJM医疗前沿》(与《新英格兰医学杂志》同属于NEJM集团)上的一篇文章,但是今天读来仍然显得并不过时。文章前两位作者是微软研究院的Peter Lee 和 Sebastien Bubeck两位博士。这两位大咖近年来在AI领域较为活跃,偶有刷屏级文章问世。
这类“幻觉”在医疗场景中显然尤其危险,因此检查或核实AI输出的信息就显得尤为必要。庆幸的是,AI在不断地迭代,不仅能够自查自纠,而且“幻觉”也正在被克服。
作者文章中列出的这些示例,都是在2022年12月使用GPT-4的预发布版本运行所获得的结果。在2023年3月向公众发布的版本上运行时,GPT-4已不再表现出之前的“幻觉”。
文章中的三个示例的应用场景分别是:撰写医疗记录、解答美国医师执照考试题目、医师向同事寻求建议时可能提出的“非正式医疗咨询”问题解答。
在撰写医疗记录的场景中,GPT-4根据医患对话文本撰写出了医疗记录,并且它也可以对人类或其它AI系统撰写的医疗记录进行检查确认。GPT-4发现了几处错误,并完成了更正。
在拟定的部署方案中,患者签署知情同意书之后,GPT-4可听取诊疗过程中的医患对话获得医疗记录文本。诊疗完成后,软件应医师要求生成医疗记录。GPT-4不仅能够生成多种常用格式的医疗记录,还能就诊疗问题提取预先核准信息生成符合标准的实验室检查单、处方、撰写就诊总结以及向临床医师和患者提供重要反馈。
在解答美国医师执照考试题目的场景中,尽管GPT-4只经过互联网上公开信息的训练,但是答案正确率达到90%以上。GPT-4解释了答案背后的推理过程、参考了已知医学事实、指出了因果关系、排除了其它答案,并为其“观点”提供了令人信服的依据。
在提出典型的“非正式医疗咨询”问题场景下,向GPT-4提供患者初始临床表现或实验室检查结果后,它通常可以做出有用的回应,也可能帮助医务人员解决关注的问题。GPT-4可阅读医学研究资料,并参与相关讨论以及提出可能的后续研究问题。这使得GPT-4不仅可用于医疗咨询、临床诊断,还可用于医学教育和科研。
当然,作者也发现在上述场景下,虽然GPT-4非常强大,但是谈不上完美。它存在重要局限性,甚至存在出错的情况。
比如在撰写医疗记录场景的示例中,GPT-4写出患者体质指数(BMI)为14.8,事实上医患交流原始文本中并无相关信息,也就是说它出现了“幻觉”。
好在,在另一个会话中,作者要求GPT-4阅读文本和医疗记录,它发现了关于BMI的“幻觉”。在“重读”后输出的信息中,它还指出医师并未提及营养不良或心脏并发症的体征。虽然临床医师观察到了这些体征,但在与患者的对话中并没有关于这些问题的内容。这些信息对建立诊断基础很重要,重读文本后解决了这一问题。最后,AI系统提出需要更详细说明安排的血液检查,以及安排这些检查的依据。
文章预测,医疗专业人员和患者将越来越频繁地使用生成式AI。“也许最重要的一点是,GPT-4本身并不是终点,而是通往新前景和新风险的大门。我们推测,GPT-4之后很快将出现更强大、能力更高的AI系统,即一系列越来越强大、越来越智能的机器。
”这些机器是工具,就像所有工具一样,它们可以用来做好事,但也有可能造成伤害。如果小心谨慎使用,这些不断发展的工具有可能帮助医护人员提供可能的最佳医疗。“
作者在文章结尾部分,还提出了一系列的问题,如山谷回声:
“我们应如何评估像GPT-4这类工具的通用智力?用户可以在多大程度上“信任”GPT-4?读者是否需要花时间确认其所写内容的真实性?除校对外,还需要做多少事实核查工作?GPT-4可以在多大程度上协助完成这项任务?”
诸如此类的问题,无疑将成为医学界和非医学界争论的话题。(完)
(重要提醒:本文仅作为知识分享、信息交流所用,欲进一步了解详情可访问链接https://www.nejm.org/doi/10.1056/NEJMsr2214184,或后台回复关键词“Peter”获取pdf版原文。同时,欢迎正在关注或进行“医疗&AI“开发尝试的医界朋友们添加下方二维码进入专属社群,我们可以更高频、更深度地聊起来。)
评论