首页 > 前沿 > 文章详情

一线|NEJM刊文还原医生与GPT-4对话,暴露医疗AI的优势、局限和风险(文中附实录)

原创

作者:领医知识岛 2024年03月13日 17:12 1729 阅读
作者刘武.HAI
来源|领医知识岛
AI不是风口,而是真实的现在和可能既惊又喜的未来。AI与医疗等垂直行业的互相结合正悄然前行,只是程度深浅、进度快慢的差别而已。

目前,AI已经在包括医学影像分析、药物检测、高危患者识别、医疗记录编码等医学场景取得了多方面的发展。当下的AI虽然并不完美,但是它正在以惊人的速度迅速迭代。

昨天领医知识岛精挑细选了大量的资讯、报告、论文,最终我们还是决定给大家分享一篇关于GPT-4在医疗场景应用的期刊特别报告——《Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine》(《GPT-4用作医学AI聊天机器人的优势、局限和风险》,“领医知识岛”公众号后台回复关键词“Peter”获取pdf版原文)。

尽管这是一年前发表在《NEJM医疗前沿》(与《新英格兰医学杂志》同属于NEJM集团)上的一篇文章,但是今天读来仍然显得并不过时。文章前两位作者是微软研究院的Peter Lee 和 Sebastien Bubeck两位博士。这两位大咖近年来在AI领域较为活跃,偶有刷屏级文章问世。

-1-
表现堪称惊艳,“幻觉”正在被克服
AI聊天机器人对于人类的提问,已经能做到真正的“秒回”。作者特意列出了一些与GPT-4人机对话的示例。
从这些会话示例可以看出,一般情况下GPT-4能够根据互联网上有依据的信息,以及通过逻辑或数学计算较为流畅地回答问题,并且还能提供通常有依据的建议。
然而,当人类给出的提问并无单一已知“正确”回应时,GPT-4也会产生“幻觉”编造答案。并且,它有时是在分析用户可能的情感需求之后给出回应,主打的就是提供情绪价值。

这类“幻觉”在医疗场景中显然尤其危险,因此检查或核实AI输出的信息就显得尤为必要。庆幸的是,AI在不断地迭代,不仅能够自查自纠,而且“幻觉”也正在被克服。

作者文章中列出的这些示例,都是在2022年12月使用GPT-4的预发布版本运行所获得的结果。在2023年3月向公众发布的版本上运行时,GPT-4已不再表现出之前的“幻觉”。

目前的AI对提示词的形式和措辞仍然较为敏感。而“提示工程”(prompt engineering)既是一门艺术,也是一门科学。尽管未来的AI系统可能会对提示中使用的精确语言不那么敏感,但是就目前而言仍然需要对“提示词”进行仔细设计和测试,才能产生最佳结果。
有一点值得注意的是,尽管目前市场上的一些AI在医学应用中表现出了不同程度的能力,但是包括GPT-4在内的这些AI大语言模型并不是为诸如解读医疗影像、分析医疗记录等特定任务而开发,却具备通用认知能力。
文章称,AI完全采用互联网上的公开数据在进行训练,比如公开的医学文字内容、研究论文、医疗系统网站,以及医学信息播客和视频。训练数据中不包含任何专用内部数据或专用网络上的医学信息。(编者注:事实并非完全如此。关注公众号在后台回复“证据”可获得某互联网大厂共享电子健康记录数据与外部机构合作开发AI的案例信息。)
目前,各大著名的AI大模型几乎都在开展医学应用方面的研究。微软和OpenAI就一直在开发一系列越来越强大的AI系统,包括在医疗领域和医学应用程序中的可能用途,比如AI在医学和医疗文书工作、数据互操作性、诊断、研究和医学教育等方面的应用。
-2-
三个医疗场景的AI应用示例惊喜参半
由于医学通常会通过案例来教授,所以作者在文章中也提供了三个基于具体场景的GPT-4潜在医学用途示例,以及通过补充附录的形式给出了更多示例。

文章中的三个示例的应用场景分别是:撰写医疗记录、解答美国医师执照考试题目、医师向同事寻求建议时可能提出的“非正式医疗咨询”问题解答。

在撰写医疗记录的场景中,GPT-4根据医患对话文本撰写出了医疗记录,并且它也可以对人类或其它AI系统撰写的医疗记录进行检查确认。GPT-4发现了几处错误,并完成了更正。

在拟定的部署方案中,患者签署知情同意书之后,GPT-4可听取诊疗过程中的医患对话获得医疗记录文本。诊疗完成后,软件应医师要求生成医疗记录。GPT-4不仅能够生成多种常用格式的医疗记录,还能就诊疗问题提取预先核准信息生成符合标准的实验室检查单、处方、撰写就诊总结以及向临床医师和患者提供重要反馈。

在解答美国医师执照考试题目的场景中,尽管GPT-4只经过互联网上公开信息的训练,但是答案正确率达到90%以上。GPT-4解释了答案背后的推理过程、参考了已知医学事实、指出了因果关系、排除了其它答案,并为其“观点”提供了令人信服的依据。

在提出典型的“非正式医疗咨询”问题场景下,向GPT-4提供患者初始临床表现或实验室检查结果后,它通常可以做出有用的回应,也可能帮助医务人员解决关注的问题。GPT-4可阅读医学研究资料,并参与相关讨论以及提出可能的后续研究问题。这使得GPT-4不仅可用于医疗咨询、临床诊断,还可用于医学教育和科研。

当然,作者也发现在上述场景下,虽然GPT-4非常强大,但是谈不上完美。它存在重要局限性,甚至存在出错的情况。

比如在撰写医疗记录场景的示例中,GPT-4写出患者体质指数(BMI)为14.8,事实上医患交流原始文本中并无相关信息,也就是说它出现了“幻觉”。

好在,在另一个会话中,作者要求GPT-4阅读文本和医疗记录,它发现了关于BMI的“幻觉”。在“重读”后输出的信息中,它还指出医师并未提及营养不良或心脏并发症的体征。虽然临床医师观察到了这些体征,但在与患者的对话中并没有关于这些问题的内容。这些信息对建立诊断基础很重要,重读文本后解决了这一问题。最后,AI系统提出需要更详细说明安排的血液检查,以及安排这些检查的依据。

有鉴于此,作者指出在未来部署的GPT-4应用中,应将处理幻觉、遗漏和错误的这一机制和其它机制包含在其中。
-3-
若干问题需要被讨论
值得留意的是,作者还提醒这些示例都是在2022年12月使用GPT-4的预发布版本运行的,“我们注意到GPT-4很可能处于一种几乎不断变化状态。我们预计,仍在开发中的GPT-4将继续演进,其整体性能有可能改进也有可能退化。”

文章预测,医疗专业人员和患者将越来越频繁地使用生成式AI。“也许最重要的一点是,GPT-4本身并不是终点,而是通往新前景和新风险的大门。我们推测,GPT-4之后很快将出现更强大、能力更高的AI系统,即一系列越来越强大、越来越智能的机器。

”这些机器是工具,就像所有工具一样,它们可以用来做好事,但也有可能造成伤害。如果小心谨慎使用,这些不断发展的工具有可能帮助医护人员提供可能的最佳医疗。“

作者在文章结尾部分,还提出了一系列的问题,如山谷回声:

“我们应如何评估像GPT-4这类工具的通用智力?用户可以在多大程度上“信任”GPT-4?读者是否需要花时间确认其所写内容的真实性?除校对外,还需要做多少事实核查工作?GPT-4可以在多大程度上协助完成这项任务?”

诸如此类的问题,无疑将成为医学界和非医学界争论的话题。(完)

重要提醒:本文仅作为知识分享、信息交流所用,欲进一步了解详情可访问链接https://www.nejm.org/doi/10.1056/NEJMsr2214184,或后台回复关键词“Peter”获取pdf版原文。同时,欢迎正在关注或进行“医疗&AI“开发尝试的医界朋友们添加下方二维码进入专属社群,我们可以更高频、更深度地聊起来。

微信扫一扫
收藏

评论

请先后发表评论~