发表在《自然医学》上的一项大型真实世界临床试验发现,用于支持一线临床医生的生成式人工智能支持工具是安全的,并且提高了临床决策的质量,但并没有显著改变短期患者结果。

一项大规模的真实世界临床试验发现,一种由生成式人工智能驱动的支持工具被用于辅助一线临床医生,该工具是安全的,并提升了临床决策质量,但并未显著改变短期患者的治疗结果。
这项研究于今日发表在《自然医学》上,是全球首批随机对照试验之一,旨在测试生成式人工智能是否能够改善患者层面的治疗效果,而不仅仅是临床医生的表现或模拟病例。
该试验涉及超过9600名患者,他们前往肯尼亚的16家初级保健诊所接受治疗,由伯明翰大学的专家团队实施,并得到英国国家健康与护理研究所(NIHR)生物医学研究中心:伯明翰的支持。
临床医生被随机分配使用电子病历系统,部分系统配备集成的人工智能咨询工具,可提供实时的诊断和治疗建议。该人工智能系统名为“AI Consult”,是一种基于大语言模型的临床决策支持工具,直接嵌入到现有的电子病历系统中。
在咨询过程中,该工具在后台运行,通过以下方式发挥作用:
分析临床医生录入病历中的信息
临床医生保留完全自主权,无需遵循AI的建议,并对所有诊断、处方和转诊决策承担全部责任。AI界面对患者不可见,有助于保持正常的医患互动。
资深作者、伯明翰大学健康机器学习荣誉教授、PATH首席人工智能官比拉尔·马特恩教授表示:“这是首批严格探讨人工智能在医疗领域最棘手问题的研究之一:它是否真的能改善患者的治疗效果。”
我们发现的结果令人安心,但也令人警觉。该技术看起来是安全的,并且明显改善了临床决策的某些方面,但将这些优势转化为可衡量的患者获益却更具挑战性,尤其是在日常的一线医疗中。
在初级医疗中,住院或死亡等严重后果较为罕见,因此需要极为大规模的研究——可能涉及超过10万名患者——才能发现微小的影响。
伯明翰大学监管科学与创新教授、NIHR生物医学研究中心健康数据研究负责人,同时也是该研究的合著者阿拉斯泰尔·丹尼斯顿教授表示:“初级医疗的主要任务之一是处理常见病症,包括许多自限性疾病,这类疾病通常需要较低水平的医疗干预。在这种情况下,即使临床推理能力有所显著提升,也可能仅导致患者结局的小幅变化,而这些变化非常难以衡量。”
这项研究表明,人工智能可以安全地融入真实的临床工作流程中,而不会损害患者信任或医务人员的自主性——而这正是未来产生影响的关键基础。
研究人员发现,接受人工智能辅助治疗的患者与接受标准治疗的患者在14天内的治疗失败率无统计学显著差异(2.2% vs 2.0%)。研究未发现任何有害影响,两组住院率和死亡率也相似。
尽管该AI工具未能在短期内显著改善患者的临床结局,但根据一个独立的、经验丰富的临床医生小组评估,其在提升临床记录质量和治疗方案制定方面效果明显,且这些医生在不知晓是否使用了AI的情况下进行评估。
两组患者的满意度相同,表明人工智能支持并未改变患者对护理体验的感受。
研究还发现,尽管总体抗生素处方率相似,但由于更注重成本的处方选择,AI支持组的抗生素相关费用更低。
尽管试验在肯尼亚进行,但研究人员强调,研究结果具有全球意义,包括对高收入国家的卫生系统也适用。
伯明翰大学生物统计学教授、本文高级作者理查德·莱利教授表示:“像这样的严谨试验对于评估人工智能在实际应用中的真正影响至关重要。它们有助于建立人们对人工智能在现有医疗流程中实际所能带来的贡献的合理预期,并指导未来投资和研究工作的重点方向。我们的研究结果是否适用于收入更高的地区,即那些基础医疗标准已经较高的环境,还需要进一步评估。”
参考文献
Generative AI-enabled clinical decision support system in primary care: a pragmatic, cluster-randomized trial

夜雨聆风