NPJ Digit Med:AI预后工具对结直肠肝转移临床医师决策表现的影响


Impact of an AI prognostic tool on clinician performance in colorectal liver metastases
Npj Digital Medicine
PMID: 41951838. [IF=15.8]
背景
每年有数以千计的人工智能(AI)临床预测模型被发表,然而真正被纳入常规临床实践的却寥寥无几。这一现象的核心矛盾在于:模型统计性能的提升,并不必然转化为对临床决策的实质影响。如何弥合AI技术与临床转化之间的鸿沟,已引起监管机构的广泛关注。监管层面不仅要求分析有效性,更强调对真实世界中临床获益的证明。
结直肠肝转移(Colorectal Liver Metastases, CRLM)是结直肠癌患者发生病死的主要原因之一。局部治疗仍是以治愈为目标的CRLM管理的核心手段,但术后转归存在高度异质性,因此亟需可靠的预后工具支撑风险分层与个体化治疗决策。尽管已有多种针对CRLM的预后模型问世,其整合进入常规外科实践的程度依然有限。
在此背景下,本研究团队开展了一项前瞻性随机多读者多病例(Multi-Reader Multi-Case, MRMC)研究,旨在系统评估一款基于机器学习(Machine Learning, ML)的个体化CRLM预后工具,能否在贴近临床真实情境的决策环境中切实改善外科肿瘤医师的表现。据研究者所知,这是首个在CRLM外科管理领域,系统评估AI预后模型对临床医师决策影响的探索性研究。
方法
本研究为单中心、前瞻性设计的注册随机MRMC试验(ClinicalTrials.gov注册号:NCT07027605,注册日期:2025年1月1日),在中国医学科学院肿瘤医院开展,研究方案已获机构伦理审查委员会批准(伦理编号:NCC-017834),并依据《赫尔辛基宣言》实施。由于研究不涉及治疗性干预,伦理委员会豁免了知情同意要求。
病例纳入标准为:年龄≥18岁、接受结直肠切除联合肝切除术、经组织病理学确认为结直肠腺癌肝转移,且研究启动时距手术至少满5年。排除标准包括合并其他恶性肿瘤史或随访资料不完整。病例来源于该中心真实世界回顾性数据集,为提高诊断评估效率,研究对事件与非事件病例进行了均衡采样,最终纳入166例。读者(Readers)为来自消化外科肿瘤专业组的外科肿瘤医师,按独立手术年资分为初级(<5年)、中级(5~10年)和高级(>10年)三组,各4名,共12名。
机器学习预后工具整合了人口学、临床、实验室及基因组变量,共纳入7项术前生化标志物(包括纤维蛋白原、γ-谷氨酰转肽酶、红细胞分布宽度[RDW-SD和RDW-CV]、中性粒细胞与淋巴细胞比值、AST/ALT比值及癌胚抗原)、3项基因标志物(KRAS、BRAF及错配修复状态)以及23项一般临床病理变量。该工具已在多中心研究中经验证,性能优于传统临床风险评分,输出结果为包含里程碑生存概率的个体化生存风险曲线,通过用户友好型网页界面呈现。
研究设计采用完全交叉设计:166例病例以1:1的比例随机分入数据集A与数据集B,12名读者经分层随机分为A、B两组(各保留经验均衡)。每名读者在两次独立阅读(间隔5周洗脱期以减少回忆偏倚)中分别完成无辅助与有辅助条件下对所有病例的评估,最终共完成3984次评估,无缺失数据,无方案违背。读者对患者真实预后、身份信息及同伴评估均保持盲态。
主要终点为辅助与无辅助条件下,预测3年死亡率的受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC-ROC)差值。次要终点包括1年及5年死亡率、各时间节点复发率的AUC-ROC差值,以及各时间节点的灵敏度(Sensitivity)和特异度(Specificity)差值,及读者间信度(Inter-Rater Reliability)。探索性终点包括治疗与随访建议的读者间信度、决策信心差值及评估耗时。统计分析采用Obuchowski-Rockette(OR)方法,将读者与病例均作为随机效应,以确保结果的可推广性。
结果
在主要终点方面,AI预后工具的辅助显著提高了读者预测3年死亡率的准确性(平均AUC差值0.091;95%置信区间[CI] 0.001~0.181;P=0.048,双侧)。工具辅助同样改善了所有次要时间节点(1年、5年)复发和死亡率预测的AUC,均值差范围为0.091~0.116。值得注意的是,在个体层面,全部12名读者在主要终点上均呈现诊断性能提升,提示该获益具有一致性。

图1. 模型辅助对临床医师整体表现的影响。A. 所有读者在辅助与无辅助条件下观测AUC差值的分布;B. 模型辅助带来的读者间一致率提升幅度(按评估类别分列);C. 各读者在全部评估中读者内一致率(Intra-Reader Consistency)的分布;D. 评估完成时间及读者信心等级分布。
在诊断效能构成上,灵敏度的提升是驱动整体AUC改善的主要因素(均值差0.063~0.105),特异度则无显著变化,提示该工具的核心价值在于帮助临床医师识别高风险患者,而非确认低危状态。读者间一致率在所有评估维度均有提升(提升幅度2.9%~18.0%),以随访时机推荐(18.0%)和5年死亡风险评估(17.3%)改善最为显著,表明模型辅助有效降低了临床判断的变异性。
在效率与决策信心方面,AI辅助条件下平均评估耗时由无辅助的3.04分钟显著缩短至2.53分钟(名义P<0.001)。与此同时,读者信心大幅提升,评估为”极高信心”的比例从无辅助条件下的6.6%跃升至辅助条件下的52.5%,并由此带来风险分层的两极分化,医师更倾向于将病例划入”危急(>70%)”或”低危(<10%)”类别,进而促使高危患者获得更密集的随访安排。

图2. 各读者在3年死亡率预测(4分量表)上的个体表现(ROC曲线)。曲线按读者经验等级(高级、中级、初级)分层展示,蓝色曲线代表辅助条件,红色曲线代表无辅助条件。
亚组分析显示,在所有经验等级的读者中,辅助条件下的表现均接近近乎完美的准确度(所有评估的均值AUC>0.98)。初级与中级读者的AUC提升幅度最为显著,而高级读者因基线准确度已较高,仅呈现有限改善。读者间一致率的提升同样以中级医师最为突出,提示该工具对原本变异性最高的群体具有显著的同质化效果。高级医师在评估一致性与决策稳定性方面保持领先,但所有经验等级均受益于决策耗时缩短与信心提升。跨读者亚组与病例亚组(含年龄、原发肿瘤部位)的主要终点AUC差值森林图提示,AI辅助效益具有跨亚组一致性。

图3. 模型辅助效果的经验分层分析。A. 不同经验等级读者在辅助与无辅助条件下AUC分布;B. AUC差值分布;C. 读者间一致率;D. 读者内总体一致性;E. 完成时间与信心等级;F. 主要终点各预设亚组的AUC差值森林图。表1 辅助与无辅助条件下各评估类别的分布及统计比较。表2 辅助与无辅助条件下基于模型的AUC、灵敏度及特异度比较。
研究结束后问卷调查(100%应答率)进一步印证了上述积极发现:58.3%的读者对将该工具整合入临床实践表示非常有信心,66.7%认为工具对决策效率有适度改善,91.7%认为其总体可靠。初级读者报告了最高的感知收益(75%认为决策效率显著改善)和最高的总体满意度。
结论
本研究在严格的随机MRMC框架下,首次系统证明了一款基于机器学习的CRLM预后工具能够显著改善临床医师的预后判断准确性,并在探索性分析中表现出提升决策效率与信心的潜力。AUC改善主要由灵敏度提升驱动,提示该工具在帮助临床医师识别高危患者、避免漏判方面具有特定优势。模型辅助还使读者间一致率明显提高,有望减少因临床经验差异导致的诊疗决策变异,促进患者管理的标准化。工具带来的”双赢”效益——缩短决策时间的同时提升决策信心——有效针对临床采纳的两大核心障碍:流程干扰与决策不确定性。从受益群体看,初级医师的获益最为显著,提示该工具可发挥”数字导师”的作用,帮助经验不足的外科肿瘤医师加速向高级医师的表现水平靠拢;中级医师则受益于评估一致性的改善。
然而,本研究亦存在若干局限性:探索性问卷缺乏正式的心理测量学验证;单中心设计制约了结论的外推性;研究基于回顾性病例而非真实前瞻性诊疗,无法评估医师决策对下游患者结局的实际影响;对AI工具的长期采纳率与持续工作流影响亦未能评估。值得特别强调的是,研究者明确指出,在受控研究条件下观察到的临床医师表现提升,与确立该工具临床实用性(Clinical Utility)之间仍有本质差距——后者需要前瞻性真实世界研究,以可测量的患者结局为终点加以确认。本研究作为从统计模型验证迈向真实世界实施研究的中间步骤,为人机协作效能的评价方法学提供了可参考的范式,并为后续更大规模、多中心、以患者为中心的前瞻性验证研究奠定了基础。
致谢
仁济医院 方莹莹
仁济医院 章庆伟
仁济医院 李晓波
对本篇文章解读做出的贡献
参考文献
Chen Q, Tong J, Deng Y, Bi X, Li Y, Li K, Zhao H. Impact of an AI prognostic tool on clinician performance in colorectal liver metastases. NPJ Digit Med. 2026 Apr 8. doi: 10.1038/s41746-026-02606-5. Epub ahead of print. PMID: 41951838.
投稿征集
欢迎各位专家分享您的研究成果
投稿邮箱:EndoscopyDaily@163.com
或投稿微信:zan214626
我们是一个喜欢钻研消化内镜的团队
为您每天分享一个内镜相关的科研成果

免责声明:本平台旨在分享最新科研资讯,所载内容和意见仅供专业人士参考,不构成任何诊疗建议。在任何情况下,作者及作者所在团队不对任何人因使用本平台中的任何内容所致的任何损失负任何责任。本资料难以设置访问权限,若给您造成不便,还请见谅。本文属于医学专业文章,仅供医疗专业人员学术交流。不适合作为非专业人士疾病教育或科普用途。
若有转载、合作、投稿需求,请联系团队负责人(微信:zan214626 或邮箱:EndoscopyDaily@163.com)。本团队未创建任何交流群请读者朋友谨防诈骗。
夜雨聆风