

★ 团队: 吉林大学第一医院张惠茅、王静等团队
★ 期刊: Radiology: Artificial Intelligence (IF=13.2 / 1区)
★ 题目: 基于微调大语言模型的放射报告结论自动生成—多中心评估研究
★ 创新点: 基于187万份多中心放射报告微调LLM,实现CT/MRI/DR报告结论自动生成,精度超GPT-4o,大幅提升报告效率与一致性

图1(研究设计图):呈现MIRA训练推理、ASPIRE评分模型构建及多中心人机评估的完整技术路线。
AI医学影像精彩世界,尽在‘AI影像智研坊’:

★研究背景★
• 放射报告结论是诊断核心,但人工撰写耗时、风格差异大、低年资医生效率低;通用大模型在中文放射报告场景适配差、跨中心泛化弱,亟需专用临床大模型。
★数据与方法★
• 数据:
来源:中国22个省份42家医院的回顾性多中心数据
规模:总计187万份放射学报告(含CT、MRI、DR)
验证集:内部测试集78,544份,外部测试集27,471份,并包含3个公开数据集
• 技术方法流程:
①模型微调:基于Qwen2.5-7B开源大模型,采用全参数微调策略进行训练
②提示工程:创新性引入“站点-模态”提示(如“[CT]报告来自[jdyy]”),使模型能自适应不同医院的报告风格
③综合评估:结合自动化指标(BERTScore、语义相似度)全面评估模型性能(人工盲评+ ASPIRE模型批量评分→效率与一致性验证)
• 核心技术方法:
①站点感知提示策略:通过在输入中嵌入医院代码和检查模态,引导模型生成符合特定机构风格的印象,有效解决跨中心泛化难题
②双模型体系(MIRA+ASPIRE):MIRA——负责报告结论生成,ASPIRE——专用评分大模型,替代人工实现百万级报告自动化评估
***MIRA(生成模型):
构建基座:Qwen2.5-7B 大语言模型
主要用途:从放射报告 “所见(Findings)” 自动生成 “结论(Impression)”
输入:站点编码 + 模态(CT/MRI/DR)+ 影像所见文本
输出:标准化放射报告结论
***ASPIRE(评分模型):
构建基座:Qwen2.5-7B + LoRA 微调
主要用途:替代人工,自动给 MIRA 生成的报告打分、评估质量
输入:原始报告所见 + 真实结论 + MIRA 生成结论
输出:精确率/召回率/ F1+9维度Likert评分(连贯性、诊断准确性等)

图2(各中心数据分布):展示训练集、内部测试集、外部测试集在不同医院中心的CT、DR、MRI报告分布。

图3(ASPIRE 模型流程):呈现ASPIRE评分模型从人工评估数据划分、LoRA微调到大批量自动评分的全流程。
★研究结果★
²核心性能:在内部/外部测试集上,语义相似度分别达0.92/0.80;人工评估中,MIRA在69.0%的病例中被认为等同或优于人类医生
²对比优势:在多项指标上显著优于GPT-4o(P<0.001),尤其在关键发现的召回率上表现更佳
²效率提升:辅助报告撰写平均节省0.46分钟/份
²一致性增强:医生间报告结论相似度从0.85→0.95,差异大幅降低

图4(MIRA与GPT-4o性能对比):从机器指标、人工评分维度对比两模型在内外测试集的表现差异。

图5(六中心盲评结果):展示不同中心放射医师对MIRA生成结论的优劣评级分布与一致性情况。

图6(报告撰写效率分析):对比有无MIRA辅助时,不同资历医师的报告结论撰写耗时与效率提升幅度。

图7(多模型性能对比):在人类评估与开源数据集上,对比MIRA、GPT-4o及三款开源放射文本模型的核心指标表现。

图8(英文模型性能对比):在英文开源数据集上,对比MIRA‑en与同类英文放射报告模型的 BERTScore 与句相似度表现。

★问答时刻★
Q1:什么是“站点-模态”提示策略?它如何解决跨医院报告风格不一致的问题?
A:“站点-模态”提示是在输入给模型的文本前加上类似“[CT]报告来自[XX医院]”的标记。这相当于告诉模型:“请用XX医院写CT报告的风格来生成结论”。通过这种方式,同一个模型能动态适应不同医院的术语偏好和行文习惯,从而在多中心应用中保持高质量输出。
Q2:研究如何证明MIRA模型不仅快,而且准确可靠?
A:研究采用了双重验证。一是自动化指标(如BERTScore)量化文本相似度;二是由24名来自6个中心的放射科医生进行大规模盲评。结果显示,MIRA生成的印象在近七成病例中被专家认为不劣于甚至优于原始报告,同时在关键临床发现的覆盖上(召回率)优于GPT-4o,证明了其临床可靠性。
参考文献:Li M, Wang Y, Miao Z, et al. Fine-Tuned Large Language Models for Automated Radiology Impression Generation: A Multicenter Evaluation. Radiol Artif Intell. 2026 Apr 15:e250714.
AI医学影像精彩世界,尽在‘AI影像智研坊’:
往期回顾:

夜雨聆风