Radiology AI(IF13.2) | 吉林大学第一医院张惠茅等团队(0415):基于微调大语言模型的放射报告结论自动生成—

Radiology AI(IF13.2) | 吉林大学第一医院张惠茅等团队(0415):基于微调大语言模型的放射报告结论自动生成——多中心评估研究

★ 团队：吉林大学第一医院张惠茅、王静等团队

★ 期刊： Radiology: Artificial Intelligence (IF=13.2 / 1区)

★ 题目：基于微调大语言模型的放射报告结论自动生成—多中心评估研究

★ 创新点：基于187万份多中心放射报告微调LLM，实现CT/MRI/DR报告结论自动生成，精度超GPT-4o，大幅提升报告效率与一致性

图1（研究设计图）：呈现MIRA训练推理、ASPIRE评分模型构建及多中心人机评估的完整技术路线。

AI医学影像精彩世界，尽在‘AI影像智研坊’：

★研究背景★

• 放射报告结论是诊断核心，但人工撰写耗时、风格差异大、低年资医生效率低；通用大模型在中文放射报告场景适配差、跨中心泛化弱，亟需专用临床大模型。

★数据与方法★

• 数据：

来源：中国22个省份42家医院的回顾性多中心数据

规模：总计187万份放射学报告（含CT、MRI、DR）

验证集：内部测试集78,544份，外部测试集27,471份，并包含3个公开数据集

• 技术方法流程：

①模型微调：基于Qwen2.5-7B开源大模型，采用全参数微调策略进行训练

②提示工程：创新性引入“站点-模态”提示（如“[CT]报告来自[jdyy]”），使模型能自适应不同医院的报告风格

③综合评估：结合自动化指标（BERTScore、语义相似度）全面评估模型性能（人工盲评+ ASPIRE模型批量评分→效率与一致性验证）

• 核心技术方法：

①站点感知提示策略：通过在输入中嵌入医院代码和检查模态，引导模型生成符合特定机构风格的印象，有效解决跨中心泛化难题

②双模型体系（MIRA+ASPIRE）：MIRA——负责报告结论生成，ASPIRE——专用评分大模型，替代人工实现百万级报告自动化评估

***MIRA（生成模型）:

构建基座：Qwen2.5-7B 大语言模型

主要用途：从放射报告 “所见（Findings）” 自动生成 “结论（Impression）”

输入：站点编码 + 模态（CT/MRI/DR）+ 影像所见文本

输出：标准化放射报告结论

***ASPIRE（评分模型）:

构建基座：Qwen2.5-7B + LoRA 微调

主要用途：替代人工，自动给 MIRA 生成的报告打分、评估质量

输入：原始报告所见 + 真实结论 + MIRA 生成结论

输出：精确率/召回率/ F1+9维度Likert评分（连贯性、诊断准确性等）

图2（各中心数据分布）：展示训练集、内部测试集、外部测试集在不同医院中心的CT、DR、MRI报告分布。

图3（ASPIRE 模型流程）：呈现ASPIRE评分模型从人工评估数据划分、LoRA微调到大批量自动评分的全流程。

★研究结果★

²核心性能：在内部/外部测试集上，语义相似度分别达0.92/0.80；人工评估中，MIRA在69.0%的病例中被认为等同或优于人类医生

²对比优势：在多项指标上显著优于GPT-4o（P<0.001），尤其在关键发现的召回率上表现更佳

²效率提升：辅助报告撰写平均节省0.46分钟/份

²一致性增强：医生间报告结论相似度从0.85→0.95，差异大幅降低

图4（MIRA与GPT-4o性能对比）：从机器指标、人工评分维度对比两模型在内外测试集的表现差异。

图5（六中心盲评结果）：展示不同中心放射医师对MIRA生成结论的优劣评级分布与一致性情况。

图6（报告撰写效率分析）：对比有无MIRA辅助时，不同资历医师的报告结论撰写耗时与效率提升幅度。

图7（多模型性能对比）：在人类评估与开源数据集上，对比MIRA、GPT-4o及三款开源放射文本模型的核心指标表现。

图8（英文模型性能对比）：在英文开源数据集上，对比MIRA‑en与同类英文放射报告模型的 BERTScore 与句相似度表现。

★问答时刻★

Q1：什么是“站点-模态”提示策略？它如何解决跨医院报告风格不一致的问题？

A：“站点-模态”提示是在输入给模型的文本前加上类似“[CT]报告来自[XX医院]”的标记。这相当于告诉模型：“请用XX医院写CT报告的风格来生成结论”。通过这种方式，同一个模型能动态适应不同医院的术语偏好和行文习惯，从而在多中心应用中保持高质量输出。

Q2：研究如何证明MIRA模型不仅快，而且准确可靠？

A：研究采用了双重验证。一是自动化指标（如BERTScore）量化文本相似度；二是由24名来自6个中心的放射科医生进行大规模盲评。结果显示，MIRA生成的印象在近七成病例中被专家认为不劣于甚至优于原始报告，同时在关键临床发现的覆盖上（召回率）优于GPT-4o，证明了其临床可靠性。

参考文献：Li M, Wang Y, Miao Z, et al. Fine-Tuned Large Language Models for Automated Radiology Impression Generation: A Multicenter Evaluation. Radiol Artif Intell. 2026 Apr 15:e250714.

AI医学影像精彩世界，尽在‘AI影像智研坊’：

往期回顾：

Adv Sci(IF14.1) | 北协和薛华丹&北大人民洪楠等团队(0413)：影像+病理双模态胰腺癌早期复发AI模型！单细胞+空间转录组解析生物学机制

Research(IF10.9) | 四川大学华西医院步宏&彭玉兰等团队(0330)：基于常规临床数据的多模态深度学习用于HR+/HER2-早期乳腺癌复发风险分层

J Adv Res(IF13)|吉林大学第二医院秦彦国等团队(0406)：多中心深度学习髋关节 X 光多异常筛查：开发、外部验证与辅助阅片研究

Radiology AI(IF13.2)|哈医肿瘤医院郐子翔等团队(0408):影像-病理组学图神经网络解析肿瘤内异质性预测乳腺癌新辅助治疗pCR