Radiology AI|吉林大学白求恩第一医院放射科:用于自动放射报告生成的微调大模型

影像报告是临床诊断流程中的关键文本，其中“所见”部分记录影像表现，“印象”部分则进一步给出诊断判断、鉴别诊断或后续检查建议。相比单纯描述影像征象，生成高质量“印象”更依赖放射科医生的经验，也更容易受到不同医院、不同医生书写习惯的影响。本文研究围绕这一临床痛点，提出通过大规模多中心、多模态放射报告对大语言模型进行微调，构建医学影像报告助手 MIRA，使其能够基于影像所见自动生成更接近临床表达的放射学印象。

1. 目的

本研究旨在开发并评估一个经微调的大语言模型 MIRA，用于从放射报告所见自动生成影像印象，并验证其准确性、报告效率和临床适用性。

2. 数据

本研究纳入来自中国 22 个省份 42 家医院的 187 万份放射学报告，时间范围为 2019 年 1 月至 2024 年 8 月，涵盖 CT、MRI 和数字化放射摄影三类检查。纳排标准如下图所示，其中训练集包含 1,766,776 份报告，内部测试集包含 78,544 份报告，外部测试集包含 27,471 份报告，同时还纳入 CheXpert、CT-RATE 和 XGR-COVID-19 等开放数据集用于补充验证。样本中，训练集患者中位年龄为 52 岁，男性占 50.5%；内部测试集中位年龄为 52 岁，男性占 50.1%；多中心外部测试集中位年龄为 53 岁，男性占 50.8%。从检查类型看，训练集中 CT 占 62.6%，数字化放射摄影占 18.4%，MRI 占 19.0%；外部测试集中 MRI 比例更高，占 40.3%，体现出一定的跨中心和跨模态差异。

3. 方法

本文总体上采用“模型微调—自动评价—人工评价—临床效率验证”的技术路线。作者首先基于 Qwen2.5-7B 模型进行全参数微调，训练模型根据放射报告的“所见”生成“印象”；随后通过机器指标、人工评分、盲法比较和报告书写时间分析，多角度评估 MIRA 的生成质量和实际应用价值。技术路线图如下所示：

步骤一

研究团队首先对原始放射报告进行预处理，去除无效字符、冗余内容、空白或无意义的所见与印象，以及仅包含既往检查对比但缺乏有效影像信息的报告。这样做的目的，是尽量保证模型学习到的是临床有效的“所见—印象”对应关系，而不是模板化噪声。

步骤二

在模型训练阶段，作者采用 全参数微调 方法对 Qwen2.5-7B 进行训练，得到 MIRA。不同于仅调用通用大模型生成文本，本研究将大规模真实放射报告作为监督数据，使模型学习放射学报告中从影像描述到诊断印象的转换方式。

步骤三

考虑到不同医院的报告书写风格存在差异，研究引入了 站点与模态感知提示策略。也就是说，模型输入不仅包含报告所见，还加入检查模态和医院站点编码等简洁提示，使模型在生成印象时能够适应不同中心、不同检查类型的表达习惯。该流程在图2中展示。

步骤四

模型评价分为机器评价和人工评价。机器评价包括 BERTScore 和 句子相似度，前者用于衡量生成文本与参考印象在医学术语和语义层面的接近程度，后者用于衡量整体句意一致性。人工评价则由放射科医生基于 Likert 量表、精确率、召回率和 F1 值判断模型是否正确覆盖关键临床发现。

步骤五

为了提高大规模评估效率，研究还训练了一个辅助评价模型 ASPIRE，用于模拟放射科医生的评分过程。ASPIRE 基于报告所见、真实印象和模型生成印象，输出真阳性、假阳性、假阴性判断以及语言质量评分，从而支持在大规模测试集上进行较稳定的自动化人工对齐评估。

步骤六

最后，研究开展了多中心盲法评分和效率评估。来自 6 个中心的 24 名放射科医生参与评价，每个中心包括资深和初级医生。医生需要在不知道文本来源的情况下比较 MIRA 生成印象和参考印象，并记录在有无 MIRA 辅助时完成印象书写所需的时间。

4. 结果

4.1 MIRA 与 GPT-4o 的比较

作者首先比较了MIRA 和 GPT-4o 在内部测试集、多中心外部测试集以及加入开放数据集后的外部测试集中的表现。结果如下图所示，总体来看，MIRA 在多数指标上优于 GPT-4o，尤其是在句子相似度和 F1 值方面表现更突出。在人类评价中，MIRA 相比 GPT-4o 能更好地覆盖关键临床发现，减少漏掉重要信息的风险。Likert 评分显示，MIRA 在语言质量和临床一致性方面保持较高水平，但在综合性等维度仍有提升空间。对于开放数据集，由于报告风格和语言来源差异更大，MIRA 的部分机器指标下降，但整体临床评价仍显示出较好的可靠性。

4.2 盲法评分结果

作者还对24 名放射科医生对 MIRA 生成印象和参考印象的盲法进行比较。结果显示，在 2400 份检查中，MIRA 生成印象有 69.0% 被评为不低于参考印象，即与参考印象相当或优于参考印象。不同中心之间结果存在差异，说明模型在不同医院环境中的表现仍受到报告风格、病例构成和本地诊断习惯影响。但总体结果表明，MIRA 生成的文本在多数情况下能够达到放射科医生可接受的质量水平。

4.3 报告书写效率分析

最后，作者发现MIRA 辅助能够缩短放射科医生撰写印象的时间。总体上，医生每份报告节省的中位时间为 0.46 分钟，初级医生和资深医生均获益。研究还发现，原本耗时越长的报告，使用 MIRA 后获得的绝对时间节省越明显。这一结果说明，MIRA 的价值不仅体现在生成文本本身，也可能体现在帮助医生处理复杂、耗时或表述困难的报告印象，从而提高工作效率。

5. 讨论

本研究表明，基于大规模多中心放射报告进行微调的大语言模型，可以较好地完成从“影像所见”到“诊断印象”的自动生成任务。MIRA 在内部测试集中表现稳定，在外部多中心数据中也保持了较好的语义一致性和临床发现覆盖能力，说明其并非只是在单中心数据上拟合模板，而具备一定跨机构泛化潜力。

研究的一个重要启示是，放射报告生成并不只是通用文本摘要问题，而是需要理解医学术语、诊断逻辑、报告风格和临床表达规范。MIRA 相比 GPT-4o 的优势，可能来自任务特异性微调、多中心数据暴露以及站点感知提示策略。换言之，在医学场景中，经过高质量本地任务训练的专用模型，可能比通用大模型更适合某些高规范、高责任的临床文本任务。

影像组学小班课程

在两次课程之后，我在此对影像组学（Radiomics）课程进行了更新。除了维持原有内容外，进一步优化了课程代码和各部分内容的时间安排。还根据大家的建议，补充增加了项目实践串讲，帮助大家不仅了解理论，而且能从头到尾的实现。作为医学人工智能的重要方向，正在迅速改变临床研究和实践的面貌。目前最新的课程大纲如下所示。

关键词：组学课程、费用5000、课时10-12h影像组学课程大纲(最新版-2025/10/08)

参考文献

[1].Li M, Wang Y, Miao Z, Gong J, Yang S, Xue H, et al. Fine-Tuned Large Language Model for Automated Radiology Impression Generation: A Multicenter Evaluation. Radiology: Artificial Intelligence. 2026;8(3):e250714.