病理大模型的新方向:让 AI 不只是“看图”,还要“懂疾病”

病理大模型的新方向

让AI不只是“看图”，还要懂疾病

文献分享 | Cancer Cell 2026年4月

近年来，人工智能在病理诊断中的应用发展迅速。从癌区识别、肿瘤检测，到全切片图像（whole-slide image, WSI）层面的肿瘤分型，病理 AI 正在逐渐从单一任务模型走向基础模型。

不过，现有许多病理 AI 模型仍主要依赖图像数据或简单的图文配对进行训练。也就是说，模型虽然能够“看图”，却未必真正理解疾病名称、同义词、疾病定义以及不同疾病之间的层级关系。

本期文献分享介绍 Cancer Cell 2026 年发表的一项研究：Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis。该研究提出了一个知识增强型病理视觉语言基础模型 KEEP，尝试将疾病知识图谱融入病理大模型预训练，使模型不仅学习病理图像与文字描述，还能理解疾病之间的医学语义关系。

图形摘要：KEEP 将疾病知识图谱融入病理视觉语言预训练

读图要点： KEEP 的核心思想是把病理图像、文字描述和疾病知识图谱结合起来。模型既学习图像特征，也学习疾病名称、同义词、定义和上下级关系，最终用于癌区分割、癌症检测和肿瘤分型。

概述

病理诊断是肿瘤诊断的金标准。传统深度学习模型通常依赖大量标注图像进行训练，但病理标注成本高，且在罕见肿瘤、复杂亚型和低样本场景中，模型泛化能力往往受限。

近年来，病理视觉语言模型（vision-language model）逐渐受到关注。这类模型通过病理图像和文字描述联合训练，能够在一定程度上实现 zero-shot 诊断，即不针对某一具体任务重新训练，也能根据文字提示完成分类或检索。

但已有模型仍存在一个关键问题：多数模型主要是“图文配对学习”，缺乏系统医学知识。对于病理诊断而言，疾病名称并不是孤立词语。例如“肺鳞状细胞癌”同时属于“肺癌”“非小细胞肺癌”和“鳞状细胞癌”等不同层级概念，也可能有多种同义表达。单纯图文对齐很难充分捕捉这些医学语义关系。

因此，本文提出 KEEP 模型，试图让病理 AI 从“看图识别”进一步走向“知识增强诊断”。

文章摘要

本研究提出knowledge-enhanced pathology（KEEP），一种知识增强型病理视觉语言基础模型。研究团队整合 Disease Ontology 和 UMLS，构建了包含 11,454 个疾病实体和 139,143 个疾病相关属性的疾病知识图谱，并据此将大规模病理图文数据重组为约 143,000 个语义结构化分组。

研究在 18 个公开基准数据集，超过 14,000 张 WSI，以及 4 个院内罕见癌数据集，926 例病例中进行验证。结果显示，KEEP 在癌区分割、癌症检测、肿瘤亚型分类、罕见癌诊断及 tile 级别图像任务中整体优于多种已有病理基础模型。

研究背景

现有病理 AI 基础模型大致可以分为两类：

第一类是视觉模型

这类模型主要从病理图像中学习特征，例如用于 WSI 分类、肿瘤检测或预后预测。它们在特定任务中表现良好，但通常需要较多标注数据进行训练或微调。

第二类是视觉语言模型

这类模型通过病理图像和文本描述进行联合训练，例如 PLIP、QuiltNet、MI-Zero、CONCH 等。视觉语言模型能够利用文本提示进行 zero-shot 分类，因此在低标注场景中具有潜力。

然而，病理文本数据常来源于网络、教学视频或公开平台，存在描述短、噪声高、医学结构信息不足等问题。作者认为，如果模型不能理解疾病之间的层级关系和医学语义，仅靠图文对齐难以支撑复杂诊断，尤其是在罕见肿瘤和精细亚型识别中。

研究目的

本研究旨在构建一种知识增强的病理视觉语言基础模型，使模型在学习病理图像与文本描述的同时，进一步整合疾病知识图谱中的医学信息，包括：

• 疾病名称

• 疾病同义词

• 疾病定义

• 疾病上下位关系

研究希望通过这种方式提升模型在癌症分割、检测、分型和罕见癌诊断中的准确性及泛化能力。

研究方法

读图要点： Figure 1 展示了 KEEP 的整体框架。模型先构建疾病知识图谱，再进行知识编码和图文语义对齐。下游诊断时，WSI 被切分为 tile，模型对每个 tile 进行 zero-shot 分类，再通过 tile 结果汇总完成整张切片的诊断。

疾病知识图谱构建

研究团队整合 Disease Ontology 和 UMLS，建立疾病知识图谱。该知识图谱包括 11,454 个疾病实体和 139,143 个属性，其中包括疾病定义、同义词以及上下位关系。

例如，对于“肺鳞状细胞癌”，模型不仅学习这个诊断名称，还学习它与“肺癌”“非小细胞肺癌”“鳞状细胞癌”等概念之间的层级关系。这样，文本编码器能够形成更符合医学知识体系的疾病表征。

病理图文数据清洗

作者使用 OpenPath 和 Quilt1M 等公开病理图文数据进行预训练。但这些数据来源较复杂，可能混有非病理图像、低质量图片或无关文本。

因此，研究团队先用 YOLOv8 去除非病理图像，再用自然语言处理方法从文本中抽取医学实体，并将文本中的疾病名称与知识图谱中的疾病概念进行匹配。经过清洗和语义整理后，形成约 143,000 个语义分组。

知识增强视觉语言预训练

KEEP 的图像编码器基于 ViT-L/16，文本编码器基于 PubMedBERT。文本编码器先通过疾病知识图谱进行训练，使其能够理解疾病同义词、定义和层级关系。随后，模型在整理后的病理图文语义组上进行视觉语言对齐训练。

在 WSI 任务中，作者将全切片图像切分为 tile，每个 tile 通过 KEEP 进行 zero-shot 分类，再根据肿瘤 tile 所占比例完成癌症检测或肿瘤分型。这一策略被称为 tumor-ratio-based prediction，具有一定可解释性。

研究结果

癌区分割

在癌区分割任务中，KEEP 与 PLIP、QuiltNet、MI-Zero、CONCH、MUSK 等模型进行比较。结果显示，KEEP 在多个数据集上取得更优表现。与 CONCH 相比，KEEP 在 CAMELYON16 和 AGGC22 上的 DICE 分别提高约 6.8 和 8.1 个百分点。

需要注意的是，由于模型逐 tile 判断，预测图中可能出现散在假阳性区域。作者采用简单的形态学开运算进行后处理，去除小的孤立区域后，分割表现进一步提高。

癌症检测

作者在 7 个 CPTAC 数据集上进行癌症检测验证，涵盖黑色素瘤、肾透明细胞癌、胰腺导管腺癌、子宫内膜癌、肺鳞癌、头颈鳞癌和肺腺癌等。结果显示，在特异度（specificity）固定为 0.95 时，KEEP 的平均敏感度（sensitivity）达 0.898，高于 CHIEF、CONCH 和 MUSK 等模型。

此外，作者还收集了院内罕见癌检测数据，包括 59 张肾母细胞瘤 WSI 和 51 张正常 WSI。结果提示，视觉语言模型在 zero-shot 罕见癌检测中具有一定优势。

肿瘤亚型分类

在脑肿瘤分型任务中，KEEP 的平均平衡准确率（balanced accuracy）为 0.604，较 CONCH 提高 0.15。在 EBRAINS 罕见脑肿瘤数据集中，KEEP 的 balanced accuracy 为 0.456，比 CONCH 高 8.5 个百分点，比 MUSK 高 15.5 个百分点。

不过，模型在部分亚型中仍存在混淆。例如 IDH-mutant 与 IDH-wildtype 相关胶质瘤之间的区分较困难。这提示对于依赖分子特征的诊断，单纯 HE 图像模型仍有天然上限。

罕见儿童肿瘤与 tile 级别任务

研究进一步纳入 816 张院内儿童罕见癌 WSI，包括神经母细胞瘤、肝母细胞瘤和髓母细胞瘤。KEEP 在神经母细胞瘤和肝母细胞瘤分型中优于多数比较模型，但在髓母细胞瘤亚型识别中，各模型表现均有限。

此外，KEEP 还在病理图像-文本检索和 tile 级别 zero-shot 分类任务中取得较好表现，提示知识增强预训练不仅有助于 WSI 诊断，也能提升更细粒度的病理图像理解能力。

消融实验

作者将 KEEP 与未加入知识增强的普通对比学习模型进行比较。结果显示，知识增强模型在 16/18 个 WSI 数据集上表现更优。

这说明文章的核心贡献并非简单更换模型结构，而是证明了：将疾病知识图谱引入病理视觉语言预训练，确实能够改善模型对病理图像与疾病语义之间关系的学习。

研究讨论

本文提示，病理 AI 的发展可能正在从“图像识别模型”走向“知识增强型病理基础模型”。

KEEP 的优势主要来自两个方面：

第一，疾病知识注入。

模型通过疾病名称、同义词、定义和层级关系学习疾病语义，使其在识别相关疾病和罕见疾病时具备更好的知识先验。

第二，基于肿瘤比例的 WSI 判断。

模型先对 tile 进行分类，再汇总为整张切片的诊断结果，因此可以生成类似热图的区域提示，具有一定可解释性。

这与病理医生的诊断思维有相似之处。病理诊断并不是简单“看图”，而是结合形态学特征、疾病谱系、临床背景和分子信息进行综合判断。KEEP 的意义在于，它尝试让 AI 向这种“知识驱动的诊断思维”靠近。

研究局限性

本文也存在一些值得注意的局限。

首先，罕见癌训练数据仍然有限。即使引入疾病知识图谱，某些罕见亚型仍难以稳定识别。

其次，zero-shot 视觉语言模型仍受 prompt 设计影响。不同文字提示可能导致模型表现波动，未来需要更稳定的 prompt learning 方法。

第三，部分肿瘤亚型依赖分子或表观遗传特征，仅凭 HE 图像难以准确区分。因此，未来病理基础模型可能需要进一步融合基因组、表观基因组、蛋白组或临床信息。

最后，KEEP 虽然在多个公开数据集和院内数据中表现较好，但距离临床实际部署仍需要更大规模、多中心、前瞻性验证，并结合真实临床工作流进行评估。

小结

总体来看，这篇文章的核心价值并不只是提出了一个性能更好的病理 AI 模型，而是提供了一种新的建模思路：病理基础模型不能只依赖图像特征和简单文本标签，还应进一步融合疾病知识体系。KEEP 通过引入疾病知识图谱，使模型在训练过程中学习疾病名称、同义词、定义及上下级关系，从而增强其对病理图像与疾病语义之间关系的理解。

对于病理诊断而言，这一点具有重要启发。病理医生在日常诊断中并不是单纯“看图识别”，而是基于形态学表现，结合疾病分类体系、临床背景、免疫表型和分子特征进行综合判断。KEEP 所代表的知识增强型模型，正是在尝试让 AI 从单纯的图像识别工具，逐步向更接近医学诊断逻辑的辅助系统发展。

本研究也提示，未来病理 AI 的发展方向可能不再只是追求更大的数据量和更复杂的模型结构，而是更加重视图像、语言、疾病知识和多模态临床信息的深度融合。尤其是在罕见肿瘤和低样本场景中，知识图谱等医学先验信息可能为模型提供额外支持，帮助其提升泛化能力和诊断稳定性。

当然，KEEP 目前仍处于研究阶段，距离真正临床应用还有一定距离。对于依赖分子改变或表观遗传特征区分的肿瘤亚型，单纯基于 HE 图像的模型仍存在局限。未来还需要更大规模、多中心、真实世界队列的外部验证，并进一步评估模型在不同医院、不同染色条件、不同扫描设备和不同病例构成下的稳定性。

因此，这篇文章对病理科的意义不仅在于展示了病理大模型的前沿进展，也提醒我们：医院病理科可以在这一领域中发挥重要作用。即使不从零训练大模型，也可以基于本院真实世界病例开展外部验证、错误模式分析、适用边界评估和辅助诊断价值研究，为病理 AI 的临床转化提供更贴近实际场景的证据。

参考文献

Zhou X, Sun L, He D, et al. Knowledge-enhanced pretraining for vision-language pathology foundation model on cancer diagnosis. Cancer Cell. 2026;44:777-791. DOI: 10.1016/j.ccell.2026.01.019.

图片来源

本文配图均截取并整理自上述开放获取论文原文，仅用于文献学习与学术交流，正式发布时请保留原文出处和 DOI。

供稿：郭佳骐

审核：