
1
背景介绍


在医学领域,一个医生终其一生也无法读完所有新发表的论文,更无法记住数万种疾病、药物、基因和通路之间错综复杂的关联。
医学知识图谱(Medical Knowledge Graph)做的正是这件事:把散落在论文、指南、数据库里的海量知识,编织成机器可计算、可推理的结构化图谱。实现医学知识图谱从“数据整合工具”走向“临床决策引擎”的关键突破。

医学知识图谱将分散在文献、基因组学、蛋白质组学、药物数据库和电子病历中的孤立知识点,编织成一张可计算、可查询、可推理的巨大知识网络,让机器学习模型有机会“读懂”医学。
2
入门


想象一下,如果把所有医学知识用点和线连接起来:点代表具体的实体,如“二甲双胍”、“2型糖尿病”、“胰岛素抵抗”;线代表它们之间的关系。这种由无数个(头实体-关系-尾实体)三元组构成的结构化网络,就是知识图谱。
知识图谱把医学知识织成一张“网”

与传统的关系型数据库不同,知识图谱不只是一张静态的表格。它的核心优势在于 “关联发现”与“路径推理” 。数据库可以告诉你“A药治疗B病”,而知识图谱可以揭示一条隐藏的两跳、三跳路径。
例如,从“A药”到“它所靶向的蛋白”,再到“该蛋白参与的通路”,最后到“该通路相关的另一种疾病”。这种跨实体、多跳跃的关联,正是医学推理与创新发现的底层思维。
3
如何构建


构建一个高质量的医学知识图谱并让它服务于临床,需要经历从数据到知识、再到智能的三级跳。在这张已建好的知识网络上,部署图神经网络(GNN)等深度学习模型。

GNN的原理可以通俗理解为“近朱者赤,近墨者黑”:每个节点都会聚合邻居节点的信息,不断更新自己的表示,最终捕捉到图谱中复杂的全局模式。通过这种机制,模型可以完成“链接预测”(比如预测某药物和某疾病之间是否可能存在尚未被发现的治疗关系)或“节点分类”等推理任务。
而所有这些推理的基础,都指向一个关键突破:医学知识图谱让AI的预测变得可解释。因为任何两个实体间的预测关系,都可以被追溯为图谱中一条由确定的三元组构成的知识路径,供医生审查和验证。
4
应用案例


发表于Nature Medicine 的TxGNN 和 Nat Cardiovasc Res 的CardioKG,提供了医学知识图谱的构建、应用与临床转化前景。
案例一
为无药可治找药

哈佛大学Marinka Zitnik团队构建了一个包含海量生物医学实体和关系的大规模知识图谱,并在其上训练了一个图基础模型。它的任务非常直接:针对17,080种疾病,预测现有药物是否可能成为其新适应症。
结果令人振奋。在零样本评估(即针对完全没有任何已知治疗药物的疾病)中,TxGNN对药物适应症的预测准确率比以往最好方法提高了49.2%,对禁忌症的预测准确率也提高了35.1%。更重要的是,它不只是输出一个预测分数。TxGNN内置的Explainer模块能自动提取多跳知识路径,为每个预测生成“推理链条”。
例如,当模型预测某罕见神经系统疾病与一种老药存在潜在关联时,医生可以看到:“该药物→靶向蛋白X→蛋白X参与神经元保护通路→该通路与疾病发病机制已知相关”。这一高度透明、可追溯的解释机制,正是医学知识图谱区别于传统“黑箱”AI的核心魅力所在。研究还发现,TxGNN产生的新预测与大型医疗系统中医生实际开具的超说明书处方高度吻合,这从真实世界角度强有力地验证了其临床合理性。
案例二
多模态融合
2025年12月发表于《自然·心血管研究》的CardioKG,为知识图谱开辟了一个全新维度:过去知识图谱缺少个体层面的"器官长什么样"的信息。CardioKG填补了这一空白:整合英国生物银行20万+心脏MRI影像的计算机视觉表型(心室/心房/主动脉21项动态指标),与18个生物数据库构建超百万关系的图谱,建模基因-心脏结构-疾病的完整关联链。

CardioKG直指临床痛点:预测基因-疾病关联并识别药物重定位策略,重点关注心力衰竭(HF)、房颤(AF)和心肌梗死(MI)三大心血管疾病。研究团队对比了两种知识图谱的表现:“仅使用生物数据库”的基准图谱,以及“加入心脏影像表型”的CardioKG。结果显示,加入影像数据后,模型在心力衰竭、房颤和心肌梗死三种疾病的致病基因预测和成药性评估方面均表现出显著的性能提升。在通路富集分析中,影像数据使得富集到的关键生物通路数量增加了100余条,这意味着影像表型的融入大幅增强了对疾病机制的系统性理解。
研究团队还计划将CardioKG升级为“动态、以患者为中心”的框架,捕捉真实的疾病演变轨迹,为个性化治疗和疾病风险预测开辟新可能。CardioKG的独特启示:多模态是知识图谱的未来方向;未来,同一方法可拓展至脑部扫描、体脂成像、肝脏影像等多个领域,为痴呆症、肥胖症、肝病等疾病的新疗法发现提供系统性工具。
更令人瞩目的是,它识别出了两种具有临床应用前景的候选药物:
甲氨蝶呤:一种长期用于治疗类风湿关节炎的免疫抑制剂,被预测可改善心力衰竭。研究团队进一步通过真实世界生存分析验证了这一预测:在心衰患者中,使用甲氨蝶呤与生存率改善显著相关。
格列汀类药物:一类广泛使用的2型糖尿病治疗药物,被预测可能对房颤患者有益。格列汀类药物的抗炎和血管保护作用在近年基础研究中已有初步证据,CardioKG的预测恰好与这些新兴证据形成了交叉印证。
5
前景与挑战


尽管医学知识图谱展现了令人振奋的前景,但在走向广泛临床部署的道路上,仍面临几项关键挑战:

知识图谱的构建与维护成本——高质量医学知识图谱需要持续更新,跟随生物医学研究的快速发展;
跨机构、跨系统的数据整合——不同医疗体系的数据标准和知识表示方式差异巨大;
临床部署的工程化挑战——从研究原型到稳定运行的生产系统,需要大量工程优化和临床流程适配。
引自:
A foundation model for clinician-centered drug repurposing. Nat Med 30, 3601–3613 (2024). https://doi.org/10.1038/s41591-024-03233-x
A multimodal vision knowledge graph of cardiovascular disease. Nat Cardiovasc Res 5, 18–33 (2025). https://doi.org/10.1038/S44161-025-00757-4
编辑:刘琴
审核:梁小华、陈栏灵、那晓娜

夜雨聆风