模板100【罕见病|文献计量分析】过去二十年人工智能赋能罕见病研究

Healsan™技术驱动，让科研和SCI论文成为临床工作的副产品。

▼ 做您定制的类似分析，请与刘老师联系。

不做实验，也能发IF10+SCI？正在悄悄流行的文献计量分析，不仅是“论文捷径”，更是“基金申请外挂”！

引言

罕见病（rare diseases, RDs），又称孤儿病，通常被定义为发病率低于每2000人中1例的疾病。全球已识别出超过7000种罕见病，影响着超过3.5亿人，其中近50%为儿童。尽管每种罕见病的患者数量相对较少，但从整体来看，罕见病并不罕见，对患者及社会造成了显著的健康和经济负担。罕见病的特殊性对传统的诊断与治疗模式提出了挑战。这些疾病的复杂性和异质性往往导致识别率低、误诊率高以及诊断延迟。鉴于约80%的罕见病具有遗传基础且多在早期发病，并可能进展为严重残疾甚至死亡，亟需创新的诊断方法和先进技术以改善其整体管理水平。

尽管面临诸多挑战，医学研究和技术的进步，尤其是人工智能（AI）领域的发展，为医疗体系（包括罕见病的诊断、治疗和管理）带来了巨大变革潜力。人工智能作为计算机科学的一个分支，致力于构建能够执行自然语言理解和复杂问题求解等任务的智能系统。通过分析海量医学数据，AI能够辅助医疗专业人员做出更准确的诊断和治疗决策。近年来，学者们逐渐将研究重点转向AI在罕见病中的应用，认识到其在揭示复杂疾病模式方面的潜力。全面理解该领域的发展，有助于明确研究重点、指导未来方向并提升临床实践水平。

文献计量分析作为一种重要的研究方法，利用数学和统计手段对文献进行定量评估，从而揭示研究热点的发展趋势及其演化过程。随着科学文献数量的不断增长以及科研评价重要性的提升，文献计量学在识别新兴趋势和潜在研究方向方面发挥着关键作用。已有学者将该方法应用于分析人工智能在多种疾病中的应用，如肝纤维化、糖尿病视网膜病变以及新冠肺炎（COVID-19）等。然而，据我们所知，目前尚缺乏对人工智能在罕见病领域应用的系统性文献计量分析。因此，本研究旨在填补这一研究空白，通过整合现有研究成果，对该领域进行全面综述。

该文2026年发表于Orphanet Journal of Rare Diseases
IF约4.5 – 5.0, JCR: Q1.

▼ 想发表自己的文献计量分析论文？点击👇获得更多高质量文献计量分析模板。

（👆经典文献计量分析模板，持续更新中）

以下分为三个方面进行解读。

一. 检索策略

1. 研究设计

本研究为一项横断面研究，对过去二十年间人工智能在罕见病领域应用的相关文献进行了文献计量分析，并遵循《流行病学观察性研究报告规范》（STROBE）指南进行报告。由于所有数据均直接来源于数据库，且具备完整记录用于分析，因此无需进行伦理审查。

2. 数据获取与检索策略

本研究通过构建检索式，从Web of Science（WoS）数据库中获取原始数据。作为一个被广泛认可的综合性学术数据库，WoS提供跨学科文献资源、详尽的引文信息以及及时的数据更新，因此被认为是本研究分析的全面且可靠的数据来源。

检索策略由两位资深临床教授（Liu博士和Wang博士）共同讨论制定，并由专业图书馆员（Zhao女士）进行审核。我们采用以下检索式筛选人工智能在罕见病领域应用的相关文献：

TS =（“AI” OR “artificial intelligen*” OR “data learning” OR “robotic*” OR “computer vision” OR “machine learning” OR “deep learning” OR “deep network*” OR “neural learning” OR automat* OR algorithm OR “neural network*” OR “expert* system*”）ANDTS =（“rare disease*” OR “rare disorder*” OR “orphan disease*” OR “infrequent disease*” OR “seldom disease*” OR “ultra-rare disease*” OR “orphan medicinal*” OR “rare” NEAR/5 “disease*” OR “rare” NEAR/5 “disorder*” OR “orphan*” NEAR/5 “disease*”）ANDDOP* =（2003-01-01 / 2023-12-31）

此外，我们还对同期医学领域的总发文量进行了比较，以评估罕见病中人工智能应用的发展趋势是否与整体医学人工智能研究趋势一致。

初步检索共获得1,931篇相关文献。为提高分析质量，仅纳入研究型文章（articles），排除其他类型文献，包括综述（345篇）、社论（28篇）、会议摘要（28篇）以及书籍章节（5篇）。随后，两名研究者（Ou博士和Shi博士）对每篇文献的标题和摘要进行逐一审阅，进一步排除24篇与人工智能在罕见病应用无关的文献。

最终，从符合纳入标准的文献中提取完整记录，并以纯文本格式保存，用于后续分析。相关文献的详细信息列于补充材料中。文献检索与筛选的具体流程见图1。

3. 数据分析
在全球研究格局分析中，我们构建了地图以可视化人工智能在罕见病领域应用研究的地理分布。该地理图通过不同深浅的颜色表示发文数量的差异，从而直观展示全球各国的研究产出。此外，我们还构建了国际合作网络，以突出发文量排名前十国家之间的合作关系。
为进一步理解文献中的模式与趋势，我们采用CiteSpace软件（Version 6.1.R6）生成关键词共现网络。这一方法有助于识别研究热点，并构建可视化知识图谱，将复杂信息转化为直观且易于理解的形式。关键词作为文章内容的高度概括，其共现分析能够揭示相关研究热点。通过关键词聚类和突现词分析，可以识别研究热点并追踪学术话语的演变过程。其中，突现检测用于捕捉在特定时间段内关键词使用频率的显著增长。这些方法有助于高效地对复杂数据进行分类与整理，从而简化研究结果的分析过程。
在可视化网络图中，节点越大表示该研究领域的发文数量越多。本研究采用对数似然比（Logarithmic Likelihood Ratio, LLR）算法进行聚类分析并提取关键短语。模块度值（Q值）和轮廓系数（S值）是评估聚类质量的两个主要指标。一般而言，Q值大于0.3表示聚类结构具有显著性，而S值大于0.5则表明聚类结果具有较好的合理性。带有紫色外环的节点表示具有较高中介中心性（betweenness centrality）的节点，这类节点在学科发展中通常具有重要作用。这些指标帮助我们构建图形化表达，从而揭示复杂文本数据中的研究现状与发展趋势。

二.主要结果

1. 年度发文趋势

2003年至2023年间，人工智能在罕见病领域的研究共发表了1501篇文章，年均约75篇。图2展示了罕见病领域人工智能相关发文数量与医学领域总体发文数量的对比情况。该领域的发展大致可分为三个阶段：起步期（2003–2010年）、稳步发展期（2011–2018年）以及快速增长期（2019–2023年）。

在起步期，每年发表的文章数量不超过30篇，发文量从最初的1篇逐步增长至28篇。在第二阶段，该领域进入相对稳定的发展阶段，年均发文量由28篇增长至56篇。值得注意的是，2021年成为一个重要转折点，发文数量由2020年的119篇跃升至2021年的218篇，增长率达83.19%。此后，该领域进入快速发展阶段，年均发文量几乎较前一阶段翻倍。

为量化这一趋势，研究采用指数增长函数评估累计发文量与年份之间的关系，结果显示两者之间具有较强相关性（R² = 0.963），表明该领域发文量呈显著增长趋势。

2. 国家/地区分布

如图3(A)所示，我们展示了人工智能在罕见病领域研究的地理分布情况，涵盖了来自85个以上国家/地区的研究成果。其中，美国在该领域的发文量最多，共515篇，占总量的35.23%。其次是德国（235篇，占16.07%）、英国（172篇，占11.77%）、中国（152篇，占10.40%）以及法国（135篇，占9.23%）。

图3(B)展示了发文量排名前10且合作最为密切的国家之间的合作关系网络，突出了加拿大、美国和德国在该领域中发挥的重要“桥梁”作用。

3. 关键词共现分析

为增强分析的准确性，我们剔除了与检索词完全相同的关键词。其中，“突变（mutation）”、“诊断（diagnosis）”和“管理（management）”是同时具有高频次和高中介中心性的前三个关键词。表1列出了频次和中介中心性均较高的前20个关键词。

我们利用CiteSpace构建了关键词共现网络图（见图4），该图包含628个节点和1630条连线。该网络图揭示了人工智能在罕见病领域应用的广泛研究主题，以及这些主题之间的紧密联系。

4. 研究热点演变：关键词聚类分析

为了更好地理解人工智能在罕见病领域的发展规律，我们根据发文时间趋势将研究划分为三个阶段，并分别构建了对应的关键词聚类图：（i）起步期（2003–2010年）、（ii）稳步发展期（2011–2018年）以及（iii）快速增长期（2019–2023年）。

图5(A)显示，在起步期形成的主要聚类包括：#0 肾上腺皮质肿瘤（Adrenocortical tumor）、#1 先天性中枢性低通气综合征（Congenital central hypoventilation syndrome）以及 #2 核受体（Nuclear receptor）。这些聚类结果表明，在研究初期，学界主要集中于对特定疾病及潜在作用靶点的初步探索，为后续研究奠定了基础。

图5(B)展示了2011年至2018年稳步发展阶段的关键词聚类情况。值得注意的是，在这一时期，逐渐出现了一些与人工智能相关的聚类，例如#3 诊断算法（diagnostic algorithm）、#5 专用数据库（specific database）以及#6 深度神经网络（deep neural network）。这些聚类结果表明，研究者开始探索人工智能在罕见病领域中的应用，重点集中在诊断算法的开发与优化、专用数据库的构建与利用，以及深度学习技术的应用。

图5(C)表明，在2019年至2023年期间，随着越来越多学者关注该领域，出现了更加多样化的研究聚类。主要研究聚类转变为：#0 医疗服务（Medical Care）、#1 人工智能（Artificial Intelligence）、#2 深度学习（Deep Learning）以及#3 疾病预测（Disease Prediction）。这表明，学者们更加关注利用人工智能改善罕见病患者的医疗服务和健康结局，研究内容涵盖从多种医疗应用到先进数据分析技术以及疾病预测等多个方面。

5. 未来研究趋势：关键词突现分析

此外，我们利用CiteSpace内置算法进行关键词突现检测，以揭示该领域不断演进的研究前沿。图6展示了2003年至2023年突现强度最高的前20个关键词。

其中，“DNA”的突现持续时间最长，达11年。同时，“disorder（疾病）”和“deep learning（深度学习）”也是突现强度最高的前三个关键词之一，其突现强度均超过6.0。这表明这些主题在较长时间内受到持续关注，并在领域发展中具有重要影响。

近年来，“biomarker（生物标志物）”、“predictive model（预测模型）”以及“data mining（数据挖掘）”逐渐成为研究热点，反映出学界对这些方向的关注不断增加，并显示出其在引领未来研究趋势方面的潜力。

三. 讨论

本研究采用文献计量学方法，对过去20年人工智能在罕见病研究中的应用进行了系统分析，重点包括发文数量变化、主要研究国家识别、国际合作情况评估、研究热点演变以及关键词突现趋势的识别。

年度发文趋势结果表明，2003年至2023年间，人工智能在罕见病领域的研究逐步增长，尤其在近五年呈现加速发展态势。这一趋势与医学人工智能整体发展趋势一致，说明罕见病研究不仅紧跟医学发展步伐，还可能受益于人工智能在医疗领域的广泛应用与技术创新。发文量的指数增长反映出学术界对该领域关注度的提升，以及人工智能在推动罕见病研究中的重要作用日益凸显。罕见病复杂多样的特性需要借助定量分析和专业工具来辅助决策。人工智能算法能够快速、高效地分析海量基因数据，有助于识别罕见病相关模式和生物标志物，从而提高诊断准确性并实现个体化治疗。此外，大语言模型（LLMs）的出现也在罕见病领域展现出巨大潜力，其通过增强人机交互能力、优化大规模数据分析，在诊断、风险预测和医疗管理等方面发挥重要作用。基于这些进展，人工智能在罕见病研究中的持续探索正为科学发现和治疗进步开辟广阔前景。

国家分布与合作网络分析不仅揭示了该领域的主要研究国家，也强调了全球协作的重要性。美国以35.23%的发文占比位居首位，其高产出与其在数据科学领域的领先地位以及完善的监管体系密切相关。合作网络分析进一步表明，美国、加拿大和德国在推动国际合作中发挥着关键作用。由于罕见病具有复杂病因和明显的地域差异性，尽管跨国合作存在挑战，但对推动研究发展至关重要。多国、多学科的协同合作能够为罕见病研究带来新的视角和突破。因此，加强国际合作对于推动人工智能在罕见病领域的应用具有重要意义，有助于应对该领域的复杂挑战。

关键词共现分析直观展示了人工智能在罕见病领域的研究重点。高频关键词表明当前研究主要集中在基因突变机制、诊断技术提升以及个体化管理策略等方面。在基因诊断方面，人工智能结合统计方法与深度学习技术，正在革新通过RNA测序和长读长测序技术对致病剪接变异的检测与预测。在罕见病管理方面，基于人工智能的工具可实现患者数据的持续监测，从而促进药物研发并改善治疗效果。关键词突现分析则揭示了当前以个体化和数据驱动医疗为核心的发展趋势，强调创新技术在提升罕见病诊疗水平方面的潜力。随着人工智能在临床试验设计与数据分析中的应用，潜在孤儿药的研发管线显著扩展，为罕见病治疗带来新的突破。此外，多组学数据整合分析被认为是未来罕见病研究的重要方向，但也需要更强大的算法支持和资金投入。

本研究创新性地分析了人工智能在罕见病领域研究热点的演变，并将其划分为三个发展阶段。聚类结果揭示了该领域从早期探索阶段逐步迈向广泛应用与技术融合的转变。初期研究主要集中于特定疾病的病理机制探索；随着研究深入，人工智能相关主题逐渐兴起，推动个体化治疗和新技术融合的发展。机器学习能够从高维数据中提取疾病相关特征，为理解基因、分子通路及细胞类型与疾病表型之间的关系提供重要支持。同时，面对生物医学数据快速增长的挑战，人工智能在处理个体差异、优化诊断方法方面发挥着关键作用，从而为罕见病患者提供更精准的治疗方案。展望未来，人工智能将进一步推动个体化医疗的发展。通过对海量数据的分析并结合患者个体特征制定治疗方案，有望显著改善罕见病患者的预后，同时降低传统药物研发与治疗模式的时间与成本。

本研究也存在一定局限性。首先，仅采用Web of Science数据库进行文献检索，可能无法全面覆盖所有相关研究。其次，由于数据库收录存在时间滞后，部分最新发表的文献可能未被纳入。然而，鉴于WoS数据库的权威性与广泛覆盖范围，本研究结果仍具有较高的可靠性和参考价值。

编者按

随着人工智能技术的快速发展，其在罕见病领域的应用正从探索阶段迈向深度融合阶段。本研究基于文献计量分析，系统梳理了过去二十年该领域的发展轨迹，揭示了从早期疾病机制探索到当前以深度学习、疾病预测和医疗服务优化为核心的研究转型。这一演进不仅体现了技术进步的推动作用，也反映出罕见病研究范式正在由经验驱动向数据驱动转变。

从研究趋势来看，人工智能已逐渐成为破解罕见病诊断难、数据稀缺及治疗路径不清等问题的重要工具。尤其是在基因组学分析、生物标志物识别以及预测模型构建方面，AI展现出显著优势。同时，大语言模型等新兴技术的引入，正在进一步拓展临床决策支持与医学知识整合的边界。

基于现有研究成果，未来罕见病领域的发展可获得以下几点启示：首先，应加强多源数据整合与共享机制建设，推动多组学数据、临床数据与真实世界数据的深度融合，以提升人工智能模型的可靠性与泛化能力；其次，强化跨学科与国际合作，尤其是在标准化数据平台与协同研究网络方面，实现资源的优化配置；再次，应重视算法的可解释性与临床可转化性，避免“黑箱模型”在实际应用中的局限；最后，完善伦理规范与监管体系，在保障患者隐私与数据安全的前提下，促进技术创新与临床应用的平衡发展。

总体而言，人工智能为罕见病研究提供了前所未有的机遇，但其真正价值仍依赖于技术、政策与临床实践的协同推进。未来，随着数据基础设施的完善与算法能力的提升，人工智能有望在罕见病精准诊疗体系中发挥更加核心的作用，从而切实改善患者预后与生活质量。

原文链接：

DOI: 10.1186/s13023-024-03352-1

关键词：#文献计量学；#Hanson临床科研；#罕见病；#人工智能

广而告之：

如果您也需要对自己公司的产品或者对自己研究的领域做系统梳理，可以找美国Healsan恒祥医学科技做文献计量分析。并可同时获赠五个仅Healsan™大数据才有的福利：

文献检索老师参与学员选题的文献检索；
完成分析后，免费使用SCI论文神器10天，以完成论文撰写；
作者撰写好之后，获得免费查重；
作者投稿前，获得免费的选刊服务。

编译：Shutong Liu，微信号：Healsanz。

美国Healsan (恒祥医学科技)，专长于Healsan医学大数据分析（Healsan™）、及基于大数据的Hanson临床科研服务（HansonCR™）和医学编辑服务（MedEditing™）。主要为医生科学家、生物制药公司和医院科研处等提供文献计量分析和SCI论文润色、编辑、选刊等服务，成为诸多机构的“临床科研外挂”。

网址：https://healsan.com/

（点击👆，获得持续的医学大数据分析报告）

▼ Healsan医路成长更多免费资源：