AI算法在生物信息学领域的应用:方法体系、典型场景与发展趋势综述

摘要

随着高通量测序、空间组学、结构生物学和生物医学影像技术的快速发展，生命科学正在进入由大规模、多模态和高维数据驱动的新阶段。人工智能（AI）特别是机器学习、深度学习、图神经网络、生成模型、基础模型与大语言模型，已成为生物信息学中最具变革性的技术力量之一。本文围绕“算法—任务—应用”三条主线，对AI在生物信息学中的主要方法体系与代表性应用进行系统综述。首先，从监督学习、无监督学习、自监督学习、生成建模、图学习和基础模型等角度梳理方法谱系；其次，结合非编码变异功能预测、剪接与变异检测、基因表达调控、蛋白质结构与分子相互作用预测、单细胞/空间组学解析、药物发现与分子设计、基因编辑与精准医学等核心任务，总结AI方法的适用场景、优势与局限；最后，讨论当前领域面临的数据质量、标注偏差、跨平台泛化、模型可解释性、基准评测与临床/实验验证不足等共性挑战，并提出面向多模态基础模型、机制约束学习、科学智能体与闭环实验优化的发展趋势。本文旨在为生物信息学研究者和交叉领域从业者提供一份逻辑清晰、方法全面且兼顾前沿进展的参考框架。

关键词：人工智能；生物信息学；机器学习；深度学习；单细胞组学；蛋白质结构预测；药物发现；基础模型

1 引言

生物信息学的核心任务是从复杂、生噪且尺度跨度极大的生命数据中提取可解释知识。传统统计学习方法在群体遗传学、表达差异分析和生物标志物筛选中发挥了关键作用，但面对如今的海量测序数据、长距离调控建模、蛋白质—核酸—小分子联合表征以及单细胞/空间多组学整合问题，线性或浅层方法在表达能力、特征工程成本和跨任务迁移性方面逐渐显现瓶颈。AI算法的价值在于：能够通过数据驱动的表示学习自动提取层级特征，在弱监督或无监督条件下进行预训练，并将学习到的表示迁移到下游任务，从而显著提升预测精度与分析效率[1-3]。

从具体技术路径看，AI在生物信息学中的落地大致经历了三个阶段：第一阶段是面向特定任务的预测模型，例如变异致病性判别、剪接预测和变异检测；第二阶段是面向结构与机制问题的深度模型，例如蛋白质结构预测、调控序列建模和图神经网络驱动的药物发现；第三阶段则是面向通用表征与跨任务迁移的基础模型与多模态模型，其典型例子包括单细胞基础模型、蛋白语言模型和生物医学大语言模型[4-6]。因此，当前讨论“AI在生物信息学中的应用”已经不应局限于单点工具，而应放在“数据—表征—机制—生成—决策”一体化框架下理解。

2 AI算法在生物信息学中的方法学框架

从方法学上看，生物信息学中的AI算法可以分为六类。其一，监督学习用于有明确标签的预测任务，包括分类、回归和排序，典型算法包括随机森林、支持向量机、卷积神经网络和Transformer；其二，无监督学习与降维聚类用于发现潜在生物结构，如细胞亚群、疾病亚型和分子模块；其三，自监督学习通过掩码预测、对比学习或自回归预训练学习通用表征；其四，生成模型（VAE、GAN、扩散模型、流模型）用于分布建模、缺失补全、分子生成和状态模拟；其五，图学习将蛋白相互作用网络、分子图、细胞—细胞关系和调控网络引入模型；其六，基础模型/大语言模型则强调在大规模生物数据上预训练，再迁移到多个下游任务[1,4,5]。

2.1 监督学习与深度序列建模

在基因组学中，DNA、RNA和蛋白质序列天然适合被建模为离散符号序列。早期模型依赖k-mer特征、位置权重矩阵和手工设计统计量；深度学习则通过卷积、注意力和长程依赖建模，直接从原始序列学习调控语法。DeepSEA 是非编码变异功能预测中的代表性工作，可从序列端到端预测染色质和转录因子结合信号[7]；Enformer 则通过Transformer显著扩大感受野，将长距离调控信息纳入基因表达预测[8]。在RNA层面，SpliceAI 直接从原始序列预测剪接位点及变异引起的剪接改变，展示了序列深度模型在临床变异解释中的潜力[9]。

2.2 图神经网络与结构约束学习

生命系统存在大量图结构：蛋白质可表示为接触图，药物分子可表示为原子—键图，细胞通信与基因调控也天然具备网络属性。图神经网络（GNN）通过消息传递聚合局部邻域信息，能够比基于固定指纹的浅层模型更好地表示分子结构和网络上下文。GNN 已广泛用于药物—靶标相互作用预测、分子性质预测、反应路径推断和单细胞调控网络建模[20]。其优势在于结构归纳偏置强、可与先验知识自然融合；不足在于对训练图分布敏感，且在跨领域泛化时常依赖高质量知识图谱和严格评测。

2.3 自监督学习、生成模型与基础模型

近年来，自监督学习和基础模型成为生物信息学最活跃的方向。其逻辑与自然语言处理相似：先在大规模无标签生物数据上进行预训练，再针对下游任务微调。在蛋白质领域，ESMFold 展示了蛋白语言模型可从原始氨基酸序列中学习结构规律，并在无需传统多序列比对的情况下生成高质量结构预测[12]。在单细胞领域，scGPT 和 Geneformer 分别从生成式预训练与转移学习角度构建了单细胞基础模型，显著提升了细胞状态表示、注释、整合和网络生物学推断能力[15,16]。与此同时，扩散模型、流匹配和条件生成模型也开始进入分子生成、蛋白设计与虚拟细胞建模等场景，用于建模更复杂的数据分布与动态过程[21,22]。

表1AI算法在生物信息学中的主要方法类别与典型任务

方法类别	核心思路	典型任务	代表性方法/文献
监督学习	从标签数据学习输入到输出映射	变异分类、疾病预测、表型判别	DeepVariant[10], AlphaMissense[17]
序列深度模型	从原始DNA/RNA/蛋白序列学习层级特征	非编码调控、剪接、表达预测	DeepSEA[7], SpliceAI[9], Enformer[8]
图神经网络	利用图结构与邻域消息传递	分子性质、药物–靶标、GRN推断	GNN for drug discovery[20]
生成模型	学习数据分布并进行采样或状态迁移	分子生成、单细胞扰动、补全	scVI[14], DiffLinker[22], TamGen[21]
基础模型/语言模型	大规模预训练后跨任务迁移	蛋白结构、单细胞表示、药物研发	ESMFold[12], scGPT[15], Geneformer[16]
多模态/空间模型	联合表达、图像、空间坐标和其他组学	空间域识别、细胞通信、病理整合	SEDR[18], stLearn[19], CellSAM[23]

3 AI算法在生物信息学中的主要应用场景

3.1 基因组学：从变异检测到调控序列理解

基因组学是AI最早实现规模化落地的生物信息方向之一。DeepVariant 将候选变异位点的测序比对信息转化为图像，再通过卷积网络完成SNP和小indel检测，在多个测序平台上均取得了高准确率[10]。在功能解释层面，DeepSEA 为非编码变异注释提供了端到端深度框架[7]；SpliceAI 显著提升了剪接异常位点识别能力[9]；Enformer 进一步将长距离序列依赖纳入建模，提升了从序列到表达的预测能力[8]。在临床遗传学中，AlphaMissense 以蛋白结构和进化信息为基础，对全人类可能的错义变异进行致病性评分，为罕见病诊断和变异优先级排序提供了重要工具[17]。这些工作表明，AI不仅能处理测序读段与局部序列模式，也正在向“从基因组到功能”的纵深链条扩展。

3.2 结构生物学：蛋白质结构与相互作用预测

结构生物学是AI改变研究范式最显著的领域。AlphaFold2通过端到端深度网络显著提升蛋白质三维结构预测精度，被广泛认为改变了实验结构生物学的工作流程[11]。RoseTTAFold 以三轨网络实现高效结构与相互作用建模，进一步降低了高质量结构预测门槛[13]。随后，ESMFold 证明大规模蛋白语言模型能够将进化信息压缩进模型权重中，在无需多序列比对的情况下完成快速预测[12]。2024年的 AlphaFold 3 则将对象扩展到蛋白质、DNA、RNA、小分子、离子及其复合物，采用扩散式架构联合预测分子互作结构[13]。这些模型的意义不仅在于“预测结构”，更在于推动功能位点识别、复合体组装推断、抗体设计、酶工程和药物结合模式评估。

3.3 单细胞与空间组学：表示学习、整合与细胞状态解析

在单细胞组学中，数据呈现高稀疏性、高噪声和批次效应强等特点。scVI 通过变分推断与概率生成建模，为单细胞转录组提供了可扩展的潜在表示与不确定性建模框架，成为单细胞生成建模的重要起点[14]。近两年，单细胞基础模型快速发展。scGPT 基于超过三千万细胞进行生成式预训练，支持细胞表示学习、整合和下游多任务迁移[15]；Geneformer 则强调通过大规模单细胞语料进行转移学习，从网络生物学角度提升关键调控因子和治疗靶点发现能力[16]。对于空间转录组，SEDR 将深度自编码器与图自编码器结合，在表达与空间信息间学习联合潜在表示[18]；stLearn 则整合组织图像、空间位置和表达信息，支持空间轨迹、细胞通信和表达插补[19]。在生物图像方面，CellSAM 作为细胞分割基础模型，展示了从显微图像分析向通用生物图像基础模型扩展的趋势[23]。

3.4 药物发现与分子设计：图模型、生成模型与语言模型

药物发现是AI与生物信息学交叉最活跃、产业转化最快的方向之一。传统QSAR模型依赖手工分子描述符，而现代方法更多采用图神经网络、分子语言模型和生成模型。TamGen 使用GPT风格的化学语言模型进行靶点感知分子生成与优化，展示了条件生成在药物设计中的可行性[21]。DiffLinker 则利用E(3)-等变三维条件扩散模型完成分子连接子设计，表明扩散模型在三维药物分子构建中的优势[22]。在新型抗菌肽与抗生素发现中，机器学习已能从大规模微生物组与肽序列数据中筛选出高活性候选分子[24]。不过，近期综述同时指出，小分子药物发现的真正瓶颈仍然是高质量、生物学相关且经过严格验证的数据，而不是单纯堆叠更复杂的模型[25,26]。因此，药物AI的下一步重点将是数据标准化、实验反馈、生成可合成性与安全性约束的联合优化。

3.5 基因编辑与精准医学：从gRNA设计到临床决策支持

AI正在重塑CRISPR相关研究流程，包括引导RNA设计、编辑效率预测、脱靶评估、编辑器工程和新型效应蛋白发现[27]。2025年的综述指出，AI已经从“帮助选gRNA”扩展到“帮助设计编辑系统本身”，并正在与高通量筛选、蛋白设计和虚拟细胞建模形成联动[27]。在精准医学层面，AI一方面用于将基因组、转录组和临床表型进行联合建模，另一方面用于病理影像、电子病历和多组学风险预测。但需要强调的是，在医学场景中，模型性能只是第一步，外部验证、可解释性、偏倚评估、隐私保护和监管合规才是AI真正走向临床的决定性因素。

4 关键挑战与局限

尽管AI在生物信息学中取得了大量突破，但当前仍面临若干共性挑战。第一，数据质量和标签可靠性不均衡。测序误差、批次效应、样本选择偏差以及临床标签噪声都会限制模型上限。第二，跨平台、跨物种与跨中心泛化能力仍不足，许多模型在内部测试中表现优异，但在独立队列上的稳定性显著下降。第三，模型可解释性和机制一致性仍不足，尤其在药物发现、单细胞基础模型与多模态整合任务中，高性能并不自动意味着可用于生物假设生成。第四，基准评测体系仍不统一。以单细胞基础模型为例，近期评论和基准研究指出，部分大型模型在若干扰动预测任务上尚未稳定优于简单线性基线，说明“规模化预训练”并不是万能解[28-31]。第五，实验验证闭环不足。生物信息学与AI最终仍需返回湿实验和临床场景进行验证，否则模型价值只能停留在计算层面。

5 未来发展趋势

综合当前进展，AI在生物信息学中的未来发展大致可概括为五个方向。其一，从单模态走向多模态统一建模，即将序列、结构、表达、图像、空间位置和临床文本纳入统一表征空间。其二，从任务模型走向基础模型，再从基础模型走向机制增强模型：未来模型不仅要“会表征”，还要“懂机制”。其三，从静态预测走向动态生成与世界模型，特别是在单细胞扰动、发育轨迹和虚拟细胞方向，生成模型与动力学模型的结合将更加重要。其四，从工具走向智能体与闭环科学系统，大语言模型、检索增强生成和自动实验设计将使AI从“分析助手”进化为“科研协同体”[26,27]。其五，从离线评估走向实验反馈驱动的持续学习，即通过主动学习、强化学习和实验–模型闭环不断修正预测，提高模型的真实可用性。

6 结论

总体而言，AI已经从生物信息学中的辅助统计工具，发展为影响研究设计、数据解释、分子生成与科学发现流程的核心技术。从DeepSEA、DeepVariant、SpliceAI到AlphaFold、scGPT、Geneformer，再到面向药物发现、空间组学和基因编辑的生成式与基础模型，AI的应用边界仍在持续扩大。然而，真正决定其长期影响的，不只是模型精度，而是数据质量、机制解释、标准评测、实验验证和可转化性。未来的生物信息学AI将不是单一算法的竞赛，而是“高质量数据+基础模型+机制约束+实验闭环”的系统工程。

代表性文献展示（按主题归类）

主题	代表工作	说明
非编码调控与序列功能预测	DeepSEA[7]；Enformer[8]；SpliceAI[9]	从原始DNA/RNA序列预测调控效应、表达和剪接
变异检测与致病性判别	DeepVariant[10]；AlphaMissense[17]	覆盖测序变异识别到临床变异解释
蛋白质结构与互作	AlphaFold2[11]；RoseTTAFold[13]；ESMFold[12]；AlphaFold3[13]	推动结构生物学和药物发现范式转变
单细胞与空间组学	scVI[14]；scGPT[15]；Geneformer[16]；SEDR[18]；stLearn[19]；CellSAM[23]	从生成建模走向基础模型与空间多模态
药物发现与生成设计	TamGen[21]；DiffLinker[22]；微生物组抗菌肽发现[24]	图模型、扩散模型与化学语言模型协同发展
基因编辑与科学智能体	CRISPR AI综述[27]；药物与生物医学LLM综述[26]	从设计辅助走向自动化科研协作

参考文献

[1] Libbrecht MW, Noble WS. Machine learning applications in genetics and genomics. Nature Reviews Genetics, 2015, 16(6): 321-332. doi:10.1038/nrg3920.

[2] Jamialahmadi H, et al. Artificial intelligence and bioinformatics: a journey from fundamentals to advanced applications. 2024.

[3] Jiang J, et al. Artificial intelligence in bioinformatics: a survey. 2025.

[4] Libbrecht MW, Noble WS. Machine learning applications in genetics and genomics. Nature Reviews Genetics, 2015.

[5] Baek S, et al. Single-cell foundation models: bringing artificial intelligence into cell biology. Experimental & Molecular Medicine, 2025. doi:10.1038/s12276-025-01547-5.

[6] Qiu P, et al. BioLLM: a standardized framework for integrating and benchmarking single-cell foundation models. Patterns, 2025, 6(8):101326. doi:10.1016/j.patter.2025.101326.

[7] Zhou J, Troyanskaya OG. Predicting effects of noncoding variants with deep learning–based sequence model. Nature Methods, 2015, 12: 931-934. doi:10.1038/nmeth.3547.

[8] Avsec Ž, et al. Effective gene expression prediction from sequence by integrating long-range interactions. Nature Methods, 2021, 18: 1196-1203. doi:10.1038/s41592-021-01252-x.

[9] Jaganathan K, et al. Predicting splicing from primary sequence with deep learning. Cell, 2019, 176(3): 535-548.e24. doi:10.1016/j.cell.2018.12.015.

[10] Poplin R, et al. A universal SNP and small-indel variant caller using deep neural networks. Nature Biotechnology, 2018, 36: 983-987. doi:10.1038/nbt.4235.

[11] Jumper J, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596: 583-589. doi:10.1038/s41586-021-03819-2.

[12] Lin Z, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science, 2023, 379(6637):1123-1130. doi:10.1126/science.ade2574.

[13] Abramson J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 2024, 630: 493-500. doi:10.1038/s41586-024-07487-w.

[14] Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. Deep generative modeling for single-cell transcriptomics. Nature Methods, 2018, 15(12): 1053-1058. doi:10.1038/s41592-018-0229-2.

[15] Cui H, et al. scGPT: toward building a foundation model for single-cell biology. Nature Methods, 2024, 21: 1470-1480. doi:10.1038/s41592-024-02201-0.

[16] Theodoris CV, et al. Transfer learning enables predictions in network biology. Nature, 2023, 618: 616-624. doi:10.1038/s41586-023-06139-9.

[17] Cheng J, et al. Accurate proteome-wide missense variant effect prediction with AlphaMissense. Science, 2023, 381(6664): eadg7492. doi:10.1126/science.adg7492.

[18] Xu H, et al. Unsupervised spatially embedded deep representation of spatial transcriptomics. Genome Biology, 2024, 25: 21. doi:10.1186/s13073-024-01283-x.

[19] Pham D, et al. Robust mapping of spatiotemporal trajectories and cell-cell interactions in spatial transcriptomics with stLearn. Nature Communications, 2023, 14: 7518. doi:10.1038/s41467-023-43120-6.

[20] Wang R, et al. Graph neural networks driven acceleration in drug discovery. Current Opinion in Chemical Biology, 2025. PMID:41477345.

[21] Wu K, et al. TamGen: drug design with target-aware molecule generation. Nature Communications, 2024. doi:10.1038/s41467-024-53632-4.

[22] Igashov I, et al. Equivariant 3D-conditional diffusion model for molecular linker design. Nature Machine Intelligence, 2024. doi:10.1038/s42256-024-00815-9.

[23] Marks M, et al. CellSAM: a foundation model for cell segmentation. Nature Methods, 2025, 22(12):2585-2593. doi:10.1038/s41592-025-02879-w.

[24] Santos-Júnior CD, et al. Discovery of antimicrobial peptides in the global microbiome with machine learning. Cell, 2024. doi:10.1016/j.cell.2024.05.014.

[25] Durant G, Boyles F, Deane CM. The future of machine learning for small-molecule drug discovery will be driven by data. Nature Computational Science, 2024.

[26] Zheng Y, et al. Large language models for drug discovery and development. Patterns, 2025. PMID:41142906.

[27] Thomson T, Li G, Strilchuk A, Li B. Harnessing artificial intelligence to advance CRISPR-based genome editing technologies. Nature Reviews Genetics, 2025. doi:10.1038/s41576-025-00907-1.

[28] Tang L. Single-cell foundation models evaluated. Nature Methods, 2025, 22(6):1129. doi:10.1038/s41592-025-02735-x.

[29] Ahlmann-Eltze C, et al. Deep-learning-based gene perturbation effect prediction does not yet outperform simple linear baselines. Nature Methods, 2025. doi:10.1038/s41592-025-02772-6.

[30] Zahedi R, et al. Deep learning in spatially resolved transcriptomics. Briefings in Bioinformatics, 2024, 25(2):bbae082. doi:10.1093/bib/bbae082.

[31] Luo J, et al. Deep learning in integrating spatial transcriptomics with other modalities. 2025.