摘 要
💡 核心摘要 虚拟细胞(Virtual Cell)是当前计算生物学与人工智能交叉领域最具变革性的前沿方向之一。本文系统综述了AI驱动虚拟细胞(AIVC)的概念起源、技术路线、代表性模型(Geneformer、scGPT、scFoundation等单细胞基础模型),以及在药物研发、疾病建模、细胞扰动预测等领域的最新应用进展。同时,本文梳理了当前面临的关键挑战,并对未来五年的研究方向进行了展望。 |
关键词:虚拟细胞;单细胞基础模型;扰动预测;多组学;药物发现;精准医学
1引言:从实体细胞到数字细胞
细胞是生命的基本单元,也是理解疾病与健康的核心窗口。然而,传统实验手段受限于时间成本、通量瓶颈和伦理约束,难以对细胞行为进行全面、动态的观测与干预。随着单细胞测序、空间组学、高内涵成像等高通量技术的快速发展,以及深度学习模型规模的持续扩大,"AI虚拟细胞"(AI Virtual Cell,AIVC)这一概念应运而生,被誉为计算生物学的圣杯。
2024年12月,斯坦福大学、基因泰克制药和陈-扎克伯格基金会的联合团队在《Cell》期刊上发表了题为《How to build the virtual cell with artificial intelligence: Priorities and opportunities》的重磅展望文章[1],系统阐述了AIVC的设计愿景与实现路径,标志着该方向正式进入科学界的核心议程。
所谓AIVC,是指基于多尺度、多模态大型神经网络构建的细胞计算模型,能够在分子、细胞和组织三个层次上动态表征并模拟细胞在不同状态下的行为。与传统的基于方程的系统生物学模型不同,AIVC以数据为驱动,具备更强的泛化能力和可扩展性,理论上可覆盖各类细胞类型、扰动条件和生理/病理状态。
本综述将从技术基础、核心模型、应用场景和挑战与展望四个维度,对AI驱动虚拟细胞领域的研究进展进行系统梳理,以期为读者提供全面的领域图景。
2概念框架与技术基础
2.1AIVC的概念架构
根据Bunne等人[1]的定义,一个完整的AIVC系统需要整合三类核心数据:
(1)先验知识(A priori knowledge):包括数据库与文献中已知的生物学知识,如KEGG代谢通路、Reactome信号网络、基因本体论(GO)注释等。
(2)静态结构数据(Static architecture):细胞静态结构信息,如冷冻电镜(Cryo-EM)解析的蛋白质复合物结构、空间蛋白质组、超分辨成像数据等。
(3)动态状态数据(Dynamic states):扰动组学数据,捕捉细胞在不同干预条件下的动态响应。这被认为是三类数据中最为关键的一环,是训练具有预测能力的AIVC的核心燃料。
AIVC的最终目标是实现:在计算机中输入任意扰动条件(如基因敲除、药物处理、环境刺激),即可输出对应的细胞状态变化——无需进行实际实验。这种"计算机内实验(in silico experiment)"将深刻改变生物医学研究范式。
2.2关键技术支撑
2.2.1Transformer架构与预训练范式
受自然语言处理(NLP)领域大语言模型的启发,研究者将细胞的基因表达谱类比为一种"语言",将基因视为"词汇",将细胞状态视为"句子",从而将Transformer架构引入单细胞分析。[2]这类模型通过在数千万甚至上亿细胞的大规模数据集上进行自监督预训练,学习基因之间的共表达规律和细胞状态的潜在表示,然后针对特定下游任务进行微调(fine-tuning)。
2.2.2多模态数据融合
真实细胞的状态由基因组、转录组、蛋白质组、代谢组等多个层次共同决定。如何有效整合这些异质性数据,是构建高保真AIVC的核心技术挑战之一。近年来,浙江大学团队开发的SpatialMETA算法(发表于《Nature Communications》)[3]首次实现了空间转录组与代谢组的高效融合,为多模态建模提供了重要范例。
2.2.3扰动数据生成技术
大规模扰动数据的生成依赖于Perturb-seq(单细胞CRISPR筛选测序)、CROP-seq等高通量技术的发展。这些技术能够同时对数千个基因进行功能性扰动,并在单细胞分辨率上读取转录组响应,为训练具有因果推断能力的AI模型提供了前所未有的数据基础。
3代表性单细胞基础模型(scFM)
单细胞基础模型(single-cell Foundation Models,scFMs)是构建AIVC的核心引擎。截至2025年,已有数十个scFMs被开发并发表,[4]以下重点介绍最具代表性的几个模型。
模型名称 | 训练规模 | 主要功能 | 代表文献 |
Geneformer | 30M 细胞 | 迁移学习、网络生物学 | Theodoris et al., Nature 2023 |
scGPT | 33M 细胞 | 细胞注释、扰动预测 | Cui et al., Nature Methods 2024 |
scFoundation | 50M 细胞 | 药物响应、扰动预测 | Hao et al., Nature Methods 2024 |
UCE | 36M 细胞 | 零样本跨物种分析 | Rosen et al., Nature Methods 2023 |
TranscriptFormer | 112M 细胞 | 跨物种生成式分析 | CZI, bioRxiv 2025 |
表1代表性单细胞基础模型汇总
3.1Geneformer:开创性的细胞语言模型
Geneformer由Theodoris等人于2023年发表在《Nature》上,[5]是最早将Transformer用于单细胞转录组学的基础模型之一。该模型在约3000万个人类细胞的转录组数据上进行预训练,将每个细胞中的基因按表达量高低进行排序并编码,以自监督方式学习基因网络中的调控关系。在迁移学习实验中,Geneformer在心脏病、神经退行性疾病等多种疾病中成功识别出关键治疗靶点,展示了基础模型在生物学发现中的强大潜力。
3.2scGPT:首个面向单细胞多任务的生成模型
scGPT由多伦多大学团队开发,发表于《Nature Methods》(2024),[6]在约3300万个细胞上预训练。该模型采用了一种注意力掩码策略,能够同时建模基因表达、基因扰动和细胞类型注释等多种任务。scGPT在零样本(zero-shot)细胞类型注释和扰动响应预测上表现优异,是目前应用最广泛的scFM之一。
3.3scFoundation:迄今规模最大的细胞基础模型
scFoundation由清华大学自动化系与AIR联合研发,发表于《Nature Methods》(2024),[7]是目前规模最大的单细胞基础模型。其参数规模达1亿,覆盖约2万个人类基因,预训练数据量超过5000万个单细胞转录组。该模型采用了创新的非对称Transformer架构和读取深度感知预训练任务,使其不仅能建模细胞内基因共表达模式,还能关联不同测序深度的细胞。在药物响应预测、扰动预测等多项下游任务中均达到最先进水平。
3.4TranscriptFormer:跨越15亿年进化的生成模型
由Chan Zuckerberg Initiative(CZI)开发的TranscriptFormer是生成式单细胞基础模型的最新代表,[8]其训练数据涵盖1.12亿个细胞,横跨12个物种、约15.3亿年的进化历史。该模型能够进行零样本预测,无需针对每个任务重新微调,尤其适用于比较细胞生物学研究。
4AIVC的核心应用场景
4.1药物发现与靶点识别
虚拟细胞最直接的应用价值在于加速药物开发流程。AI通过深度学习模型,在药物开发的各个阶段提供支持——从药物靶标的识别到候选药物的筛选,再到临床试验的优化。[9]以Insilico Medicine为例,其AI平台成功识别了TNIK酶作为特发性肺纤维化(IPF)的新治疗靶点,并设计了相应抑制剂,该药物已进入IIa期临床试验。[10]
scFoundation在单细胞药物响应分类任务中的出色表现,表明基础模型能够从转录组数据中学习到药物作用机制的深层特征,为个性化用药预测提供了重要工具。
4.2细胞扰动预测与基因功能解析
扰动预测是AIVC最核心的能力之一,即给定基因敲除或药物处理的条件,预测细胞的转录组状态变化。这一能力能够以极低成本在计算机中"执行"数十万次虚拟实验,大幅加速基因功能解析和通路研究的进程。
2025年的State of AI报告[11]指出,在OpenProblems单细胞RNA测序整合基准中,LLM驱动的系统生成了87种方法,其中40种超越了所有已发表的排行榜模型,充分证明了AI自动化科研在生物信息学领域的爆炸性潜力。
4.3疾病建模与精准医学
AI与组学的结合正加速推动精准医学的实现。通过将患者的单细胞数据输入虚拟细胞模型,研究者能够模拟特定遗传背景下的疾病进展,预测治疗响应,并在不伤害患者的前提下优化治疗方案。[9]
国家自然科学基金委已将虚拟细胞列为重大研究计划,明确支持"基于多组学数据和AI方法,发展虚拟细胞技术,模拟细胞动态生命过程,解析细胞互作原理,预测生物体对扰动的复杂响应"。[12]其中包括虚拟单细胞(针对酵母、细胞系等)和虚拟生物体(针对线虫、胚胎等)两个层次的研究目标。
4.4民主化虚拟细胞实验室
2025年7月,印第安纳大学等机构的研究团队在《Cell》上发表研究,[13]提出了一套革命性的"细胞语法(Cell Grammar)"——只需使用简单的人类自然语言描述,就能模拟癌细胞转移、免疫细胞作战甚至大脑发育,让没有编程背景的生物学家也能构建虚拟细胞实验室。这一突破预示着虚拟细胞工具将从专业科研人员走向更广泛的研究群体。
5当前面临的核心挑战
5.1数据标准化与规模壁垒
构建高质量的大规模扰动组学数据集,是目前AIVC发展的最大瓶颈之一。西湖大学郭天南团队指出,[14]AIVC的"培养基"——即高质量、标准化的训练数据——至关重要,但目前各实验室产生的单细胞数据在测序深度、批次效应、细胞类型覆盖等方面存在显著差异,严重影响模型的泛化能力。
5.2多模态整合的技术难题
将基因组、转录组、蛋白质组、空间位置信息等异质性数据统一建模,面临数据结构差异大(如空间转录组的离散矩阵 vs. 代谢组的连续信号谱)、分辨率不一致、样本批次效应等多重技术挑战。现有多模态融合算法(如CVAE框架)虽有所突破,但距离真正意义上的跨模态联合建模仍有较大距离。
5.3模型可解释性不足
大型神经网络模型普遍存在"黑箱"问题,其预测结论难以与现有生物学知识直接对应。在精准医学和药物发现领域,AI模型的可解释性(XAI)是至关重要的问题——研究人员需要理解模型"为什么"做出这样的预测,而不仅仅是接受预测结果。[9]
5.4验证标准与基准缺失
虚拟细胞领域目前缺乏统一的验证标准和权威基准数据集。如何定义"高保真虚拟细胞"的评价指标,如何区分模型真正学习到的生物学规律与数据中的统计伪影,是推动该领域走向成熟亟待解决的方法论问题。[1]
6未来展望
基于当前的技术轨迹和国际顶尖团队的研判,未来五年AI驱动虚拟细胞领域有望在以下几个方向取得突破性进展:
①全人类细胞图谱级AIVC的构建:随着人类细胞图谱(HCA)计划的推进和模型参数规模的持续扩大,覆盖所有主要细胞类型的通用虚拟细胞有望在2027-2030年间初步实现。
②因果推断能力的突破:从相关性学习走向因果性理解,是下一代AIVC的核心目标。结合因果机器学习与大规模扰动数据,模型有望真正实现对基因调控网络的因果解析。
③多模态-多尺度联合建模:从分子(蛋白质/RNA)到细胞、从细胞到组织、从组织到器官,跨尺度建模将逐渐成为可能,最终有望支撑"虚拟器官"甚至"数字孪生人"的构建。
④与AI制药平台的深度整合:虚拟细胞将成为AI药物研发流程中的核心组件,实现从靶点发现、化合物设计到毒性预测的全流程计算机化验证。
⑤开放科学生态的形成:Bunne等人呼吁全球科学界共同努力,建立开放的数据共享标准和模型评估体系,这一倡议正在获得越来越多机构的响应。
💡 编辑寄语 如果说AlphaFold解决了蛋白质结构预测的问题,那么AI虚拟细胞的目标则更为宏大——在数字空间中还原完整的细胞生命。这不仅是技术竞赛,更是人类理解自身生命本质的哲学追求。这场革命已经开始。 |
参考文献
[1] Bunne C, Roohani Y, Rosen Y, et al. How to build the virtual cell with artificial intelligence: Priorities and opportunities. Cell. 2024; 187(25): 7045-7063. doi: 10.1016/j.cell.2024.11.015.
[2] Cui H, Wang C, Maan H, et al. scGPT: Towards building a foundation model for single-cell multi-omics using generative AI. Nature Methods. 2024; 21: 1470-1480. doi: 10.1038/s41592-024-02201-0.
[3] Liu W, et al. SpatialMETA: Spatial multi-modal integration of transcriptomics and metabolomics. Nature Communications. 2025. doi: 10.1038/s41467-025-xxxxx.
[4] Kim J, et al. Single-cell foundation models: bringing artificial intelligence into cell biology. Experimental & Molecular Medicine. 2025. doi: 10.1038/s12276-025-01547-5.
[5] Theodoris CV, Xiao L, Chopra A, et al. Transfer learning enables predictions in network biology. Nature. 2023; 618: 616-624. doi: 10.1038/s41586-023-06139-9.
[6] Cui H, Wang C, Maan H, et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nature Methods. 2024; 21: 1470-1480.
[7] Hao M, Gong J, Zeng X, et al. Large-scale foundation model on single-cell transcriptomics. Nature Methods. 2024; 21(8): 1481-1491. doi: 10.1038/s41592-024-02305-7.
[8] Chan Zuckerberg Initiative. TranscriptFormer: A cross-species generative cell atlas across 1.5 billion years of evolution. bioRxiv. 2025. doi: 10.1101/2025.04.25.650731.
[9] CSDN Blog. AI对生物信息学的影响. 2025. Available at: https://blog.csdn.net/m0_65595995/article/details/155015079.
[10] EBiotrade. 领先的人工智能驱动药物发现平台:2025年的市场格局. 2025. Available at: https://www.ebiotrade.com/newsf/2025-11/20251112002210649.htm.
[11] State of AI Report 2025. LLM驱动的改进型树搜索跨领域生成专家级科学软件. Zhihu. 2025.
[12] 国家自然科学基金委员会. 重大研究计划2025年度项目指南. 2025. Available at: https://www.kejixiangmu.org.cn/9197.html/
[13] Indiana University et al. Human interpretable grammar encodes multicellular systems biology models to democratize virtual cell laboratories. Cell. 2025 Jul 25. doi: 10.1016/j.cell.2025.xxxxx.
[14] 郭天南课题组(西湖大学). 颠覆传统实验,推动AI虚拟细胞的三大数据支柱与闭环学习. CPHI制药在线. 2025. Available at: https://m.cphi.cn/news/show-285056.html.
夜雨聆风