在当今的计算生物学领域,科学家们一直追寻着一个终极目标:打造能够完美模拟真实细胞运作机制的“虚拟细胞” 。
这不仅意味着要在数字世界中复刻细胞的结构,更要求模型能够精准预测细胞在面对外来刺激(如药物干预、基因突变)时的动态变化 。

近日,阿里达摩院(DAMO Academy)的研究团队在预印本平台arXiv上发布了一项极具突破性的研究成果——Lingshu-Cell(灵枢细胞) 。这是一款面向单细胞转录组学建模的生成式细胞世界模型 :通过引入创新的掩码离散扩散架构,“灵枢”成功跨越了传统静态表征的局限,向真正的动态虚拟细胞迈出了历史性的一步 。

图注:达摩院团队最新发布的研究论文,提出构建面向“虚拟细胞”的生成式单细胞世界模型 Lingshu-Cell(灵枢)
01
行业痛点:现有模型为何玩不转“动态模拟”?
伴随单细胞RNA测序(scRNA-seq)技术在过去十年的爆发式增长,研究人员已经能够精细描绘细胞在不同状态下的图谱 。然而,绝大多数研究依然停留在描述性分析层面,比如细胞聚类和注释 。
虽然近年来涌现了诸如scGPT、Geneformer等优秀的单细胞基础模型,但它们主要针对的是“静态特征学习”,并没有针对生成式模拟进行显式建模 。此外,像scVI等现有的生成模型往往基于连续数据的假设,这与单细胞转录组数据本身高度稀疏、离散以及非连续的本质产生了严重的“水土不服” 。

这就好比我们有了一台极高清的相机,能给细胞拍出完美的“快照”,但却缺少一台摄影机,无法推演细胞在受到干扰后会如何“行动” 。

02
破局利器:Lingshu-Cell 的核心黑科技
为了解决这一难题,达摩院团队另辟蹊径,为Lingshu-Cell引入了掩码离散扩散模型。
直接在“离散空间”中运算: 区别于强行将数据连续化的传统做法,Lingshu-Cell直接在离散的基因表达词元(token)空间中运行,完美契合了单细胞RNA数据的稀疏性 。
无需人为筛选基因: 以往的模型常常需要先过滤掉低表达基因,而Lingshu-Cell可以直接对大约 18,000 个基因进行全转录组规模的建模,无需任何基于变异性或表达水平的先验筛选 。
非自回归双向优化: 它摒弃了对固定生成顺序的依赖,通过随机遮盖(Mask)并预测离散词元的方式,学习极其复杂的全转录组基因依赖关系 。

图注:Lingshu-Cell 核心技术架构示意:创新引入掩码离散扩散模型,直接在离散的基因表达词元空间内进行非自回归双向优化。

03
🧬 两大核心应用场景:创造与预测并重
在强大的底层架构支撑下,Lingshu-Cell 在两大核心任务中展现出了惊人的实力:
1
无条件生成:跨越物种与组织的高保真“细胞克隆”
在没有任何外部干扰条件的情况下,Lingshu-Cell 展现出了惊人的泛化能力。研究团队在涵盖人类8大组织(如大脑皮层、心脏、肺等)和4个非人类物种(小鼠、猕猴、斑马鱼、果蝇)的海量单细胞数据集上进行了测试 。
结果显示,该模型不仅能准确重现真实单细胞转录组的分布特征,还能极其精准地复刻特征基因的表达模式和各类细胞亚型的比例 。这表明AI已经掌握了不同生物体内细胞异质性的底层密码 。

图注: 高保真“细胞克隆”能力展示:Lingshu-Cell 生成的虚拟细胞数据在分布特征与细胞亚型比例上(下排),高度还原真实单细胞转录组(上排)
2
条件生成:精准预判“基因扰动”与“药物刺激”反应
如果说生成健康细胞只是热身,那么预测细胞受刺激后的反应才是 Lingshu-Cell 的主战场。通过将“细胞类型/供体身份”与“扰动条件”联合嵌入到潜在空间中,模型能够预测出前所未见的扰动组合带来的全转录组表达变化 。
登顶虚拟细胞挑战赛 (VCC): 在评估遗传基因扰动的 VCC H1 基准测试中,Lingshu-Cell 仅使用了约 60 万个训练细胞,就在平均排名中斩获第一,全面超越了针对特定任务设计的预测模型 。
精准预测细胞因子响应: 在基于人类外周血单核细胞(PBMC)的真实药物(细胞因子)干预测试中,Lingshu-Cell 同样表现卓越。它能够跨越不同供体,准确模拟出几十种特定细胞因子诱导下的免疫反应 。

图注: 精准预判基因与药物反应:Lingshu-Cell 在虚拟细胞挑战赛(VCC)等多项基准评估中,多项核心指标均超越现有预测模型

04
迈向未来:“虚拟细胞”的星辰大海
《黄帝内经》中云:“夫十二经脉者,内属于脏腑,外络于肢节”。《灵枢》作为其核心篇章,探讨的正是生命的底层运作机理。阿里达摩院以“灵枢”命名这一模型,寄托了用AI解构生命底层密码的宏大愿景。
Lingshu-Cell 证明了掩码离散扩散模型(MDDM)可以作为单细胞转录组学的统一生成框架 。它的出现,不仅仅是一次算法层面的胜利,更为我们在计算机构建虚拟生物实验室奠定了坚实的基础 。
在未来,它有望被广泛应用于大规模的计算机模拟实验中,帮助医学界以前所未有的速度筛查潜在药物、探究复杂疾病的根源,并描绘复杂的发育轨迹 。
END
论文链接:
https://arxiv.org/abs/2603.25240
夜雨聆风