告别昂贵动物实验!这个AI工具仅凭正常细胞数据就能预测基因敲除效果-夜雨聆风

告别昂贵动物实验!这个AI工具仅凭正常细胞数据就能预测基因敲除效果

理解一个基因的功能通常需要将其“敲除”（Knockout, KO），然后观察生物体或细胞的变化。然而，传统的基因敲除实验，无论是构建基因改造动物还是使用CRISPR技术，都面临着成本高昂、耗时漫长、技术复杂的挑战。

有没有一种方法，能在不进行任何物理实验的情况下，仅凭计算机模拟就精准预测基因敲除的后果？2023年发表在《核酸研究》（Nucleic Acids Research）上的一项研究给出了肯定的答案。来自德州农工大学等机构的研究团队开发了一款名为 GenKI（Gene Knockout Inference） 的虚拟基因敲除工具，它仅需野生型（正常）细胞的单细胞RNA测序数据，就能准确推断基因功能，为基因研究开辟了一条全新的“计算实验”路径。

基因功能研究的困境与曙光

基因敲除是揭示基因功能的“金标准”。通过比较敲除个体与野生型个体的表型差异，科学家可以推断该基因在生命活动中扮演的角色。随着单细胞RNA测序技术的普及，我们能够在单个细胞分辨率下观察基因表达的变化，为理解基因功能提供了前所未有的精细度。

然而，现实很骨感。构建基因敲除动物模型不仅需要数月甚至数年的时间，还涉及复杂的伦理审批和昂贵的饲养成本。新兴的CRISPR筛选技术（如Perturb-seq）虽然能高通量研究基因功能，但构建大规模的CRISPR文库本身也是一项重大的技术挑战。

在此背景下，计算生物学工具成为了一个极具吸引力的替代或补充方案。它们通过计算机模拟来预测扰动响应，可以大幅减少实验测量的需求，指导实验设计，甚至部分替代传统的动物实验。

GenKI：如何从“正常”中预见“缺失”？

GenKI的核心创新在于，它完全不需要任何真实的基因敲除样本数据。仅凭野生型细胞的单细胞RNA测序数据，它就能以无监督的方式，捕捉基因敲除扰动导致的基因调控模式变化。

它的工作原理可以概括为以下几步：

1. 构建基因“社交网络”：首先，GenKI利用野生型细胞的基因表达数据，通过主成分回归等方法，构建一个单细胞基因调控网络。这个网络描述了基因之间潜在的调控关系，可以理解为基因的“社交图谱”。
2. 训练“基因理解”模型：接着，研究人员采用一种名为变分图自编码器的深度学习模型。这个模型同时学习基因表达数据和上述调控网络，将每个基因压缩成一个包含丰富信息的潜在表示（可以理解为基因的“数字指纹”）。
3. 执行“虚拟敲除”：当需要研究某个特定基因（假设为基因A）的功能时，GenKI会在计算机中复制一份野生型数据，并在复制的基因调控网络中“删除”基因A的所有连接。这模拟了该基因在细胞中被敲除、无法与其他基因互作的状态。
4. 比较与推断：将这份“虚拟敲除”数据输入训练好的模型，得到基因在敲除状态下的新“数字指纹”。通过计算每个基因在野生型和虚拟敲除状态下“数字指纹”分布之间的KL散度，GenKI可以量化基因A的缺失对其他基因的影响程度。KL散度值越高的基因，受敲除的影响越大，它们很可能与基因A在功能上密切相关。
5. 确定关键基因：最后，通过一种基于自助法的统计策略，GenKI能够稳定地筛选出那些最可能受敲除影响的基因，即 “KO响应基因”。对这些基因进行功能富集分析，就能推断出被敲除基因的可能功能。

性能验证：模拟与真实数据双丰收

为了验证GenKI的可靠性，研究团队进行了 rigorous 的测试。

在模拟数据测试中，研究人员使用已知真实调控网络的仿真数据。结果显示，在预测与敲除基因相连的基因方面，GenKI的性能显著优于包括当时先进方法scTenifoldKnk在内的其他基准方法。这表明GenKI能够更有效地从数据中捕捉基因间的调控关系。

在真实数据应用中，GenKI的表现同样令人信服。研究团队使用了多个已发表的单细胞RNA-seq数据集，这些数据集包含了通过真实动物实验验证的基因敲除结果。例如，在一个小胶质细胞的数据集中，GenKI成功预测了 Trem2 基因敲除的响应基因，其富集到的生物学通路与已知的 Trem2 功能（如免疫反应、细胞粘附）高度吻合，复现了真实动物实验中的发现。

更重要的是，GenKI还展现了细胞类型特异性的预测能力。在同一个组织（如肺或肠道）包含多种细胞类型的数据中，GenKI能够预测出敲除同一基因在不同细胞类型中可能引发的独特反应，这对于理解基因在复杂组织中的多功能性至关重要。

优势与前景：更稳健、更通用的计算实验平台

与现有工具相比，GenKI拥有几大独特优势：

数据要求极简
仅需野生型数据，无需任何敲除样本或其他模态数据（如染色质可及性数据），极大降低了使用门槛。
对噪声不敏感
测试表明，即使在基因表达数据中加入不同程度的随机噪声，GenKI的预测结果依然保持稳定，展现了良好的鲁棒性。
规避网络缺陷
它不依赖于一个完美无缺的基因调控网络。即使初始构建的网络存在缺失或错误连接，VGAE模型也能通过学习进行一定程度的补全和修正。

这项研究的通讯作者杨永健博士指出：“GenKI为基因功能研究提供了一个强大的硅学（in-silico）替代方案。它有望部分替代对基因修饰动物或其他遗传扰动系统的需求，加速功能基因组学的发现步伐。”

随着单细胞测序成本的持续下降和数据量的爆炸式增长，像GenKI这样的计算工具的价值将愈发凸显。

它不仅能帮助科学家优先筛选最有研究价值的基因进行湿实验验证，节省大量资源和时间，更能让我们在计算机中探索那些在实验中难以实现或伦理上受限的基因扰动场景，从而更深入、更安全地揭示生命的奥秘。

参考文献：Yang, Y., Li, G., Zhong, Y. et al. Gene knockout inference with variational graph autoencoder learning single-cell gene regulatory networks. Nucleic Acids Res. 51, 6578–6592 (2023).