生物技术与AI(特别是深度学习)的融合正在加速,AlphaFold是标志性突破。AI最大的能力提升(△AI)发生在“设计(Design)”和“构思(Ideation)”阶段。大语言模型(LLMs)能快速生成海量候选分子或实验方案,这是人力无法企及的,但“构建(Build)”和“测试(Test)”阶段仍是物理瓶颈,且训练AI需要海量数据,但生物实验数据昂贵且稀缺。
AI在生命科学中的角色的分类框架:
基础模型 (Foundation Models):在海量生物数据上预训练,可适应多种下游任务。例如,蛋白质语言模型 ESM 和基因组模型Evo。
生成模型 (Generative Models):学习数据分布并生成全新的生物实体,如设计具有特定功能的新蛋白质。
预测模型 (Predictive Models):在不同生物数据间建立映射关系。例如,AlphaFold 从序列预测结构,Enformer 从DNA序列推断表观基因组特征。
设计模型 (Design Models):结合生成与预测能力,用于创造具有期望特性的生物实体,如蛋白质工程。
在当前阶段,AI工具在生物设计中的能力是有局限性的:
能设计简单生物分子(如毒素),AI可以重新设计分子结构来绕过简单的DNA序列筛查,但难以实现“精准控制”,且仍需湿实验验证。
难以精确修改现有病原体以增强其毒力,AI或许能预测个别突变,但病毒毒力和传播力是由多基因网络决定的,且宿主相互作用极其复杂,因缺乏高质量训练数据,现有数据和模型无法准确预测。
完全无法从头设计病毒,目前不存在可用于训练此类模型的数据集,因为要预测病毒的自复制和传播,需要理解海量的网络互作和进化压力,而现有病毒数据库(如GenBank)存在大量片段化序列、错误共识序列或“缺陷干扰颗粒”,缺乏表型注释。
病毒进化具有“蝴蝶效应”(混沌特性),且遵循“计算不可约性”——即除非逐帧模拟每一步,否则无法预测最终状态,这使得AI的预测存在根本上限。
AI系统面临新型安全威胁,如:
数据投毒(Data Poisoning):篡改公开数据(如伪造论文)误导AI训练。
后门攻击(Backdoor Attack):在开源模型中植入隐藏逻辑,在特定条件下输出危险结果。
越狱攻击(Jailbreaking):通过精巧提示词绕过AI的安全护栏。
当前的热门子领域
生成式AI与新药研发:这是目前最火的方向,AI不再仅是“筛选”,而是“创造”。例如,利用生成式AI可以设计全新的蛋白质、抗体或小分子药物,甚至可以设计mRNA等核酸药物。AlphaFold等工具已彻底改变了蛋白质结构预测的流程。
生成式生物学通过融合人工智能、自动化与高通量实验技术,正从根本上变革蛋白质、核酸等生物分子的设计与改造范式,并驱动数字细胞、数字器官等方面的创新发展。
系统生物学(system biology)强调将生物学作为一个整合的网络系统来研究,旨在揭示涌现出的系统属性和动态行为。而AI,特别是深度学习和图神经网络(graph neural networks,GNNs),为研究这种复杂性提供了理想的数学框架和计算工具。GNNs能够直接对生物分子相互作用网络、基因调控网络和代谢网络等进行建模,通过在图结构上传递和聚合信息来捕捉节点的局部邻域和整个图的拓扑结构特征,从而预测蛋白质功能、疾病亚型和药物靶点等。
AI模型能够处理海量的、高维度的、异构的生物医学大数据,捕捉传统统计方法难以揭示的深层模式与潜在因果关系,从而加速基础生物学发现(如基因功能预测)、转化医学研究(如精准肿瘤分型和个性化治疗)以及驱动药物研发(如AI驱动的靶点发现和分子设计)。

图片来源于[2]
企业正以基础模型为核心构建可编程生物学平台,通过与基因治疗、细胞治疗或抗体药物管线的结合,把AI生成能力嵌入临床级开发流程。
AI虚拟细胞:这是一个极具野心的前沿方向,目标是利用AI构建一个能够在计算机上模拟真实细胞行为的“虚拟细胞”。这项技术有望在基因调控、药物开发等领域带来革命性突破。
多组学与空间生物学:随着实验技术的发展,AI正在帮助整合海量的基因组、转录组、蛋白质组等“多组学”数据。特别是“空间转录组学”,它能在保留组织空间位置信息的同时分析基因表达,而AI模型(如Enformer)则能预测非编码DNA序列的功能。
AI模型通过摄取并解析海量多组学数据,具备了自主挖掘潜在规律与构建科学假说的能力,并与自动化实验平台耦合形成“干湿闭环”系统。
AI驱动的精准基因编辑:AI正在让基因编辑变得更“智能”,例如通过AI引导的蛋白质工程,设计出效率远超自然版本的重组酶,从而实现大片段DNA的精准操纵。
智能生物制造:AI正在推动生物制造从“经验驱动”向“数据驱动”的智能范式转变。这包括利用AI设计和控制细胞系统、优化DNA合成,以及发展自动化细胞制造平台。
生物启发AI与脑机接口:这是一个双向赋能的新范式。一方面,AI用于解析复杂的神经系统(如“电子显微镜连接组学”);另一方面,生物系统的高效智能也在启发新的AI算法和硬件。
生物启发人工智能则从生命系统的复杂结构与智能机制中汲取灵感,通过发展神经形态计算、仿生优化算法和生物混合智能等范式,致力于构建更具鲁棒性、自适应性和能效的下一代人工智能系统。

表格来源于[2]
DNA序列如同程序代码,蛋白质序列折叠类似复杂的优化计算,细胞信号转导通路如同逻辑电路网络。
数字生物医学工程:这是AI在临床和医学工程领域的集成应用,包括AI驱动的医学影像分析、生物信号处理、生物材料设计、手术机器人以及智能器官芯片等。
夜雨聆风