解码植物“共同语言”:AI正在破译4.7亿年的生命密码
DNA不只记录遗传信息,更隐藏着一套精密运转的“语法规则”。掌握了它,就能预测植物的价值,甚至设计出应对气候变化的未来作物。
想象一下,DNA序列像一串长长的文字,里面写满了基因(蛋白质的配方)。但光有这些“单词”远远不够——谁来指挥这些基因什么时候开启、什么时候关闭、在哪个组织里工作?
答案藏在DNA中非编码的部分——一段长期被科学家称为“暗物质”的区域。这里没有蛋白质配方,却藏着基因表达的开关、旋钮和说明书。这套运转了数亿年的精密系统,就是植物的“共同语言”。
一、基因的“交响乐”:控制开关从哪里来?
每一个基因都像是细胞里的一盏灯泡。决定它亮不亮的,是它“前门”的一段短DNA序列——启动子。启动子是RNA聚合酶停靠并开始读取基因的地方,相当于基本的“开/关”。
但启动子只管“开不亮”。真正决定灯泡在什么时候、以多大亮度、在哪个部位发光的,是更远处的增强子和沉默子-。增强子可以被蛋白质“激活”,然后隔着很远的距离启动基因;沉默子则负责把它关掉。
这三种元件——启动子、增强子、沉默子——共同组成了基因组的“调控语法” -。它们像代码中的条件语句一样,规定了每个基因何时、何地、以何种水平表达。
植物在4.7亿年的进化中,利用这套语法创造出了形态各异的生命形态——从几毫米的浮萍到近百米高的红杉,背后都遵循着同一套调控逻辑。
二、为什么叫“语言”?
把DNA的调控机制比作语言,不是因为玄学,而是因为它在结构上和人类的语言惊人地相似。
自然语言有词汇(单词)、语法(如何组合单词来表达意思)和语义(句子背后的含义)。DNA语言同样如此:
◌词汇:A、T、C、G四种碱基组成的序列,就像字母。
◌语法:顺式调控元件的排列顺序和组合规则,决定了基因表达的时空模式。
◌语义:特定序列组合带来的生物学功能——抗病、抗旱、开花时间等。
更重要的是,这套“语法”具有跨物种的保守性。也就是说,差异巨大的植物——比如水稻和小麦、苔藓和蕨类——在某些调控序列上有相似的“写法”。这正是AI能学习“植物通用语言”的理论基础。
三、AI如何“读懂”植物语言?
在很长一段时间里,破解这套语法只能靠科学家手工“猜测”:把一段序列放进实验里测试,看它是否能启动基因表达。效率极低,就像让人用笔去翻译整本外星词典。
2026年2月,由中国科学家领衔的“植物星球计划”正式启动。这项计划的核心工具之一,就是基因组语言基础模型。
这个模型的训练逻辑,和我们熟悉的ChatGPT并无本质区别——后者通过阅读海量人类文本学会了写文章,前者通过“阅读”数以万计的植物基因组,学习识别DNA序列中的保守“语法”规则、调控元件的组织逻辑以及功能模块的编码模式。
实际上,专门为植物基因组设计的语言模型已经开始应用。例如,2025年发布的PlantBiMoE是一种轻量化的植物基因组语言模型,通过双向Mamba和稀疏混合专家框架,能够同时捕获DNA正反两条链上的结构依赖关系,在31个数据集上取得了20个最佳表现,为基因编辑和合成生物学提供了强大的计算工具。另一款模型GeneCAD则能从DNA序列中直接预测完整的植物基因结构-。
这些模型的共同原理是:DNA语言模型学习的是序列中的模式,而不是事先背下答案。一旦掌握了模式,就能在新序列上做出精准预测。
四、掌握了“语法”,能做什么?
一旦AI真正读懂了植物DNA的语法规则,带来的变革将是颠覆性的。
传统育种像抽彩票——把两个品种杂交,种几千株后代,然后一棵棵去看哪株长得好。有了语言模型,科学家可以“编程”植物的DNA:输入想要的特征(比如“抗旱”或“提前一周开花”),模型输出需要编辑哪些调控元件。
这正是autoTRAIT项目的核心理念——通过AI和合成生物学的结合,生成可调控开花时间、植株高度和干旱响应的基因调控模块。实验验证正在拟南芥、玉米和烟草中大规模推进。
今天的植物学家去野外考察,看到一株陌生的植物,只能描述它长什么样。有了语言模型,只需要采集它的DNA,AI就能预测:它体内藏着哪些尚未被发现的药用成分?它的抗旱能力有多强?它是濒危物种的近亲吗?
传统的保护措施受限于数据匮乏——你连一株植物还剩多少、遗传多样性如何都不清楚,怎么制定保护方案?有了基因组语言模型,可以比传统野外监测更高效地识别出那些遗传基础脆弱、濒临灭绝的物种。
通过挖掘植物基因组中抗病、抗旱、耐盐的基因,科学家有望培育出适应气候变化的“未来作物”。不是慢慢杂交,而是直接“设计”出能在干旱中高产、在盐碱地上生长的新品种。
五、还有多远的路?
破译植物“共同语言”,本质上是一场读懂地球植物历史的宏大工程。目前的进展令人振奋,但挑战同样严峻——超过99%的陆地植物仍然缺乏高质量的参考基因组,AI模型的训练数据严重不足。
“植物星球计划”的目标正是填补这片“知识荒原”——通过对缺乏参考基因组的目、科进行系统采样,构建完整的陆地植物系统发育树。与此同时,德国autoTRAIT项目正在探索AI驱动的基因调控工程设计,PlantBiMoE等模型为植物基因组分析提供了高效的计算工具。从数据采集到模型构建再到实验验证,整条技术链条正在加速成型。
正如“植物星球计划”负责人之一、中国农业科学院研究员王丽所说:“破译了植物的‘共同语言’,我们才能知晓植物在4.7亿年进化历程中的生命基本法则。”
这一天正在到来。当AI真正读懂植物的DNA语法,我们将不再是植物的观察者,而是它们进化的合作者。