AI算法筛选与挖掘功能基因的研究进展
摘要
功能基因识别是作物遗传改良、逆境适应机制解析和分子育种的核心环节。传统候选基因挖掘主要依赖差异表达分析、QTL/GWAS定位、同源注释、共表达网络和人工经验筛选;这些方法在小规模数据中具有较强解释性,但在面对多组学、高维度、非线性调控和跨环境数据时,往往存在特征冗余、噪声敏感、候选基因排序不稳定和机制解释不足等问题。近年来,机器学习、深度学习、图神经网络、蛋白语言模型和基因组基础模型的发展,为功能基因筛选提供了新的范式。AI算法能够整合基因表达、序列、表观组、互作网络、调控元件、单细胞/空间组学和表型数据,从“差异是否显著”转向“哪些基因最能解释表型、胁迫状态或调控网络变化”。已有研究表明,机器学习能够从水稻多胁迫表达数据中识别广谱抗逆候选基因,从meta-transcriptomic数据中筛选干旱响应关键调控因子;深度学习模型可从DNA序列预测转录因子结合、调控元件活性和基因表达水平;蛋白功能预测模型可基于序列、结构和互作网络推断未注释蛋白功能;单细胞基础模型则进一步推动细胞类型特异功能基因的发现。本文系统综述AI筛选功能基因的数据基础、算法类型、典型应用、验证策略、局限性和未来趋势,并提出面向作物逆境响应功能基因挖掘的可操作研究框架。
关键词:功能基因;机器学习;深度学习;转录组;基因调控网络;多组学;作物逆境;候选基因优先级排序
1. 引言:功能基因挖掘从经验筛选走向AI驱动
功能基因通常指在特定生物过程、发育阶段、环境响应或农艺性状形成中具有明确功能贡献的基因。例如,在作物干旱胁迫研究中,参与ABA信号、ROS清除、渗透调节、气孔运动、根系发育、光合维持和衰老调控的关键基因均可被视为潜在功能基因。功能基因的识别不仅服务于机理研究,也直接影响分子标记开发、基因编辑、转基因验证和分子设计育种。
传统候选基因筛选通常采用“差异表达基因筛选—功能富集—共表达网络—候选基因人工挑选—实验验证”的流程。该流程逻辑清晰,但存在三个明显限制:第一,高维数据中存在大量冗余特征,单纯依赖fold change和p值容易遗漏弱效但关键的调控基因;第二,基因功能往往由多层调控共同决定,表达量变化不一定等同于功能重要性;第三,多环境、多胁迫和多基因型数据中存在非线性交互,传统线性模型难以充分捕捉复杂模式。
机器学习和深度学习的核心优势在于能够从高维、多源和非线性数据中学习特征组合,并通过特征重要性、模型解释、网络传播和表示学习实现候选基因优先级排序。Mahood等[1]较早系统总结了机器学习在植物基因功能预测中的应用,指出其价值不仅在于分类预测,更在于整合异质数据并发现规则方法难以捕捉的模式。van Dijk等[2]进一步从植物科学和育种角度讨论了机器学习在从分子到表型不同层级中的应用。近年综述还指出,AI尤其是大语言模型和基因组基础模型正在进入植物基因组学、功能预测和作物改良研究[3]。
2. “AI筛选功能基因”的内涵与任务类型
AI筛选功能基因并不是简单地用算法替代差异表达分析,而是将候选基因识别转化为一个可建模、可排序、可解释和可验证的问题。根据输入数据和研究目标,可以将其分为以下几类任务。
表1AI筛选功能基因的主要任务类型
|
任务类型 |
核心问题 |
常见输入数据 |
典型输出 |
适用场景 |
|
分类型筛选 |
哪些基因最能区分胁迫/对照、耐受/敏感或不同表型类别? |
表达矩阵、表型标签、环境处理、基因型信息 |
特征重要性排序、分类器核心基因 |
逆境响应、抗病、品质性状 |
|
回归型筛选 |
哪些基因最能解释连续性状变化? |
表达量、SNP、代谢物、表型值 |
与表型预测相关的候选基因或模块 |
产量、株高、光合参数、代谢物含量 |
|
网络型筛选 |
哪些基因在调控网络中具有核心位置或控制作用? |
共表达网络、PPI、TF-target、GRN |
hub基因、关键TF、控制节点 |
调控机制解析、模块识别 |
|
序列型预测 |
哪些序列变异或调控元件影响基因表达/功能? |
启动子、增强子、UTR、染色质可及性、TF结合数据 |
功能调控元件、候选靶基因、变异效应 |
非编码调控、顺式元件解析 |
|
蛋白功能预测 |
未知蛋白可能承担什么分子功能? |
蛋白序列、结构、PPI、GO注释 |
GO功能、酶活性、结合位点 |
新基因注释、未注释蛋白筛选 |
|
细胞类型特异筛选 |
哪些基因在特定细胞类型或细胞状态中发挥功能? |
scRNA-seq、snRNA-seq、spatial RNA-seq |
细胞类型marker、状态转换基因、调控因子 |
单细胞图谱、发育轨迹、胁迫细胞响应 |
因此,AI挖掘功能基因的本质是构建“数据—模型—解释—验证”的闭环:数据层面整合表达、序列、表型和网络;模型层面学习基因与功能/表型之间的复杂关系;解释层面通过特征重要性、SHAP、注意力权重、网络中心性和扰动分析给出候选优先级;验证层面通过qPCR、突变体、过表达、CRISPR、互补实验和生理指标确认功能。
3. 数据基础:功能基因AI筛选依赖的多维信息
AI模型的上限首先取决于数据质量。功能基因识别常用数据可以分为表达组、基因组/变异组、表观组、蛋白组、代谢组、互作网络、单细胞/空间组学和表型组等。不同数据源提供的功能证据不同,整合后可以显著提高候选基因判断的稳健性。
表2功能基因AI挖掘常用数据类型及其功能信息
|
数据类型 |
提供的信息 |
适合回答的问题 |
AI建模价值 |
主要注意点 |
|
Bulk RNA-seq / microarray |
不同条件下基因表达变化 |
哪些基因响应处理或表型差异? |
特征筛选、分类/回归、模块构建 |
批次效应、样本量、低表达噪声 |
|
时间序列转录组 |
表达动态与先后顺序 |
哪些基因是早期响应或持续响应? |
轨迹建模、动态网络、因果线索 |
时间点设计决定解释力 |
|
单细胞/单核转录组 |
细胞类型特异表达和细胞状态 |
哪些基因在特定细胞中发挥作用? |
细胞状态识别、marker筛选、GRN推断 |
dropout、注释偏差、样本处理影响 |
|
ATAC-seq/ChIP-seq/DAP-seq |
开放染色质与TF结合 |
哪些TF可能调控目标基因? |
调控元件预测、TF-target推断 |
植物物种数据稀缺,跨物种迁移需谨慎 |
|
基因组变异/SNP/泛基因组 |
自然变异与结构变异 |
哪些变异影响功能或表达? |
基因型-表型预测、变异效应预测 |
群体结构与连锁不平衡影响解释 |
|
PPI/共表达/调控网络 |
基因间关系和网络位置 |
哪些基因为hub或调控核心? |
图模型、网络传播、GNN |
网络推断可能含假阳性 |
|
蛋白序列/结构 |
结构域、功能位点、家族特征 |
未知蛋白功能是什么? |
蛋白语言模型、结构GNN、GO预测 |
注释转移可能受同源偏差影响 |
|
代谢组/表型组 |
功能结果和性状输出 |
哪些基因解释代谢或表型? |
多模态融合、因果推断、特征归因 |
性状受环境影响大,需重复和标准化 |
在植物研究中,bulk RNA-seq仍是最常见的数据来源,尤其适合从不同胁迫、不同基因型、不同组织或不同发育阶段中筛选候选基因。近年来,单细胞与空间组学可以把功能基因定位到细胞类型层面,从而避免组织平均表达掩盖细胞异质性。另一方面,序列深度学习模型和蛋白功能预测模型使得功能基因挖掘不再局限于“表达改变”,而可以进一步追问调控元件、非编码变异和蛋白结构域如何决定基因功能。
4. 传统机器学习:从表达矩阵到候选基因排序
传统机器学习方法包括随机森林、支持向量机、逻辑回归、LASSO、Elastic Net、XGBoost、LightGBM和朴素贝叶斯等。它们通常用于有监督任务:给定样品标签(如干旱/对照、耐旱/敏感、病害/健康),模型学习表达特征与类别之间的关系,并通过特征重要性或模型系数对基因排序。
表3常见机器学习算法在功能基因筛选中的作用
|
算法 |
主要优点 |
候选基因解释方式 |
适用场景 |
局限性 |
|
Random Forest |
适合高维小样本,抗噪声,能处理非线性 |
Gini importance、permutation importance |
胁迫分类、表型分组、候选基因排序 |
相关特征会分摊重要性,解释可能偏向高方差特征 |
|
SVM |
小样本分类效果强,适合高维数据 |
支持向量、递归特征消除SVM-RFE |
耐受/敏感二分类 |
可解释性弱,参数敏感 |
|
LASSO/Elastic Net |
稀疏特征选择,解释直观 |
非零回归系数 |
连续表型预测、候选基因压缩 |
线性假设较强,易遗漏非线性关系 |
|
XGBoost/LightGBM |
预测性能强,能捕捉非线性交互 |
gain、cover、SHAP值 |
多胁迫分类、关键调控基因识别 |
小样本下需严格交叉验证,防止过拟合 |
|
聚类/无监督学习 |
无需标签,可发现表达模块 |
模块代表基因、聚类中心、稳定核心 |
meta-analysis、多数据集整合 |
聚类数量和距离度量影响结果 |
|
集成学习 |
综合多个模型,提高稳健性 |
多模型一致性排名 |
跨数据集候选基因优先级排序 |
模型复杂,解释链条较长 |
Shaik和Ramakrishna[5]是植物胁迫功能基因AI筛选中的经典案例之一。该研究整合水稻生物和非生物胁迫表达数据,利用机器学习区分不同胁迫状态,并识别广谱抗性候选基因。该工作的重要意义在于:它把“多胁迫共享响应基因”从简单重叠分析提升为可分类、可预测、可排序的机器学习问题。
近年来,meta-transcriptomic数据与机器学习的结合成为干旱、盐、低温和病害响应候选基因识别的重要方向。例如,有研究利用水稻干旱胁迫meta-transcriptomic数据训练Random Forest、XGBoost和前馈神经网络,并通过SHAP等解释方法识别关键调控基因;其中XGBoost表现出较高分类性能[6]。Sanchez-Munoz等[7]则将meta-analysis与无监督机器学习结合,在拟南芥不同组织和不同时间窗中识别胁迫响应核心基因,并通过多重验证提高结果稳健性。
5. 深度学习:从“人工特征”到“自动表示学习”
深度学习的优势在于能够自动学习多层次特征表示,尤其适合处理序列、图结构、多模态数据和大规模表达矩阵。与随机森林或XGBoost相比,深度学习通常需要更大数据量,但在序列建模、调控元件识别、蛋白功能预测和基础模型预训练方面具有明显优势。
在基因调控序列层面,DeepBind利用深度学习预测DNA/RNA结合蛋白的序列特异性,为从序列中识别转录因子结合倾向提供了早期范式[9]。DeepSEA进一步从大规模染色质数据中学习非编码变异的功能影响,能够以单核苷酸分辨率预测调控效应[8]。ExPecto从DNA序列直接预测组织特异表达和变异对表达的影响[10]。Enformer通过Transformer结构整合长距离相互作用信息,显著提高了从DNA序列预测基因表达的能力[11]。虽然这些模型多起源于人类基因组研究,但其思想对植物功能基因和调控元件挖掘具有直接启发意义。
植物领域也开始出现专门面向植物调控序列的深度学习模型。Peleke等[4]利用可解释深度学习模型,从拟南芥、番茄、高粱和玉米等植物的基因侧翼序列预测表达模式,模型准确率超过80%,并能识别保守和物种特异的调控序列特征。这类研究说明,AI不仅可以筛选表达差异显著的基因,还能进一步解析其表达差异背后的顺式调控基础。
6. 网络驱动的功能基因挖掘:从共表达模块到调控骨架
功能基因往往不是孤立发挥作用,而是处在调控网络、代谢通路或蛋白互作网络中。网络方法通过基因之间的关系来衡量功能重要性,常见指标包括degree、betweenness、closeness、eigenvector centrality、PageRank、module membership和hub score。
GeneMANIA是经典的网络整合与基因优先级排序工具,可以整合共表达、共定位、物理互作、遗传互作和通路等信息,用于预测基因功能和寻找相关基因[12]。在植物研究中,WGCNA常用于从表达矩阵构建共表达模块,并把模块与表型或处理关联,从而识别模块hub基因。进一步结合机器学习,可以在“模块—表型—候选基因”之间建立更稳健的筛选框架。
调控网络推断比共表达网络更进一步,目标是识别TF-target关系或调控边。SCENIC框架在单细胞研究中广泛应用,通过共表达和motif富集推断调控子,并识别细胞状态特异的转录因子活性[20]。植物领域的PlantRegMap、PlantTFDB等资源提供了转录因子、motif和调控关系预测基础,可与RNA-seq、ATAC-seq、DAP-seq和机器学习特征重要性结合,用于筛选候选调控因子。
从功能基因挖掘角度看,网络方法的价值在于能够识别“表达变化不一定最大、但调控影响最大”的基因。例如,转录因子、信号转导组分和染色质调控因子在表达量上可能变化不剧烈,却处在网络核心位置。单纯DEG分析可能漏掉这类上游因子,而网络中心性、扰动分析和机器学习特征解释可以提高它们的优先级。
7. 蛋白功能预测:从未知基因注释到可验证候选功能
在许多非模式作物中,大量基因缺乏明确功能注释。AI蛋白功能预测模型能够基于蛋白序列、结构、PPI网络和GO层级关系推断分子功能、生物过程和细胞定位。DeepGO利用深度学习从蛋白序列和跨物种PPI网络中预测GO功能,并显式考虑GO类别之间的依赖关系[13]。DeepGOPlus进一步结合序列相似性与深度模型,提高了蛋白功能预测效率[14]。DeepFRI采用图卷积网络,结合蛋白语言模型特征和蛋白结构进行功能预测,并可提供残基级别的功能区域解释[15]。DeepGO-SE则将蛋白功能预测建模为近似语义蕴含问题,利用预训练语言模型和GO知识增强学习[16]。
这类模型对作物功能基因挖掘有两方面价值。第一,它可以为未注释或低注释质量的候选基因提供功能线索,尤其适合新组装基因组、泛基因组新增基因和物种特异基因。第二,它可以辅助判断候选基因是否具有合理的蛋白结构域、酶活性、结合位点或亚细胞定位,从而提高实验验证的命中率。
8. 多组学融合:提高候选基因稳健性的关键路径
单一组学数据往往只能提供部分证据。一个基因在RNA-seq中显著上调,并不一定意味着它是功能关键基因;它可能只是下游响应结果。相反,一个转录因子若同时满足“在胁迫早期上调、位于网络hub、启动子含有胁迫相关motif、与表型显著相关、在耐受材料中具有特异表达模式、蛋白结构域支持其调控功能”等证据,其作为功能基因的可信度显著提高。因此,多组学融合是AI筛选功能基因的重要趋势。
表4多组学证据如何共同支持功能基因判断
|
证据层级 |
正向证据示例 |
功能解释 |
推荐算法/方法 |
|
表达证据 |
胁迫早期响应、耐受材料中特异上调 |
可能参与响应启动或适应过程 |
DEG、time-course model、RF/XGBoost |
|
网络证据 |
高degree、高betweenness、模块hub |
可能是调控核心或信息传递节点 |
WGCNA、PageRank、network propagation、GNN |
|
调控证据 |
启动子存在TF motif、ATAC峰、DAP/ChIP支持 |
可能具有直接调控关系 |
motif enrichment、SCENIC、GRNBoost、DeepCRE |
|
变异证据 |
候选基因附近SNP与性状关联,非编码变异影响表达 |
可能参与自然变异和性状形成 |
GWAS、eQTL、variant effect prediction |
|
蛋白证据 |
具有已知结构域、功能位点或可靠GO预测 |
功能注释具有分子基础 |
DeepGO、DeepFRI、蛋白语言模型 |
|
表型证据 |
表达或变异与生理指标/农艺性状相关 |
候选基因连接到功能输出 |
多模态回归、SHAP、因果模型 |
在实际研究中,可以建立“证据积分系统”对候选基因排序。例如,每个基因可根据DEG显著性、机器学习重要性、网络中心性、TF/motif证据、跨数据集稳定性、物种保守性和表型相关性获得综合得分。与单一模型相比,证据融合更适合论文中提出可解释、可验证的候选功能基因。
9. 单细胞、空间组学与基础模型:功能基因挖掘的新前沿
单细胞和空间组学把功能基因挖掘从组织平均层面推进到细胞类型和空间位置层面。对于植物逆境响应而言,不同细胞类型的响应差异非常关键。例如,根表皮、皮层、内皮层、维管组织和保卫细胞在水分、盐离子、激素和ROS响应中承担不同功能。Bulk RNA-seq得到的是混合信号,难以判断候选基因在哪类细胞中发挥作用。
单细胞AI分析可以筛选细胞类型marker、识别胁迫诱导的细胞状态、推断发育轨迹和细胞类型特异GRN。SCENIC等方法可在单细胞层面推断转录因子活性[20]。近年出现的单细胞基础模型,如Geneformer和scGPT,将大规模单细胞表达数据用于预训练,能够学习基因间上下文关系和细胞状态表示[21,22]。虽然这些模型主要基于人类或动物数据发展,但其“基因作为token、细胞状态作为上下文”的建模思想对植物虚拟细胞、作物单细胞图谱和跨物种细胞类型对齐具有重要启发。
对于作物功能基因挖掘,单细胞模型最有潜力的应用包括:识别胁迫首先响应的细胞类型;区分普遍胁迫响应基因与细胞类型特异功能基因;在基因敲除或过表达背景下预测细胞状态扰动;结合空间转录组定位候选基因在叶片、根尖、维管束或分生组织中的功能位置。
10. 典型研究案例:AI如何真正筛出功能基因
表5AI/机器学习筛选功能基因的代表性文献与启示
|
研究 |
研究对象 |
数据/算法 |
主要贡献 |
对作物研究的启示 |
|
Shaik & Ramakrishna 2014[5] |
水稻多种生物与非生物胁迫 |
meta-analysis + 机器学习分类 |
区分多种胁迫状态并识别广谱抗性候选基因 |
多胁迫候选基因不应只靠交集,需结合可分类性和特征重要性 |
|
You/Zhang et al. 2025[6] |
水稻干旱胁迫 |
meta-transcriptome + RF/XGBoost/FNN + SHAP |
识别干旱响应关键调控基因并进行功能验证 |
可把公共数据转化为候选基因优先级排序和实验验证清单 |
|
Sanchez-Munoz et al. 2025[7] |
拟南芥多胁迫 |
meta-analysis + 无监督机器学习 + 多重验证 |
识别不同时间窗和组织中的胁迫核心基因 |
跨数据集稳健核心比单实验DEG更适合作为功能基因候选 |
|
Peleke et al. 2024[4] |
拟南芥、番茄、高粱、玉米 |
可解释深度学习 + 基因侧翼序列 |
从顺式调控序列预测基因表达并识别调控特征 |
功能基因挖掘可延伸到启动子和非编码调控元件 |
|
Avsec et al. 2021 Enformer[11] |
人类/小鼠调控基因组 |
Transformer + 长距离序列建模 |
从DNA序列预测表达并整合远程调控信息 |
为植物长距离调控和非编码变异效应预测提供范式 |
|
DeepFRI 2021[15] |
蛋白功能预测 |
蛋白语言模型 + 结构GNN |
基于结构与序列预测蛋白功能并定位功能残基 |
适合给作物未知基因提供功能注释和验证方向 |
这些案例共同说明,AI筛选功能基因的价值不在于简单替代生物学判断,而在于提供更系统的候选基因优先级排序。高质量研究通常具有三个共同特征:第一,使用多个数据集或多种证据提高稳健性;第二,模型不仅追求准确率,还提供可解释候选基因;第三,最终通过实验验证或外部数据验证确认模型结果。
11. 候选基因筛选的推荐流程
面向作物逆境响应或性状形成,AI筛选功能基因可采用以下流程。
1. 问题定义:明确目标是识别干旱响应基因、耐旱关键基因、调控因子、表型预测基因,还是细胞类型特异功能基因。不同目标决定标签和模型。
2. 数据收集:整合自有RNA-seq、公共转录组、基因组注释、TF注释、启动子序列、GO/KEGG、表型、生理指标和网络资源。
3. 数据预处理:进行质控、标准化、批次效应校正、低表达过滤、同源基因映射和样本标签统一。
4. 初筛候选集:结合DEG、WGCNA模块、时间序列响应、GWAS/QTL区间和功能注释缩小候选范围。
5. 机器学习建模:使用RF、SVM、XGBoost、LASSO或集成学习对样品类别或表型进行预测,并提取重要特征。
6. 网络与调控整合:计算候选基因的网络中心性、模块归属、TF-target关系、motif富集和调控边支持。
7. 深度模型补充:对候选基因启动子、非编码变异或蛋白序列进行深度学习预测,评估其调控潜力和蛋白功能。
8. 综合打分排序:构建综合评分系统,优先选择多证据一致、跨数据集稳定、具有明确机制线索的候选基因。
9. 实验验证:通过RT-qPCR、突变体、过表达、CRISPR、亚细胞定位、双荧光素酶、Y1H/EMSA、酶活和生理表型验证功能。
10. 模型迭代:把验证结果反馈到训练集,更新标签和模型,形成主动学习式功能基因发现流程。
12. 结果解释与验证:避免“黑箱候选基因”的关键
功能基因挖掘的最终目标不是获得一个模型准确率,而是提出可验证的生物学假说。因此,模型解释和实验验证至关重要。常见解释方法包括模型内置特征重要性、permutation importance、SHAP、LIME、注意力权重、梯度显著性、motif可视化、网络扰动和in silico knockout。
在植物功能基因论文中,推荐至少进行三类验证。第一,表达验证:使用RT-qPCR确认候选基因在关键处理、关键组织和关键基因型中的表达趋势。第二,功能验证:使用突变体、过表达、互补或基因编辑材料证明候选基因影响目标性状。第三,机制验证:通过转录因子结合、启动子激活、蛋白互作、亚细胞定位或下游靶基因表达证明其调控路径。
表6AI筛选功能基因后的验证策略
|
验证层级 |
常用方法 |
证明内容 |
适合候选类型 |
|
表达趋势验证 |
RT-qPCR、独立RNA-seq、时间序列表达 |
模型筛选的表达差异是否可靠 |
所有候选基因 |
|
遗传功能验证 |
突变体、过表达、CRISPR、互补实验 |
候选基因是否影响表型 |
核心候选基因、转录因子、酶基因 |
|
调控关系验证 |
Y1H、EMSA、DAP-seq、ChIP-qPCR、双荧光素酶 |
TF是否调控靶基因或启动子 |
TF、调控网络候选 |
|
蛋白功能验证 |
酶活、互作、亚细胞定位、结构域突变 |
蛋白预测功能是否成立 |
酶、转运蛋白、受体、互作蛋白 |
|
生理表型验证 |
H2O2、MDA、SOD/POD/CAT/APX、光合、根系、产量 |
候选基因是否影响目标生理过程 |
逆境和农艺性状候选基因 |
需要强调的是,AI模型给出的候选基因不等于功能基因。只有经过独立数据和实验验证,候选基因才能被提升为具有明确功能证据的功能基因。
13. 局限性与挑战
• 样本量不足与维度灾难:植物RNA-seq常常样本少、基因多,模型容易过拟合。应采用嵌套交叉验证、外部验证集和严格特征选择。
• 批次效应和数据异质性:公共转录组来自不同平台、组织、品种和处理强度,若不校正批次效应,模型可能学习到技术差异而非生物规律。
• 标签定义不清:耐旱/敏感、抗病/感病等标签常受实验条件影响,标签噪声会直接影响候选基因排序。
• 可解释性不足:深度学习模型性能强,但若不能解释候选基因为何重要,难以形成可发表的生物学故事。
• 跨物种迁移困难:作物基因组倍性、注释质量、同源关系和调控元件差异会影响模型迁移。
• 相关不等于因果:表达相关、网络中心或特征重要性只能提供候选线索,不能直接证明基因功能。
• 实验验证成本高:AI可能筛出大量候选基因,必须通过综合打分和生物学先验缩小验证范围。
14. 未来趋势
未来AI筛选功能基因将向五个方向发展。第一,从单一组学走向多组学基础模型:整合基因组、转录组、表观组、蛋白组、代谢组和表型组。第二,从组织平均走向细胞类型和空间定位:功能基因将被定位到具体细胞类型和组织结构中。第三,从相关预测走向因果扰动:通过in silico perturbation、基因编辑验证和主动学习形成闭环。第四,从单物种模型走向跨物种迁移:利用同源基因、保守调控模块和泛基因组信息建立作物通用功能基因预测模型。第五,从候选基因清单走向设计型育种:AI不仅识别基因,还预测基因编辑组合、调控元件改造和多基因性状优化方案。
对于作物逆境研究,一个值得发展的方向是构建“多胁迫—多基因型—多组学—多表型”的统一训练框架。模型不只是识别单一胁迫下的DEG,而是学习不同胁迫之间共享和特异的调控骨架,从而筛选具有广谱抗逆潜力、细胞类型特异作用或亚种特异调控功能的核心基因。
15. 面向作物逆境功能基因挖掘的推荐研究框架
如果研究对象是水稻、玉米、小麦、大豆等作物在干旱、盐、冷、热或复合胁迫下的功能基因,可以采用以下具体框架。
表7作物逆境功能基因AI筛选的推荐框架
|
阶段 |
核心分析 |
推荐输出 |
论文中可形成的结果 |
|
数据整合 |
整理不同胁迫、不同基因型、不同组织和时间点的RNA-seq/表型数据 |
统一表达矩阵、样本标签、表型矩阵 |
多胁迫表达响应全景 |
|
差异与模块初筛 |
DEG、时间序列、WGCNA、GO/KEGG |
初始候选基因和关键模块 |
胁迫响应模块与功能富集 |
|
机器学习筛选 |
RF/XGBoost/SVM/LASSO预测处理或表型 |
特征重要性排名、SHAP解释 |
模型识别关键候选基因 |
|
网络整合 |
共表达网络、TF-target、motif、PPI、网络中心性 |
核心hub、关键TF、调控边 |
候选基因处于调控核心 |
|
序列/蛋白预测 |
启动子深度学习、蛋白GO预测、结构域分析 |
调控元件和蛋白功能证据 |
候选基因具有合理功能基础 |
|
综合排序 |
多证据加权积分 |
Top 10-30候选基因 |
形成实验验证清单 |
|
实验验证 |
qPCR、突变体/OE、CRISPR、生理指标 |
功能确认 |
从候选基因提升为功能基因 |
在论文写作中,可以把AI筛选结果组织为一个“由宽到窄”的故事线:首先展示大规模表达和网络响应;其次利用机器学习识别最能解释处理或表型差异的核心特征基因;然后结合网络、功能富集和序列预测说明候选基因的机制合理性;最后通过qPCR和遗传材料验证其功能。这种组织方式比单纯报告DEG更具创新性和说服力。
16. 结论
AI算法正在改变功能基因识别的研究范式。传统方法强调单个基因的显著差异,而AI方法更强调多维证据、非线性组合、网络位置、序列调控潜力和跨数据集稳健性。对于作物研究而言,AI筛选功能基因的最大价值在于:从海量候选基因中快速优先排序,发现传统差异分析难以捕捉的上游调控因子,连接分子变化与表型输出,并为后续基因编辑和分子育种提供更明确的靶标。未来,高质量多组学数据、可解释模型、单细胞/空间信息、跨物种基础模型和实验验证闭环,将共同推动功能基因挖掘从“候选清单”走向“机制解析”和“设计育种”。
参考文献
[1] Mahood, E. H., Kruse, L. H. & Moghe, G. D. (2020). Machine learning: A powerful tool for gene function prediction in plants. Applications in Plant Sciences, 8, e11376. DOI: 10.1002/aps3.11376.
[2] van Dijk, A. D. J., Kootstra, G., Kruijer, W. & de Ridder, D. (2021). Machine learning in plant science and plant breeding. iScience, 24, 101890. DOI: 10.1016/j.isci.2020.101890.
[3] Yang, L. et al. (2025). Artificial intelligence-driven plant bio-genomics research. Tropical Plants. DOI: 10.48130/tp-0025-0008.
[4] Peleke, F. F., Zumkeller, S. M., Gültas, M., Schmitt, A. & Szymański, J. (2024). Deep learning the cis-regulatory code for gene expression in selected model plants. Nature Communications, 15, 3227. DOI: 10.1038/s41467-024-47744-0.
[5] Shaik, R. & Ramakrishna, W. (2014). Machine learning approaches distinguish multiple stress conditions using stress-responsive genes and identify candidate genes for broad resistance in rice. Plant Physiology, 164, 481-495. DOI: 10.1104/pp.113.225862.
[6] You, Z. / Zhang, Y. et al. (2025). Machine learning and functional validation identify key regulatory genes involved in drought stress response in rice. International Journal of Biological Macromolecules. Article PII: S0141813025082662.
[7] Sanchez-Munoz, R. et al. (2025). Machine-learning meta-analysis reveals ethylene as a central component of the molecular core in abiotic stress responses in Arabidopsis. Nature Communications, 16. DOI: 10.1038/s41467-025-59542-3.
[8] Zhou, J. & Troyanskaya, O. G. (2015). Predicting effects of noncoding variants with deep learning-based sequence model. Nature Methods, 12, 931-934. DOI: 10.1038/nmeth.3547.
[9] Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. (2015). Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nature Biotechnology, 33, 831-838. DOI: 10.1038/nbt.3300.
[10] Zhou, J. et al. (2018). Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nature Genetics, 50, 1171-1179. DOI: 10.1038/s41588-018-0160-6.
[11] Avsec, Ž. et al. (2021). Effective gene expression prediction from sequence by integrating long-range interactions. Nature Methods, 18, 1196-1203. DOI: 10.1038/s41592-021-01252-x.
[12] Warde-Farley, D. et al. (2010). The GeneMANIA prediction server: biological network integration for gene prioritization and predicting gene function. Nucleic Acids Research, 38, W214-W220. DOI: 10.1093/nar/gkq537.
[13] Kulmanov, M., Khan, M. A. & Hoehndorf, R. (2018). DeepGO: predicting protein functions from sequence and interactions using a deep ontology-aware classifier. Bioinformatics, 34, 660-668. DOI: 10.1093/bioinformatics/btx624.
[14] Kulmanov, M. & Hoehndorf, R. (2020). DeepGOPlus: improved protein function prediction from sequence. Bioinformatics, 36, 422-429. DOI: 10.1093/bioinformatics/btz595.
[15] Gligorijević, V. et al. (2021). Structure-based protein function prediction using graph convolutional networks. Nature Communications, 12, 3168. DOI: 10.1038/s41467-021-23303-9.
[16] Kulmanov, M. et al. (2024). Protein function prediction as approximate semantic entailment. Nature Machine Intelligence, 6, 220-228. DOI: 10.1038/s42256-024-00795-w.
[17] Cheng, C. Y. et al. (2021). Evolutionarily informed machine learning enhances the power of predictive gene-to-phenotype relationships. Nature Communications, 12, 5627. DOI: 10.1038/s41467-021-25893-w.
[18] Langfelder, P. & Horvath, S. (2008). WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics, 9, 559. DOI: 10.1186/1471-2105-9-559.
[19] Breiman, L. (2001). Random forests. Machine Learning, 45, 5-32. DOI: 10.1023/A:1010933404324.
[20] Chen, T. & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of KDD 2016, 785-794. DOI: 10.1145/2939672.2939785.
[21] Lundberg, S. M. & Lee, S.-I. (2017). A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems 30.
[22] Aibar, S. et al. (2017). SCENIC: single-cell regulatory network inference and clustering. Nature Methods, 14, 1083-1086. DOI: 10.1038/nmeth.4463.
[23] Jin, J. et al. (2017). PlantTFDB 4.0: toward a central hub for transcription factors and regulatory interactions in plants. Nucleic Acids Research, 45, D1040-D1045. DOI: 10.1093/nar/gkw982.
[24] Jin, J. et al. (2017). PlantRegMap: charting functional regulatory maps in plants. Nucleic Acids Research, 45, D92-D100. DOI: 10.1093/nar/gkw958.
[25] Avsec, Ž. et al. (2019). The Kipoi repository accelerates community exchange and reuse of predictive models for genomics. Nature Biotechnology, 37, 592-600. DOI: 10.1038/s41587-019-0140-0.
[26] Theodoris, C. V. et al. (2023). Transfer learning enables predictions in network biology. Nature, 618, 616-624. DOI: 10.1038/s41586-023-06139-9.
[27] Cui, H. et al. (2024). scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nature Methods, 21, 1470-1480. DOI: 10.1038/s41592-024-02201-0.
[28] Azad, M. et al. (2024). Identification of responsive genes to multiple abiotic stresses in rice through meta-analysis. Scientific Reports, 14. DOI: 10.1038/s41598-024-54623-7.
[29] Panahi, B. et al. (2025). Deciphering plant transcriptomes: leveraging machine learning techniques for enhanced biological insights. Plant Stress / related review literature.
[30] Narra, M. et al. (2025). AI-driven advances in plant biotechnology. Frontiers in Plant Science. DOI: 10.3389/fpls.2025.1718810.
夜雨聆风