近期,来自海南大学、齐齐哈尔医学院等团队联合在 ACS Synthetic Biology 上发表了一项创新研究,提出 RPI-PLMGNN 模型。该模型将预训练大语言模型(PLLMs) 与图神经网络(GNN) 巧妙融合,在多组基准数据集和跨物种验证中均展现出显著优势,为RPI预测提供了高效、精准且可解释的新工具。

模型工具概述:多模态特征融合 + 线图拓扑增强
RPI-PLMGNN 的整个流程可分为三大模块:
图拓扑建模:基于已知互作数据构建二分邻接矩阵,针对每个RNA-蛋白靶标对提取其2跳范围内的封闭子图,并采用节点标记策略(根据到靶标节点的最短距离赋予不同标签)来编码结构重要性。随后,将子图转换为线图(Line Graph)——原图中的每条边成为新节点,若两条边在原图共享同一顶点,则在线图中建立连接。这一转换将模型关注点从“单个分子”转向“分子间的互作关系”,能够有效捕捉互作模式之间的相似性。
多模态节点特征构建:
- RNA序列特征
:采用 RNAErnie 预训练模型提取(基于ERNIE架构,12层Transformer,768维),该模型引入碱基级、亚序列级和基序级三重掩码策略,并融合RNA类型信息,显著提升序列表征能力。 - RNA结构特征
:利用 RNAfold(ViennaRNA包)基于最小自由能预测二级结构,并以点括号格式统计k-mer(k=1~4)组合频率,生成30维结构特征。 - 蛋白序列特征
:采用 ESM2(35M参数版本,12层Transformer,480维)提取,该模型在海量序列上预训练并隐式引入进化信息,能有效捕获保守模式。 - 蛋白结构特征
:利用 SOPMA 预测二级结构(α螺旋、β折叠、β转角、无规卷曲),统计k-mer(k=1~4)频率,生成84维结构特征。序列与结构特征在各模态内拼接,形成RNA节点和蛋白节点的初始表示,并统一纳入节点特征矩阵,后续由图神经网络通过消息传递自动学习交互。 混合GNN预测模块:采用 GAT(图注意力网络)+ GGCN(门控图卷积网络) 的串联架构。GAT通过多头注意力机制自适应地为不同邻居节点分配权重,精准定位关键互作位点;GGCN则引入更新门和重置门,有效控制信息流动,增强长距离依赖建模能力并抑制噪声。两者协同,兼顾局部关键特征与全局拓扑信息。
关键实验结果:多维验证彰显卓越性能
1. 多模态特征融合的必要性
作者对比了不同特征组合,发现“序列+结构”联合使用性能最优;仅使用序列特征次之,而仅使用结构特征效果相对较弱。值得注意的是,移除ESM2蛋白特征导致的性能下降幅度大于移除RNAErnie,表明蛋白序列的精准表征在RPI预测中尤为关键。
2. 预训练语言模型的择优
在RNA编码器比较中,RNAErnie显著优于RNA-FM,归功于其基序感知预训练和类型引导微调策略。在蛋白编码器比较中,ESM2-35M在四个基准数据集上全面优于ESM2-8M、ESM-C和ProtTrans,其适中的特征维度(480维)既避免了过拟合,又充分保留了进化信息。

3. 图神经网络架构的协同优势
对比7种GNN变体,单独使用GGCN优于GCN(因门控机制增强了长程依赖);而GAT+GGCN的组合在所有数据集上均达到最佳,例如在NPInter上ACC达97.74%、AUC达98.98%。注意力机制与门控机制的互补,实现了局部-全局特征的协同优化。
4. 与现有方法的全面对比
在四个基准数据集上采用5折交叉验证,与RPITER、IPMiner、GATLGEMF、RPI-CapsuleGAN、BioPrediction-RPI等五种先进模型比较,RPI-PLMGNN在ACC、PRE、SEN、SPE、MCC、AUC六项指标上均取得最优,验证了PLLMs强大特征提取与GNN结构建模的融合有效性。
5. 跨物种泛化能力惊艳
在六个独立物种测试集(RPI_C、RPI_D、RPI_E、RPI_H、RPI_M、RPI_S,分别对应线虫、果蝇、大肠杆菌、人类、小鼠、酵母)上,训练于RPI7317的模型直接预测,准确率分别达到 94.2%、92.8%、94.5%、97.5%、98.2%、97.1%,显著优于多数对比方法。尤其在果蝇(RPI_D)数据集中,模型仅未能正确预测5对互作,整体准确率92.8%,展示了出色的跨物种泛化能力。
6. 可解释性分析:注意力区域与保守基序吻合
作者在RPI_E数据集上提取GAT的注意力分数,并与STREME工具发现的保守基序比对。结果显示,高注意力区域显著富集已知基序,如RNA序列n432中的“GCUGG”(E-value=3.5×10⁻⁸)和蛋白P77398中的“NGETKT”(E-value=5.1×10⁻⁴),且这一模式在不同互作对中一致,表明模型学习到的特征具有生物学意义而非偶然。
小编总结
RPI-PLMGNN 通过将预训练语言模型(RNAErnie+ESM2)与结构特征融合,并创新性地采用线图拓扑+GAT+GGCN架构,在多个数据集上达到了目前最优的预测精度。 跨物种验证中高达94%~98%的准确率,以及注意力机制与生物基序的一致性,充分证明该模型具备出色的泛化能力和可解释性。 该工具为RNA-蛋白互作机制研究及靶向药物开发提供了高效、可靠的计算平台,未来若引入理化、进化等多模态信息并优化大规模数据扩展性,有望进一步释放潜力。 点击下方链接-下载原文pdf

往期好文推荐

往期课程推荐


夜雨聆风