AI破局RNA-蛋白互作预测!RPI-PLMGNN模型精准度高达98%

RNA与蛋白质的相互作用（RNA-protein interaction, RPI）贯穿基因表达调控、信号转导和细胞代谢等核心生命过程，其异常与癌症、神经退行性疾病等密切相关。然而，传统实验方法（如RIP、CLIP）成本高、周期长，难以满足高通量研究需求；现有计算模型则多依赖人工提取特征，且局限于单模态信息，对复杂互作模式的捕捉能力有限。

近期，来自海南大学、齐齐哈尔医学院等团队联合在 ACS Synthetic Biology 上发表了一项创新研究，提出 RPI-PLMGNN 模型。该模型将预训练大语言模型（PLLMs） 与图神经网络（GNN） 巧妙融合，在多组基准数据集和跨物种验证中均展现出显著优势，为RPI预测提供了高效、精准且可解释的新工具。

模型工具概述：多模态特征融合 + 线图拓扑增强

RPI-PLMGNN 的整个流程可分为三大模块：

图拓扑建模：基于已知互作数据构建二分邻接矩阵，针对每个RNA-蛋白靶标对提取其2跳范围内的封闭子图，并采用节点标记策略（根据到靶标节点的最短距离赋予不同标签）来编码结构重要性。随后，将子图转换为线图（Line Graph）——原图中的每条边成为新节点，若两条边在原图共享同一顶点，则在线图中建立连接。这一转换将模型关注点从“单个分子”转向“分子间的互作关系”，能够有效捕捉互作模式之间的相似性。
多模态节点特征构建：

RNA序列特征
：采用 RNAErnie 预训练模型提取（基于ERNIE架构，12层Transformer，768维），该模型引入碱基级、亚序列级和基序级三重掩码策略，并融合RNA类型信息，显著提升序列表征能力。
RNA结构特征
：利用 RNAfold（ViennaRNA包）基于最小自由能预测二级结构，并以点括号格式统计k-mer（k=1~4）组合频率，生成30维结构特征。
蛋白序列特征
：采用 ESM2（35M参数版本，12层Transformer，480维）提取，该模型在海量序列上预训练并隐式引入进化信息，能有效捕获保守模式。
蛋白结构特征
：利用 SOPMA 预测二级结构（α螺旋、β折叠、β转角、无规卷曲），统计k-mer（k=1~4）频率，生成84维结构特征。序列与结构特征在各模态内拼接，形成RNA节点和蛋白节点的初始表示，并统一纳入节点特征矩阵，后续由图神经网络通过消息传递自动学习交互。

混合GNN预测模块：采用 GAT（图注意力网络）+ GGCN（门控图卷积网络） 的串联架构。GAT通过多头注意力机制自适应地为不同邻居节点分配权重，精准定位关键互作位点；GGCN则引入更新门和重置门，有效控制信息流动，增强长距离依赖建模能力并抑制噪声。两者协同，兼顾局部关键特征与全局拓扑信息。

关键实验结果：多维验证彰显卓越性能

1. 多模态特征融合的必要性

作者对比了不同特征组合，发现“序列+结构”联合使用性能最优；仅使用序列特征次之，而仅使用结构特征效果相对较弱。值得注意的是，移除ESM2蛋白特征导致的性能下降幅度大于移除RNAErnie，表明蛋白序列的精准表征在RPI预测中尤为关键。

2. 预训练语言模型的择优

在RNA编码器比较中，RNAErnie显著优于RNA-FM，归功于其基序感知预训练和类型引导微调策略。在蛋白编码器比较中，ESM2-35M在四个基准数据集上全面优于ESM2-8M、ESM-C和ProtTrans，其适中的特征维度（480维）既避免了过拟合，又充分保留了进化信息。

3. 图神经网络架构的协同优势

对比7种GNN变体，单独使用GGCN优于GCN（因门控机制增强了长程依赖）；而GAT+GGCN的组合在所有数据集上均达到最佳，例如在NPInter上ACC达97.74%、AUC达98.98%。注意力机制与门控机制的互补，实现了局部-全局特征的协同优化。

4. 与现有方法的全面对比

在四个基准数据集上采用5折交叉验证，与RPITER、IPMiner、GATLGEMF、RPI-CapsuleGAN、BioPrediction-RPI等五种先进模型比较，RPI-PLMGNN在ACC、PRE、SEN、SPE、MCC、AUC六项指标上均取得最优，验证了PLLMs强大特征提取与GNN结构建模的融合有效性。

5. 跨物种泛化能力惊艳

在六个独立物种测试集（RPI_C、RPI_D、RPI_E、RPI_H、RPI_M、RPI_S，分别对应线虫、果蝇、大肠杆菌、人类、小鼠、酵母）上，训练于RPI7317的模型直接预测，准确率分别达到 94.2%、92.8%、94.5%、97.5%、98.2%、97.1%，显著优于多数对比方法。尤其在果蝇（RPI_D）数据集中，模型仅未能正确预测5对互作，整体准确率92.8%，展示了出色的跨物种泛化能力。

6. 可解释性分析：注意力区域与保守基序吻合

作者在RPI_E数据集上提取GAT的注意力分数，并与STREME工具发现的保守基序比对。结果显示，高注意力区域显著富集已知基序，如RNA序列n432中的“GCUGG”（E-value=3.5×10⁻⁸）和蛋白P77398中的“NGETKT”（E-value=5.1×10⁻⁴），且这一模式在不同互作对中一致，表明模型学习到的特征具有生物学意义而非偶然。

小编总结

RPI-PLMGNN 通过将预训练语言模型（RNAErnie+ESM2）与结构特征融合，并创新性地采用线图拓扑+GAT+GGCN架构，在多个数据集上达到了目前最优的预测精度。
跨物种验证中高达94%~98%的准确率，以及注意力机制与生物基序的一致性，充分证明该模型具备出色的泛化能力和可解释性。
该工具为RNA-蛋白互作机制研究及靶向药物开发提供了高效、可靠的计算平台，未来若引入理化、进化等多模态信息并优化大规模数据扩展性，有望进一步释放潜力。
点击下方链接-下载原文pdf
rpi-plmgnn-enhancing-rna-protein-interaction-prediction-with-the-pretrained-large-language-models-and-graph-neural.pdf
往期好文推荐
分子对接“懒人包”升级了！EasyDock 1.3 让虚拟筛选更智能、更开源
比现有方法快20倍！全新蛋白结构基序搜索工具Folddisco问世
【ACS Catal. 】改写酶的偏好：苯丙氨酸脱氢酶变身N-烷基氨基酸合成利器
【Green Chem.】绿色化学新突破：100%原子经济性酶催化法精准合成手性二羟基酮
改写教科书？P450酶催化的全新反应：从异戊烯基一步变出丙二烯和炔烃
EC-Design：一个用降维序列特征预测酶功能的稳健框架
往期课程推荐
订阅会员畅享所有课程
超值第三期蛋白分子模拟
超值第一期分子对接
订阅第一期AI-VS-MD-RF3-vibecoding