
模型工具的概述以及用途
蛋白质S-棕榈酰化是一种可逆的脂质修饰,在调控蛋白质定位、运输和信号转导中发挥关键作用。其异常与癌症及治疗耐药密切相关,因此精准注释棕榈酰化位点对于理解疾病机制至关重要。然而,实验鉴定棕榈酰化位点成本高、通量低,亟需高效的计算工具进行大规模候选位点筛选。
近日,研究团队在bioRxiv上发表了Deep-Palm——一个多视角深度学习框架,用于预测蛋白质中的S-棕榈酰化位点。Deep-Palm创新性地整合了四个互补的信息分支:
- 氨基酸序列分支
:基于2‑mer、3‑mer、4‑mer的k‑mer特征,通过一维卷积编码局部序列模式。 - 蛋白质性质分支
:利用14种AAindex衍生的理化描述子(疏水性、极性、等电点、α‑螺旋倾向等),采用双向LSTM捕捉残基间的依赖关系。 - ESM嵌入分支
:使用ESM‑2(30亿参数)蛋白语言模型提取31残基窗口的深度进化语义表征,经变积卷积层处理。 - 空间结构分支
:基于ESMFold预测的局部三维结构,构建残基‑残基对特征(Cα距离、最小重原子距离、侧链中心距离、空间接触等),通过二维卷积和图卷积网络(GCN)提取结构信息。
四个分支独立输出位点概率后,通过加权混合和堆叠集成(逻辑回归元学习器)得到最终预测。模型在独立测试集上取得了AUC 0.950的优异性能,显著优于现有工具GPS‑Palm(0.808)、pCysMod(0.792)和MusiteDeep(0.623)。
图1. Deep-Palm的整体架构:四个分支分别处理序列、理化性质、ESM嵌入和预测结构,最终集成输出棕榈酰化概率。
图2. 独立测试集上的ROC曲线(A)及各分支与集成模型的AUC(B);与现有工具的对比(C)显示Deep-Palm达到0.950 AUC,且敏感性与特异性平衡最佳。
Deep-Palm在多种场景下表现出卓越的鲁棒性:
在不同半胱氨酸密度、最近邻距离、N端/C端相对位置的分组中,AUC保持稳定(>0.90)。 在Gene Ontology(BP、CC、MF)各功能组中,AUC均高于0.90,优于其他工具。
图3. 按半胱氨酸数量(A)、最近邻距离(B)、C端距离(C)、N端距离(D)分层后Deep-Palm仍保持高AUC;在生物学过程(E)、细胞组分(F)、分子功能(G)中也均超过0.90。
更重要的是,Deep-Palm能够揭示棕榈酰化位点独特的空间结构与理化特征:
棕榈酰化窗口内残基间的平均Cα距离更大(图4A),长程接触密度更低(图4C),提示更“开放”的局部构象。 棕榈酰化位点上游残基表现出更高的疏水性、更低的极性和接触能;α‑螺旋频率、等电点、柔性和亲水性在棕榈酰化窗口中显著升高,而β‑转角频率则降低(图5)。
图4. 棕榈酰化与非棕榈酰化窗口的空间结构差异:平均Cα距离(A)、位置对热图(B)、长程接触密度(C)及按序列分离分层的接触比率(E)。
图5. 14种AAindex特征的位置热图(A)及代表性特征(α‑螺旋频率、等电点、转角频率、疏水性、柔性、亲水性)的分布差异(B‑G)。
独立质谱(MS)验证显示,Deep-Palm在未参与训练的MS数据集上仍保持高召回率(小鼠肝癌数据AUC 0.822,召回89%),尤其对数据库中未注释的“新位点”召回率最高(图6F),凸显其发现新型棕榈酰化事件的能力。
图6. 小鼠肝癌与HeLa细胞MS数据中的ROC曲线(A)、阳性位点准确率(B‑C)及对全新位点的召回率(F);Deep-Palm在未见过的新位点中仍保持最高敏感性。
部署安装方式
Deep-Palm提供完整的开源代码、预处理数据集及预训练模型,方便用户进行本地部署和自定义预测。
1. 源代码与模型获取GitHub仓库:
https://github.com/DML666666/Deep-Palm包含:
处理后的训练/测试数据集 预训练的Deep-Palm模型权重 生成输入特征(ESM‑2嵌入、ESMFold结构、AAindex描述子等)的脚本 模型训练与预测的完整工作流
2. 环境依赖
Python 3.8+ PyTorch(推荐1.12+) 其他依赖:numpy, pandas, scikit-learn, biopython, CD-HIT等(详见仓库中的requirements.txt)
3. 快速预测示例
# 克隆仓库gitclonehttps://github.com/DML666666/Deep-Palm.gitcdDeep-Palm# 安装依赖pip install -r requirements.txt# 运行预测(以示例FASTA文件为例)python predict.py --input example.fasta --output results.csv
输入格式:FASTA文件,每个条目为一个以目标半胱氨酸为中心的31残基窗口(或全长蛋白,工具会自动滑动窗口)。输出为每个半胱氨酸位点的棕榈酰化概率。
4. 在线预测服务对于无需安装的用户,研究团队还提供了在线预测平台:
https://palmlab.intelligent-oncology.com/可直接提交蛋白序列,获得可视化预测结果。
5. 自定义训练若需在自己的数据集上微调,可使用仓库中的训练脚本:
python train.py --config configs/deep_palm.yaml点击下方链接-下载原文pdf

往期好文推荐

往期课程推荐


夜雨聆风