AI蛋白质工具系列:蛋白质结构与功能预测—

AI蛋白质工具系列:蛋白质结构与功能预测——功能注释与突变效应②

蛋白质工具大全

AI蛋白质资源系列：蛋白质结构与功能预测——结构预测①

AI蛋白质资源系列：蛋白质结构与功能预测——结构预测②

AI蛋白质资源系列：蛋白质结构与功能预测——功能注释与突变效应①

** 如果觉得本文对你有帮助，欢迎推荐、点赞、转发支持，让更多科研小伙伴看到！如有疑问或建议，欢迎留言。

** 本文信息收集于2026年5月，如有变动请以官网为准。

** 整理不易，禁止盗用、洗稿或商业使用，如需转载，请注明来源。

** 查找资源开源链接，可关注公众号后私信资源名获取。

μProtein (μFormer)

（开源链接可关注公众号后私信关键词【uProtein】或【uFormer】获取。）

1.开发/维护方：中国北京微软研究院人工智能科学研究院、中国科学院自动化研究所、清华大学（公司/学术合作）

2.核心功能：一个基于成对掩码语言模型和多评分模块的深度学习模型，用于预测蛋白质突变对功能的影响（适应度景观）。

3.适用场景：从单点突变数据预测高阶突变体的功能效应，捕获上位效应，识别高功能变异体，泛化与鲁棒性验证；也适用于蛋白质序列设计，实验验证。

4.免费/开源：是

5.文章解读：微软&中科院推μProtein：单点突变数据获β-内酰胺酶2000倍活性变体

6.原文：Accelerating protein engineering with fitness landscape modelling and reinforcement learning

微软团队匠心之作，配合强化学习算法高效勘探蛋白质适应度景观，在提升酶活性的任务中表现惊艳。

METL

(Mutational Effect Transfer Learning)

（开源链接可关注公众号后私信关键词【METL】获取。）

1.开发/维护方：University of Wisconsin–Madison（学术机构）

2.核心功能：基于生物物理模拟数据（Rosetta计算的55个属性）预训练，再微调于实验数据的蛋白质语言模型，用于预测突变对蛋白功能的影响。

3.适用场景：小样本蛋白质工程，外推至未见过的突变类型和位置，提升热稳定性与酶活性；也适用于序列设计。

4.免费/开源：是

5.文章解读：威斯康星大学团队开发METL：仅64例数据设计功能GFP，生物物理PLM革新蛋白质工程

6.原文：Biophysics-based protein language models for protein engineering

深度融合生物物理先验，用虚拟分子模拟数据预训练，突破小样本瓶颈。

RESP2

(Rapid Engineering System for Proteins 2)

（开源链接可关注公众号后私信关键词【RESP2】获取。）

1.开发/维护方：University of California San Diego（学术机构）

2.核心功能：一个面向抗体发现的多目标、多属性优化AI管线，整合不确定性感知的机器学习模型（xGPR/ByteNet-SNGP/vBNN）、体外模拟定向进化算法，以及基于1.3亿人源抗体序列训练的生成模型。

3.适用场景：多抗原广谱抗体发现，抗体亲和力成熟与人源化优化，应对快速突变的病原体（如新冠、流感等），蛋白序列的多目标多属性优化；也适用于序列设计（通过主动学习优化的定向进化）以及蛋白-蛋白互作（抗体-抗原结合）。

4.免费/开源：是

5.文章解读：UCSD团队开发RESP2：AI驱动多靶点多属性抗体优化，成功率超85%，远超传统生成式AI

6.原文：RESP2: An Uncertainty Aware Multi-Target Multi-Property Optimization AI Pipeline for Antibody Discovery

将不确定性感知的机器学习与定向进化深度融合，在多抗原靶点上以≥85%的成功率发现广谱、人源化、高亲和力抗体，破解了传统生成式AI成功率不足1.5%的盲区。

ImmunScope

（开源链接可关注公众号后私信关键词【ImmunScope】获取。）

1.开发/维护方：南京理工大学、澳大利亚莫纳什大学（学术机构）

2.核心功能：预测CD4+T细胞免疫原性表位、MHC-II抗原呈递以及肽-MHC-II结合亲和力。

3.适用场景：用于疫苗开发、肿瘤新抗原筛选、自身免疫病治疗、病毒免疫逃逸机制分析；也适用于蛋白-蛋白互作（抗原肽与MHC-II分子的结合识别）和实验验证方法（与体外T细胞活化实验形成预测-验证闭环）。

4.免费/开源：是

5.文章解读：南京理工大学联合莫纳什大学开发ImmuScope，CD4+T细胞表位预测准确率提升6.9%

6.原文：Self-iterative multiple-instance learning enables the prediction of CD4+T cell immunogenic epitopes

首个统一框架整合单等位和多等位免疫肽组学数据，显著提升CD4+T细胞表位预测精度和等位基因覆盖度。

AlignAIR

（开源链接可关注公众号后私信关键词【AlignAIR】获取。）

1.开发/维护方：巴伊兰大学、耶鲁大学医学院（学术机构）

2.核心功能：基于深度学习的免疫球蛋白（Ig）序列比对工具，用于V(D)J等位基因分配、序列分割和生产力状态预测。

3.适用场景：用于适应性免疫受体库测序数据分析中的抗体和T细胞受体序列比对、等位基因鉴定和突变分析；也适用于蛋白-蛋白互作（单克隆抗体筛选与下游功能分析的基础）。

4.免费/开源：是（代码开源）

5.文章解读：巴伊兰大学发布AI神器AlignAIR：免疫受体序列比对错误率降低70%，计算速度提升45倍！

6.原文：Enhancing sequence alignment of adaptive immune receptors through multi-task deep learning

深度学习驱动的Ig序列比对新SOTA，在等位基因分配、分割精度和速度上全面超越传统工具。

FFT-PLSR

（开源链接可关注公众号后私信关键词【FFT-PLSR】获取。）

1.开发/维护方：浙江大学（学术机构）

2.核心功能：一种创新的序列特征工程方法，通过FFT将蛋白质序列转换为频谱特征，再利用PLSR建立序列模式与功能之间的回归模型，以精准预测组合突变体的协同活性

3.适用场景：用于酶工程中组合突变体的活性预测，特别是指导非天然氨基酸掺入系统的定向进化，可与深度学习模型（如ESM-1v）形成联动，构成多层级精准进化策略。

4.免费/开源：是

5.文章解读：浙江大学：机器学习改造PyIRS酶，非天然氨基酸掺入效率飙升30倍！

6.原文：Machine learning-guided evolution of pyrrolysyl-tRNA synthetase for improved incorporation efficiency of diverse noncanonical amino acids

擅长解码突变间的协同与上位效应，让有限的实验数据发挥最大价值。

LucaPCycle

（开源链接可关注公众号后私信关键词【LucaPCycle】获取。）

1.开发/维护方：自然资源部第三海洋研究所、阿里云智能飞天实验室、上海海洋大学、福建师范大学等（学术机构+公司合作）

2.核心功能：基于蛋白语言模型ESM2-3B的双通道深度学习模型，预测微生物磷循环蛋白（31类），识别远程同源蛋白。

3.适用场景：专为环境生态研究设计，尤其适用于分析深海冷泉、土壤、水体等各类生态系统中的宏基因组、宏转录组数据，为解磷蛋白进行大规模、高通量的功能注释与分类；也适用于蛋白-小分子对接。

4.免费/开源：是

5.文章解读：第三海洋研究所联合阿里发布LucaPCycle模型：首次深海冷泉发现5241个磷循环蛋白家族

6.原文：LucaPCycle: Illuminating microbial phosphorus cycling in deep-sea cold seep sediments using protein language models

首个磷循环功能PLM模型，发现三个新碱性磷酸酶家族，扩展深海冷泉微生物功能注释。

PAMmla

（开源链接可关注公众号后私信关键词【PAMmla】获取。）

1.开发/维护方：哈佛医学院、麻省总医院等（学术机构）

2.核心功能：基于神经网络，用于预测SpCas9蛋白的氨基酸序列与PAM（原型间隔子相邻基序）偏好性之间的关系，从而大规模预测Cas9变体的PAM识别特性。

3.适用场景：设计具有特定PAM偏好的定制化SpCas9变体，用于等位基因特异性编辑、碱基编辑等。

4.免费/开源：是

5.文章解读：哈佛团队用AI定制CRISPR剪刀，编辑效率提升10倍，脱靶率降低96%！

6.原文：Custom CRISPR-Cas9 PAM variants via scalable engineering and machine learning

从氨基酸序列预测Cas9 PAM谱的深度学习模型，实现6400万变体的虚拟筛选，高通量蛋白质工程与神经网络结合的产物。

PUPS

(Prediction of Unseen Proteins' Subcellular localization)

（开源链接可关注公众号后私信关键词【PUPS】获取。）

1.开发/维护方：麻省理工学院、哈佛大学（学术机构）

2.核心功能：结合蛋白质语言模型ESM-2和图像修复的深度学习框架，利用蛋白质序列和细胞标志染色图像预测单细胞水平上未测蛋白的亚细胞定位。

3.适用场景：预测未见蛋白质在未见细胞系中的定位；分析蛋白质定位在细胞系间和单细胞间的变异性；致病突变的影响预测；也适用于生物分子相互作用。

4.免费/开源：开源

5.文章解读：麻省理工联合哈佛团队突破：AI预测单细胞蛋白定位，准确率超87%，泛化性跨越未训练细胞系

6.原文：Prediction of protein subcellular localization in single cells

首个能同时泛化到未见蛋白和未见细胞系的单细胞蛋白亚细胞定位预测方法。

SHARK (SHARK-web)

（开源链接可关注公众号后私信关键词【SHARK】获取。）

1.开发/维护方：德国马克斯·普朗克分子细胞生物学与遗传学研究所 (MPI-CBG) 和德累斯顿系统生物学中心 (CSBD)

2.核心功能：专为固有无序蛋白区域 (IDRs) 设计的无比对同源性检测算法，通过比较k-mers的理化性质来评估相似性。

3.适用场景：搜索与查询序列相似的无序蛋白区域，发现功能类似的短线性基序（SLiM），跨物种无序区同源性分析，帮助判断无序区域是否具有新颖的折叠和功能潜力；也适用于序列与结构数据库。

4.免费/开源：免费

5.文章解读：马克斯·普朗克研究所突破性算法SHARK：无序蛋白同源性检测灵敏度提升2倍，填补领域空白

6.原文：SHARK: web server for alignment-free homology assessment for intrinsically disordered and unalignable protein regions

首个专门针对固有无序区蛋白序列的免比对同源检测工具，灵敏度远超BLAST/HMMER。

Dr.Kinase

（开源链接可关注公众号后私信关键词【Dr.Kinase】获取。）

1.开发/维护方：中南大学湘雅二医院、福建医科大学、湖南大学、美国德克萨斯大学健康科学中心（学术机构）

2.核心功能：预测蛋白激酶的四种耐药热点（gatekeeper、G-loop、αC-helix、A-loop），评估突变对耐药的影响。

3.适用场景：激酶抑制剂耐药机制研究，下一代激酶抑制剂开发，癌症精准医学中耐药突变预测；也适用于通用表征模型，以及蛋白-小分子对接和基准测试集。

4.免费/开源：是（免费网页服务，代码开源）

5.文章解读：中南大学/福建医大/德克萨斯大学联合开发Dr. Kinase！精准预测激酶耐药热点，AUC突破0.89

6.原文：Dr. Kinase: predicting the drug-resistance hotspots of protein kinases

首个同时支持热点预测与突变效应评估的激酶耐药在线平台。

Labelizer

（开源链接可关注公众号后私信关键词【Labelizer】获取。）

1.开发/维护方：慕尼黑大学、多特蒙德工业大学、乌得勒支大学和慕尼黑工业大学等研究团队（学术机构）

2.核心功能：基于朴素贝叶斯分类器，从蛋白质结构中定量评估每个残基作为荧光标记位点的适合度（Label Score），综合保守性、溶剂可及性、二级结构和半胱氨酸相似性。

3.适用场景：设计用于单分子FRET、EPR、超分辨显微镜等实验的蛋白质定点标记；优化标记位点选择以避免蛋白功能扰动；也适用于结构生成。

4.免费/开源：是（代码开源，网页免费）

5.文章解读：慕尼黑大学开发Labelizer，标记位点预测准确率提升4倍，推动单分子FRET研究标准化

6.原文：Labelizer: systematic selection of protein residues for covalent fluorophore labeling

首个系统性量化蛋白质残基标记适用性的工具，有效提高FRET实验设计成功率。

TRAPT

（开源链接可关注公众号后私信关键词【TRAPT】获取。）

1.开发/维护方：南华大学、北京建筑大学（学术机构）

2.核心功能：多模态深度学习框架，通过整合多组学表观基因组数据（如ChIP-seq、ATAC-seq和组蛋白修饰数据），从给定的目标基因集中推断出上游关键的转录调控因子，评估转录活性。

3.适用场景：疾病机制研究，遗传变异分析，细胞命运与发育研究，组织特异性调控网络解析，药物靶点发现；也适用于蛋白-蛋白互作（识别转录因子与共因子、染色质调控因子之间的相互作用）。

4.免费/开源：是（GitHub，在线服务免费）

6.原文：TRAPT: a multi-stage fused deep learning framework for predicting transcriptional regulators based on large-scale epigenetic data

首个同时考虑顺式调控元件和全基因组结合位点的转录调控因子预测框架。

PMRAAS(ResNet模型)

（开源链接可关注公众号后私信关键词【PMRAAS或ResNet】获取。）

1.开发/维护方：南京农业大学、天津工业大学（学术机构）

2.核心功能：基于ResNet深度学习模型，对金属抗性基因氨基酸序列进行多标签分类，预测其赋予何种金属（如Zn、Cu、Cd、Pb等）抗性。

3.适用场景：用于快速注释微生物基因组中的金属抗性基因，辅助重金属污染 bioremediation 研究和环境微生物学分析。核心属于功能注释，也可用于基因数据库扩充。

4.免费/开源：是

5.文章解读：南京农大团队：ResNet模型实现金属抗性基因快速精准识别，准确率98.91%

6.原文：Rapid identification of metal resistance genes using an enhanced ResNet deep learning model trained on a largely expanded BacMet-based database

基于大规模扩展数据库和增强型ResNet的金属抗性基因预测系统，以高达98.91%的Jaccard指数和远超传统方法的预测速度为重金属污染的生物修复提供了强大的AI驱动工具。

CATNIP

（开源链接可关注公众号后私信关键词【CATNIP】获取。）

1.开发/维护方：University of Michigan，Carnegie Mellon University（学术机构）

2.核心功能：机器学习框架，基于梯度提升模型GBM，用于预测酶与底物的兼容性，包括从底物结构预测酶，或从酶的序列预测底物。模型融合了蛋白质语言模型ESM-2与SE(3)-等变图神经网络等先进技术。

3.适用场景：用于指导生物催化反应发现，拓宽催化反应类型；也适用于用于蛋白-小分子对接/蛋白-小分子互作研究。

4.免费/开源：是

5.文章解读：密歇根大学与卡内基梅隆大学团队开发CATNIP工具，精准预测215个新生物催化反应

6.原文：Connecting chemical and protein sequence space to predict biocatalytic reactions

首个连接化学空间与蛋白序列空间的双向预测工具，有望成为生物催化路线设计的新范式。

PROTAC-STAN

（开源链接可关注公众号后私信关键词【PROTAC-STAN】获取。）

1.开发/维护方：澳门理工大学、浙江大学、香港中文大学、兰州大学（学术机构）

2.核心功能：基于三元注意力网络和结构感知的蛋白语言模型，预测PROTAC分子诱导靶蛋白降解的能力。

3.适用场景：用于PROTAC药物设计中快速评估候选分子的降解活性，提供原子级和残基级的相互作用可视化，增强可解释性；也适用于蛋白-蛋白互作。

4.免费/开源：是

5.文章解读：兰大/港中文/浙大/澳门理工联合开发PROTAC-STAN，降解预测准确率突破88.41%

6.原文：Interpretable PROTAC Degradation Prediction With Structure-Informed Deep Ternary Attention Framework

首个整合分子分层表示与蛋白结构嵌入的深度学习框架，准确率高。

ITsFlexible

（开源链接可关注公众号后私信关键词【ITsFlexible】获取。）

1.开发/维护方：University of Oxford、Scripps Research, Dept. of Integrative Structural and Computational Biology, ISCB（学术机构+企业）

2.核心功能：基于E(n)等变图神经网络的深度学习工具，从抗体或T细胞受体的CDR3环序列和结构输入，二分类预测该环是刚性（单构象）还是柔性（多构象）。

3.适用场景：用于抗体或TCR药物开发中筛选具有理想柔韧性特征的候选分子，辅助抗原结合与识别机制研究，配合结构与功能注释；也适用于蛋白-蛋白互作，以及实验验证与设计支撑。

4.免费/开源：是（MIT license）

5.文章解读：牛津大学开发ITsFlexible，预测抗体TCR关键区灵活性，精准率超80%

6.原文：Predicting the conformational flexibility of antibody and T cell receptor complementarity-determining regions

通过挖掘PDB中所有β-发夹环构象来训练预测CDR3柔韧性的开创性深度学习工具。

DLFea4AMPGen

（开源链接可关注公众号后私信关键词【DLFea4AMPGen】获取。）

1.开发/维护方：中国农业科学院北京畜牧兽医研究所、内蒙古大学、中国农业科学院生物技术研究所、军事医学科学院、解放军总医院

2.核心功能：通过SHAP方法从深度学习模型中提取关键氨基酸特征，构建序列子空间，生成具有抗菌、抗真菌和抗氧化三活性的多肽。

3.适用场景：用于从头设计多功能抗菌肽，可解释性药物设计，多功能药物分子设计；也适用于生成式模型，以及序列设计。

4.免费/开源：是

5.文章解读：中国农科院开发DLFea4AMPGen，设计抗菌肽成功率达75%，D1可抗多重耐药菌

6.原文：DLFea4AMPGen de novo design of antimicrobial peptides by integrating features learned from deep learning models

通过提取关键氨基酸特征，成功地将新肽的活性验证成功率提升至75%，为抗菌药物的理性设计提供了有力武器。

Empathi

（开源链接可关注公众号后私信关键词【Empathi】获取。）

1.开发/维护方：Université Laval、Université Grenoble Alpes（学术机构）

2.核心功能：基于蛋白质语言模型ProtTrans和层次化SVM分类器，对噬菌体蛋白进行分层功能注释。

3.适用场景：用于从宏基因组组装的噬菌体基因组中快速注释蛋白功能，尤其适用于未培养噬菌体，核心属于功能注释，可用于病毒宏基因组学；也适用于通用表征模型。

4.免费/开源：是

5.文章解读：加拿大拉瓦尔大学团队开发Empathi：噬菌体蛋白注释覆盖率从16%提升至33%

6.原文：Empathi: embedding-based phage protein annotation tool by hierarchical assignment

专为噬菌体蛋白精心设计分层分类体系并利用蛋白质语言模型进行注释的工具，在宏基因组数据库上实现了翻倍的注释覆盖率，噬菌体组学研究的新一代利器。

popEVE

（开源链接可关注公众号后私信关键词【popEVE】获取。）

1.开发/维护方：Harvard Medical School、Centre for Genomic Regulation, CRG（学术机构）

2.核心功能：结合深度进化模型EVE与人类群体数据深度生成模型，校准错义变异的有害性评分，实现全蛋白质组尺度的变异效应比较。

3.适用场景：罕见病遗传诊断中优先排序致病性变异；评估发育障碍队列中的新候选基因；无需家系测序即可识别致病性新生变异。

4.免费/开源：开源

5.文章解读：哈佛医学院开发popEVE模型，实现全蛋白质组疾病遗传解读，助力123种新罕见病基因发现

6.原文：Proteome-wide model for human disease genetics

首个全蛋白质组校准的错义变异有害性评分模型，为临床遗传诊断提供了强大的新工具。

下篇预告：AI蛋白质资源系列：蛋白质结构与功能预测——功能注释与突变效应③

往

期

文

章

NAR（IF=13.1）|单步虚拟筛选+机器学习：AI高效设计高活性低脱靶碱基编辑器

NAR（IF=13.1）|昆士兰大学开发SGGly结构引导分析工具，N-糖基化位点预测MCC达0.888

JACS（IF=15.7）|华盛顿大学David Baker团队从头设计近红外荧光激活蛋白，激发波长892nm

NAR（IF=13.1）|韩国KRIBB联合嘉泉大学团队开发DeepKinomeWeb：一个用于激酶抑制剂筛选与选择性分析的网页平台

NAR（IF=13.1）|南加州大学开发PLATE-VS：一个免费、防数据泄漏的蛋白质-配体数据集平台

NAR（IF=13.1）|伯克利实验室发布BilboMD：一个可通过网页访问的SAXS与AlphaFold引导建模流程

NPJ Digit.Med.（IF=15.1）|中山大学中山眼科中心证实AI+蛋白组学时钟可预警4类老年眼病

Nat.Commun.（IF=15.7）|浙江大学通过机器学习增强采样工作流程，靶向固有无序蛋白AR-NTD，发现前列腺癌耐药新分子K53

Nat.Biotechnol.（IF=41.7）|韩国首尔国立大学开发蛋白质结构基序搜索工具Folddisco，速度比现有方法快20倍，存储效率高4倍

Nature（IF=48.5）|美国西北大学团队开发mHDX-MS技术，大规模解析5,778个蛋白质能量景观，AI赋能构象波动精准设计

Nat.Commun.（IF=15.7）|德国莱比锡大学团队计算改造PHL7酶，PET降解活性提升110倍+耐热达88-95℃

Nat.Biotechnol.（IF=41.7）|滑铁卢大学+清华大学研发RNovA，零样本肽段从头测序实现开放PTM发现，性能达SOTA水平

NAR（IF=13.1）|ProteinNetworkSight：批量解析蛋白共表达模式，一键生成个性化抗癌治疗策略

NAR（IF=13.1）|新工具SPSignal：结构辅助预测核转运信号，候选信号减少35-40%且灵敏度100%

NAR（IF=13.1）|酶挖掘工具EnzymeMiner 2.0全新升级：搜索空间暴增2.8倍，AI赋能酶发现再升级

Adv.Sci.（IF=14.1）|上海中医药大学团队开发机制引导机器学习框架MISPOP，从1033条肽库中筛出溶瘤肽，肿瘤抑制率超92%

Exp.Mol.Med.（IF=12.9）|韩国科学技术院团队AI设计GDF15高亲和结合蛋白，攻克癌症恶病质诊疗瓶颈

ES&T（IF=11.3）|中科院生态环境研究中心联合浙江大学开发EDC Profiler：16核受体、37万化学品高通量筛查，AUC达0.995

- end -