蛋白质工具大全
** 如果觉得本文对你有帮助,欢迎推荐、点赞、转发支持,让更多科研小伙伴看到!如有疑问或建议,欢迎留言。
** 本文信息收集于2026年5月,如有变动请以官网为准。
** 整理不易,禁止盗用、洗稿或商业使用,如需转载,请注明来源。
** 查找资源开源链接,可关注公众号后私信资源名获取。
在AI驱动蛋白质科学的当下,蛋白质语言模型(pLMs)正成为解锁序列-功能关系的通用钥匙。通用表征模型通过海量无标记载体预训练,让模型学会蛋白质的组合规律与功能含义,无需再为每个任务从头训练。本文梳理了当下最主流的通用表征模型,涵盖学术与工业成果,助科研人员快速锁定适合自己研究的基座模型。
ESM系列
(开源链接可关注公众号后私信关键词【ESM-1v】或【ESM-2】获取。)
1.ESM-1v
1.开发/维护方:Meta AI(FAIR,企业)
2.核心功能:650M参数的Transformer模型,通过掩码语言模型对突变位点进行对数似然比评分,零样本预测单氨基酸替换对蛋白质功能的影响。
3.适用场景:零样本突变效应预测与致病性筛选(5模型集成策略提供稳健评分)、指导蛋白质定向进化、识别关键功能位点;也适用于酶功能分类与蛋白质家族聚类分析、序列设计、蛋白-蛋白互作位点预测。
4.免费/开源:开源,遵循学术非商业用途许可。
零样本突变效应预测的标杆,5个模型集成策略在蛋白质工程初筛中兼具精准与稳健。
2.ESM-2
1.开发/维护方:Meta AI(企业,现为学术开放资源)
2.核心功能:基于Transformer架构,在数千万蛋白质序列上预训练的通用蛋白质表征模型,输出每个位点的深层嵌入向量。
3.适用场景:二级结构预测、接触图预测、亚细胞定位等几乎所有蛋白质属性预测任务;作为下游任务的特征提取器或微调基座;也适用于突变效应评估、功能注释、蛋白质工程中突变体稳定性筛选与理性设计,以及蛋白质序列功能分类与家族聚类分析。
4.免费/开源:开源(MIT许可证),可商用,模型权重免费下载
目前应用最广、社区最活跃的蛋白质表征模型,15B参数版与650M轻量版各有所长,社区资料丰富。
如果任务聚焦于突变效应评估,ESM-1v的专项设计与5模型集成策略是更优选择;如果需要通用表征或结构预测等更广泛的应用,ESM-2的全能性更全。两者可以互补使用,先用ESM-1v快速筛出候选突变位点,再利用ESM-2提取Embedding进行下游深度分析。
ProtTrans家族
(开源链接可关注公众号后私信关键词【ProtBERT】或【ProtT5】获取。)
1.ProtBERT
1.开发/维护方:慕尼黑工业大学(学术机构)
2.核心功能:基于BERT架构的大规模蛋白语言模型,采用掩码语言建模(MLM)预训练,捕捉蛋白质序列的生物物理特性,输出每个氨基酸位点的深度嵌入表征。
3.适用场景:二级结构预测、亚细胞定位、膜蛋白识别、溶菌酶位点预测等蛋白质属性预测任务;酶功能分类与蛋白质家族聚类分析;作为下游任务的特征提取器或微调基座,用于酶稳定性预测、二分类预测(如蛋白-蛋白互作)等场景。也适用于蛋白-小分子结合位点预测(蛋白-小分子对接),以及蛋白-蛋白互作位点预测(蛋白-蛋白互作)。
4.免费/开源:开源,Apache 2.0许可证
2.ProtT5(Protein T5)
1.开发/维护方:慕尼黑工业大学(学术机构)
2.核心功能:基于Google T5架构的Transformer编码器-解码器模型,预训练时结合掩码语言建模(MLM)与去噪目标,可将任意长度蛋白质序列编码为1024维深度嵌入向量,也可用于序列到序列的生成任务。
3.适用场景:蛋白质属性的无MSA依赖预测(二级结构、亚细胞定位、无序区等),作为通用特征提取器为下游任务生成1024维嵌入向量;也适用于酶功能分类(蛋白-小分子)、稀有蛋白家族聚类(功能注释),以及作为序列-结构双向翻译模型(ProstT5)的基座支撑蛋白质生成任务(端到端生成)。
4.免费/开源:开源,Apache 2.0许可证
ProtBERT是最早将BERT引入蛋白质领域的模型之一,420M参数量让它在功能预测任务中仍有参考价值,适合快速原型验证与特征提取。而ProtT5是ProtTrans家族中参数量最大的通用表征模型,兼具编码与生成双重能力,在无MSA依赖的多种下游任务上首次达到或超越传统SOTA水平。
ProteinBERT
(开源链接可关注公众号后私信关键词【ProteinBERT】获取。)
1.开发/维护方:希伯来大学、内盖夫本古里安大学(学术机构)
2.核心功能:为蛋白序列设计的深度语言模型,结合掩码语言建模与GO注释预测任务,输出每个氨基酸位点的局部表征与全序列的全局表征。
3.适用场景:蛋白功能注释与GO预测,蛋白结构、翻译后修饰、生物物理属性等多维度蛋白属性预测;二级结构预测,蛋白-蛋白互作、转录因子结合位点、金属离子结合和稳定性的高精度预测;适用于低标注数据场景下的快速蛋白预测器训练,可作为编码器为多种下游任务生成蛋白序列特征。
4.免费/开源:代码开源
参数量小于ESM-2但性能接近SOTA,适合标注数据有限的场景。
Ankh
(开源链接可关注公众号后私信关键词【Ankh】获取。)
1.开发/维护方:慕尼黑工业大学+Proteinea Inc.(学术机构+企业)
2.核心功能:基于Transformer T5架构的通用蛋白质语言模型,采用动态注意力掩码策略,支持表征提取和序列生成。
3.适用场景:二级结构预测、亚细胞定位、接触图谱预测、荧光强度及突变效应评估等多种结构与功能预测任务,以及远程同源性识别与蛋白属性分类;提供嵌入API为蛋白可溶性预测、耐盐蛋白预测、DNA结合蛋白预测等下游任务构建基础表征;支持蛋白质变体生成分析,可学习蛋白质进化保守—突变趋势并引入功能多样性。
4.免费/开源:开源。
ESM系列的有力竞争者,支持生成,用途广泛。
CARP
(开源链接可关注公众号后私信关键词【FFT-PLSR】获取。)
1.开发/维护方:Microsoft Research(微软研究院)
2.核心功能:基于 CNN 卷积架构的蛋白质语言模型(ByteNet编码器),通过掩码语言建模预训练,支持超长序列,输出蛋白质深层嵌入表征。
3.适用场景:零样本突变效应评估、超长蛋白序列处理、蛋白质结构预测、适应性评估、荧光及稳定性预测;也适用于跨域泛化与蛋白属性分类,以及与其它PLM集成用于蛋白-蛋白互作、蛋白-小分子对接。
4.免费/开源:开源(BSD 3-Clause),模型免费下载
零样本突变预测性能略优于ESM-1v,原生支持超长序列,计算资源有限或长蛋白任务时可选。
LucaOne
(开源链接可关注公众号后私信关键词【LucaOne】获取。)
1.开发/维护方:阿里云智能飞天实验室、中山大学医学院、复旦大学、浙江大学药学院等(学术机构+企业)
2.核心功能:统一处理核酸(DNA/RNA)与蛋白质序列的生物基础模型,通过改进的Transformer架构实现跨分子类型的深度语义表征。
3.适用场景:通用生物序列特征提取;基因分类、蛋白定位、热稳定性、ncRNA家族分类等下游任务;蛋白-蛋白互作与ncRNA-蛋白互作预测;蛋白质功能注释、稳定性评估与突变效应预测;零样本/小样本生物计算;蛋白质理性设计与稳定性筛选(序列设计);融合核酸序列的蛋白-核酸复合物分析(全原子复合物预测)。
4.预训练数据集:CNGB序列档案库 (CNSA) ,登录号CNP0007266
5.免费/开源:是
6.文章解读:阿里云发布首个统一核酸-蛋白质大模型LucaOne,多任务准确率超越现有方法20%以上
7.原文:Generalized biological foundation model with unified nucleic acid and protein language
首个DNA-RNA-蛋白统一表征模型,跨模态性能SOTA,适合融合核酸-蛋白联合分析的科研场景。
Prot2Token
(开源链接可关注公众号后私信关键词【Prot2Token】获取。)
1.开发/维护方:University of Missouri、Politecnico di Milano(学术机构)
2.核心功能:基于自回归框架的蛋白质语言模型,通过后训练对齐实现多种蛋白预测任务的统一处理,包括结构相似性、突变稳定性、PTM位点等。
3.适用场景:多任务统一建模与联合学习(序列/残基级任务),可作为框架便捷接入ESM-2等现有PLM实现端到端微调;蛋白-蛋白互作与蛋白-配体结合位点预测(蛋白-小分子对接);通过3D结构词元预测构建结构感知PLM,辅助结构预测任务。
4.免费/开源:代码开源
新兴的统一框架,将多种预测任务整合到一个模型中。
xTrimoPGLM
(开源链接可关注公众号后私信关键词【xTrimoPGLM】获取。)
1.开发/维护方:BioMap Research、清华大学(企业+学术机构)
2.核心功能:1000亿参数的统一蛋白质语言模型,通过联合优化MLM和GLM预训练目标,同时支持蛋白质理解(如结构预测)和生成任务。
3.适用场景:高精度蛋白质3D结构预测,结构、功能预测、相互作用与开发,千亿级参数量与万亿Token训练,蛋白质生成,药物分子设计与抗体优化、疫苗开发、酶工程与生物催化剂开发。
4.免费/开源:是
5.文章解读:清华大学团队重磅研究:全球首个百亿参数蛋白质统一模型xTrimoPGLM问世!
6.原文:xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins
首个千亿参数规模统一蛋白语言模型,性能超越ESM-2与ProGen2。
PAIR
(Protein Annotation-Improved Representations)
(开源链接可关注公众号后私信关键词【PAIR】获取。)
1.开发/维护方:University of Toronto, Nvidia(学术机构+企业)
2.核心功能:一种灵活的微调框架,通过让模型学习预测蛋白质的文本注释(如结构域、功能描述)来提升其表征能力。
3.适用场景:生成用于EC/GO注释、远程同源性检测及药物靶点预测的蛋白质嵌入,支持预计算、入库检索。
4.免费/开源:是
5.文章解读:多伦多大学提出PAIR:蛋白质注释增强表示学习,功能预测准确率提升超10%
6.原文:Boosting the predictive power of protein representations with a corpus of text annotations
为PLM注入文本知识的多任务微调框架,在低同源性与少样本场景下超越BLAST。
Saprot
(开源链接可关注公众号后私信关键词【Saprot】获取。)
1.开发/维护方:西湖大学、中国科学院深圳先进技术研究院、麻省理工学院等(学术机构)
2.核心功能:基于结构感知字母表,使用双向Transformer进行掩码语言建模预训练,融合序列与结构信息。
3.适用场景:用于多种蛋白预测任务(零样本突变效应、监督学习、逆折叠等);也可用于蛋白质设计、功能注释。
4.免费/开源:是
5.文章解读:西湖大学ColabSaprot:蛋白训练效率提升16倍,湿实验13个突变体增强
6.原文:Democratizing protein language model training, sharing and collaboration
将结构信息离散为token融入语言模型,在多项任务上树立了新标杆。
ProTrek
(开源链接可关注公众号后私信关键词【ProTrek】获取。)
1.开发/维护方:西湖大学、香港科技大学(广州)(学术机构)
2.核心功能:三模态对比学习模型,统一建模蛋白质序列、结构和自然语言功能描述,支持9种跨模态检索任务。
3.适用场景:用于蛋白质功能搜索(如序列→功能描述、结构→功能描述、文本→蛋白检索等);也可用于功能注释、进化分析。
4.免费/开源:是(MIT license)
5.文章解读:西湖大学/港科大三模态蛋白模型ProTrek,速度提百倍,识功能蛋白准超89%
6.原文:A trimodal protein language model enables advanced protein searches
首个将序列、结构、文本三模态统一对比学习的蛋白语言模型,支持50亿蛋白的秒级搜索。
PST
(Protein Set Transformer)
(开源链接可关注公众号后私信关键词【PST】获取。)
1.开发/维护方:University of Wisconsin-Madison(学术机构)
2.核心功能:以蛋白质为基本单元的基因组语言模型,将基因组建模为蛋白质集合,生成基因组和蛋白质的上下文嵌入。
3.适用场景:病毒基因组关系分析,病毒-宿主预测,远缘病毒蛋白功能聚类,病毒宏基因组学中的基因组和蛋白质表征学习;也适用于蛋白-蛋白互作。
4.免费/开源:开源
5.文章解读:威斯康星大学开发PST模型,10万+病毒训练,革新高多样性病毒组学研究
6.原文:Protein Set Transformer: a protein-based genome language model to power high-diversity viromics
突破了传统方法对序列相似性的依赖,为病毒组学提供通用表征基础。
SqueezeProt
(开源链接可关注公众号后私信关键词【SqueezeProt】获取。)
1.开发/维护方:McGill University(学术机构)
2.核心功能:高性能轻量蛋白质语言模型,通过严格的无数据泄露训练协议,生成高质量的蛋白质序列嵌入。
3.适用场景:用于蛋白质-蛋白质相互作用预测等下游任务,突变对结合亲和力的影响评估;抗体-抗原相互作用预测;通用蛋白质性质预测(如二级结构预测、功能注释等);零样本突变效应分析(需验证其零样本能力);用于需要严格避免数据泄露问题的公平性能评估场景。
4.免费/开源:是
5.文章解读:麦吉尔大学揭示:预训练蛋白质语言模型存在致命缺陷,导致PPI预测结果虚高11.6%
6.原文:A flaw in using pretrained protein language models in protein-protein interaction inference models
速度提升5倍,为计算生物学提供公平高效的嵌入工具。
LassoESM
(开源链接可关注公众号后私信关键词【LassoESM】获取。)
1.开发/维护方:University of Illinois Urbana-Champaign、Vanderbilt University(学术机构)
2.核心功能:在ESM-2基础上通过域自适应预训练(掩码语言建模)微调得到的套索肽专用蛋白质语言模型。
3.适用场景:底物兼容性预测,新型酶-底物对的识别,生物活性预测。
4.免费/开源:是
5.原文:LassoESM a tailored language model for enhanced lasso peptide property prediction
套索肽专用语言模型,在小样本下仍能精准预测环化酶底物兼容性和生物活性。
下篇预告:AI蛋白质资源系列:蛋白质语言模型——生成式模型
往
期
文
章

NAR(IF=13.1)|单步虚拟筛选+机器学习:AI高效设计高活性低脱靶碱基编辑器
NAR(IF=13.1)|昆士兰大学开发SGGly结构引导分析工具,N-糖基化位点预测MCC达0.888
JACS(IF=15.7)|华盛顿大学David Baker团队从头设计近红外荧光激活蛋白,激发波长892nm
NAR(IF=13.1)|韩国KRIBB联合嘉泉大学团队开发DeepKinomeWeb:一个用于激酶抑制剂筛选与选择性分析的网页平台
NAR(IF=13.1)|南加州大学开发PLATE-VS:一个免费、防数据泄漏的蛋白质-配体数据集平台
NAR(IF=13.1)|伯克利实验室发布BilboMD:一个可通过网页访问的SAXS与AlphaFold引导建模流程
NPJ Digit.Med.(IF=15.1)|中山大学中山眼科中心证实AI+蛋白组学时钟可预警4类老年眼病
Nat.Commun.(IF=15.7)|浙江大学通过机器学习增强采样工作流程,靶向固有无序蛋白AR-NTD,发现前列腺癌耐药新分子K53
Nat.Biotechnol.(IF=41.7)|韩国首尔国立大学开发蛋白质结构基序搜索工具Folddisco,速度比现有方法快20倍,存储效率高4倍
Nature(IF=48.5)|美国西北大学团队开发mHDX-MS技术,大规模解析5,778个蛋白质能量景观,AI赋能构象波动精准设计
Nat.Commun.(IF=15.7)|德国莱比锡大学团队计算改造PHL7酶,PET降解活性提升110倍+耐热达88-95℃
Nat.Biotechnol.(IF=41.7)|滑铁卢大学+清华大学研发RNovA,零样本肽段从头测序实现开放PTM发现,性能达SOTA水平
NAR(IF=13.1)|ProteinNetworkSight:批量解析蛋白共表达模式,一键生成个性化抗癌治疗策略
NAR(IF=13.1)|新工具SPSignal:结构辅助预测核转运信号,候选信号减少35-40%且灵敏度100%
NAR(IF=13.1)|酶挖掘工具EnzymeMiner 2.0全新升级:搜索空间暴增2.8倍,AI赋能酶发现再升级
Adv.Sci.(IF=14.1)|上海中医药大学团队开发机制引导机器学习框架MISPOP,从1033条肽库中筛出溶瘤肽,肿瘤抑制率超92%
Exp.Mol.Med.(IF=12.9)|韩国科学技术院团队AI设计GDF15高亲和结合蛋白,攻克癌症恶病质诊疗瓶颈
ES&T(IF=11.3)|中科院生态环境研究中心联合浙江大学开发EDC Profiler:16核受体、37万化学品高通量筛查,AUC达0.995
- end -

点赞
收藏
分享
夜雨聆风