AI蛋白质工具系列:蛋白质语言模型—

AI蛋白质工具系列:蛋白质语言模型——通用表征模型

蛋白质工具大全

AI蛋白质资源系列：蛋白质结构与功能预测——结构预测①

AI蛋白质资源系列：蛋白质结构与功能预测——结构预测②

AI蛋白质资源系列：蛋白质结构与功能预测——功能注释与突变效应①

AI蛋白质资源系列：蛋白质结构与功能预测——功能注释与突变效应②

** 如果觉得本文对你有帮助，欢迎推荐、点赞、转发支持，让更多科研小伙伴看到！如有疑问或建议，欢迎留言。

** 本文信息收集于2026年5月，如有变动请以官网为准。

** 整理不易，禁止盗用、洗稿或商业使用，如需转载，请注明来源。

** 查找资源开源链接，可关注公众号后私信资源名获取。

在AI驱动蛋白质科学的当下，蛋白质语言模型（pLMs）正成为解锁序列-功能关系的通用钥匙。通用表征模型通过海量无标记载体预训练，让模型学会蛋白质的组合规律与功能含义，无需再为每个任务从头训练。本文梳理了当下最主流的通用表征模型，涵盖学术与工业成果，助科研人员快速锁定适合自己研究的基座模型。

ESM系列

（开源链接可关注公众号后私信关键词【ESM-1v】或【ESM-2】获取。）

1.ESM-1v

1.开发/维护方：Meta AI（FAIR，企业）

2.核心功能：650M参数的Transformer模型，通过掩码语言模型对突变位点进行对数似然比评分，零样本预测单氨基酸替换对蛋白质功能的影响。

3.适用场景：零样本突变效应预测与致病性筛选（5模型集成策略提供稳健评分）、指导蛋白质定向进化、识别关键功能位点；也适用于酶功能分类与蛋白质家族聚类分析、序列设计、蛋白-蛋白互作位点预测。

4.免费/开源：开源，遵循学术非商业用途许可。

零样本突变效应预测的标杆，5个模型集成策略在蛋白质工程初筛中兼具精准与稳健。

2.ESM-2

1.开发/维护方：Meta AI（企业，现为学术开放资源）

2.核心功能：基于Transformer架构，在数千万蛋白质序列上预训练的通用蛋白质表征模型，输出每个位点的深层嵌入向量。

3.适用场景：二级结构预测、接触图预测、亚细胞定位等几乎所有蛋白质属性预测任务；作为下游任务的特征提取器或微调基座；也适用于突变效应评估、功能注释、蛋白质工程中突变体稳定性筛选与理性设计，以及蛋白质序列功能分类与家族聚类分析。

4.免费/开源：开源（MIT许可证），可商用，模型权重免费下载

目前应用最广、社区最活跃的蛋白质表征模型，15B参数版与650M轻量版各有所长，社区资料丰富。

如果任务聚焦于突变效应评估，ESM-1v的专项设计与5模型集成策略是更优选择；如果需要通用表征或结构预测等更广泛的应用，ESM-2的全能性更全。两者可以互补使用，先用ESM-1v快速筛出候选突变位点，再利用ESM-2提取Embedding进行下游深度分析。

ProtTrans家族

（开源链接可关注公众号后私信关键词【ProtBERT】或【ProtT5】获取。）

1.ProtBERT

1.开发/维护方：慕尼黑工业大学（学术机构）

2.核心功能：基于BERT架构的大规模蛋白语言模型，采用掩码语言建模（MLM）预训练，捕捉蛋白质序列的生物物理特性，输出每个氨基酸位点的深度嵌入表征。

3.适用场景：二级结构预测、亚细胞定位、膜蛋白识别、溶菌酶位点预测等蛋白质属性预测任务；酶功能分类与蛋白质家族聚类分析；作为下游任务的特征提取器或微调基座，用于酶稳定性预测、二分类预测（如蛋白-蛋白互作）等场景。也适用于蛋白-小分子结合位点预测（蛋白-小分子对接），以及蛋白-蛋白互作位点预测（蛋白-蛋白互作）。

4.免费/开源：开源，Apache 2.0许可证

2.ProtT5（Protein T5）

1.开发/维护方：慕尼黑工业大学（学术机构）

2.核心功能：基于Google T5架构的Transformer编码器-解码器模型，预训练时结合掩码语言建模（MLM）与去噪目标，可将任意长度蛋白质序列编码为1024维深度嵌入向量，也可用于序列到序列的生成任务。

3.适用场景：蛋白质属性的无MSA依赖预测（二级结构、亚细胞定位、无序区等），作为通用特征提取器为下游任务生成1024维嵌入向量；也适用于酶功能分类（蛋白-小分子）、稀有蛋白家族聚类（功能注释），以及作为序列-结构双向翻译模型（ProstT5）的基座支撑蛋白质生成任务（端到端生成）。

4.免费/开源：开源，Apache 2.0许可证

ProtBERT是最早将BERT引入蛋白质领域的模型之一，420M参数量让它在功能预测任务中仍有参考价值，适合快速原型验证与特征提取。而ProtT5是ProtTrans家族中参数量最大的通用表征模型，兼具编码与生成双重能力，在无MSA依赖的多种下游任务上首次达到或超越传统SOTA水平。

ProteinBERT

（开源链接可关注公众号后私信关键词【ProteinBERT】获取。）

1.开发/维护方：希伯来大学、内盖夫本古里安大学（学术机构）

2.核心功能：为蛋白序列设计的深度语言模型，结合掩码语言建模与GO注释预测任务，输出每个氨基酸位点的局部表征与全序列的全局表征。

3.适用场景：蛋白功能注释与GO预测，蛋白结构、翻译后修饰、生物物理属性等多维度蛋白属性预测；二级结构预测，蛋白-蛋白互作、转录因子结合位点、金属离子结合和稳定性的高精度预测；适用于低标注数据场景下的快速蛋白预测器训练，可作为编码器为多种下游任务生成蛋白序列特征。

4.免费/开源：代码开源

参数量小于ESM-2但性能接近SOTA，适合标注数据有限的场景。

Ankh

（开源链接可关注公众号后私信关键词【Ankh】获取。）

1.开发/维护方：慕尼黑工业大学+Proteinea Inc.（学术机构+企业）

2.核心功能：基于Transformer T5架构的通用蛋白质语言模型，采用动态注意力掩码策略，支持表征提取和序列生成。

3.适用场景：二级结构预测、亚细胞定位、接触图谱预测、荧光强度及突变效应评估等多种结构与功能预测任务，以及远程同源性识别与蛋白属性分类；提供嵌入API为蛋白可溶性预测、耐盐蛋白预测、DNA结合蛋白预测等下游任务构建基础表征；支持蛋白质变体生成分析，可学习蛋白质进化保守—突变趋势并引入功能多样性。

4.免费/开源：开源。

ESM系列的有力竞争者，支持生成，用途广泛。

CARP

（开源链接可关注公众号后私信关键词【FFT-PLSR】获取。）

1.开发/维护方：Microsoft Research（微软研究院）

2.核心功能：基于 CNN 卷积架构的蛋白质语言模型（ByteNet编码器），通过掩码语言建模预训练，支持超长序列，输出蛋白质深层嵌入表征。

3.适用场景：零样本突变效应评估、超长蛋白序列处理、蛋白质结构预测、适应性评估、荧光及稳定性预测；也适用于跨域泛化与蛋白属性分类，以及与其它PLM集成用于蛋白-蛋白互作、蛋白-小分子对接。

4.免费/开源：开源（BSD 3-Clause），模型免费下载

零样本突变预测性能略优于ESM-1v，原生支持超长序列，计算资源有限或长蛋白任务时可选。

LucaOne

（开源链接可关注公众号后私信关键词【LucaOne】获取。）

1.开发/维护方：阿里云智能飞天实验室、中山大学医学院、复旦大学、浙江大学药学院等（学术机构+企业）

2.核心功能：统一处理核酸（DNA/RNA）与蛋白质序列的生物基础模型，通过改进的Transformer架构实现跨分子类型的深度语义表征。

3.适用场景：通用生物序列特征提取；基因分类、蛋白定位、热稳定性、ncRNA家族分类等下游任务；蛋白-蛋白互作与ncRNA-蛋白互作预测；蛋白质功能注释、稳定性评估与突变效应预测；零样本/小样本生物计算；蛋白质理性设计与稳定性筛选（序列设计）；融合核酸序列的蛋白-核酸复合物分析（全原子复合物预测）。

4.预训练数据集：CNGB序列档案库 (CNSA) ，登录号CNP0007266

5.免费/开源：是

6.文章解读：阿里云发布首个统一核酸-蛋白质大模型LucaOne，多任务准确率超越现有方法20%以上

7.原文：Generalized biological foundation model with unified nucleic acid and protein language

首个DNA-RNA-蛋白统一表征模型，跨模态性能SOTA，适合融合核酸-蛋白联合分析的科研场景。

Prot2Token

（开源链接可关注公众号后私信关键词【Prot2Token】获取。）

1.开发/维护方：University of Missouri、Politecnico di Milano（学术机构）

2.核心功能：基于自回归框架的蛋白质语言模型，通过后训练对齐实现多种蛋白预测任务的统一处理，包括结构相似性、突变稳定性、PTM位点等。

3.适用场景：多任务统一建模与联合学习（序列/残基级任务），可作为框架便捷接入ESM-2等现有PLM实现端到端微调；蛋白-蛋白互作与蛋白-配体结合位点预测（蛋白-小分子对接）；通过3D结构词元预测构建结构感知PLM，辅助结构预测任务。

4.免费/开源：代码开源

新兴的统一框架，将多种预测任务整合到一个模型中。

xTrimoPGLM

（开源链接可关注公众号后私信关键词【xTrimoPGLM】获取。）

1.开发/维护方：BioMap Research、清华大学（企业+学术机构）

2.核心功能：1000亿参数的统一蛋白质语言模型，通过联合优化MLM和GLM预训练目标，同时支持蛋白质理解（如结构预测）和生成任务。

3.适用场景：高精度蛋白质3D结构预测，结构、功能预测、相互作用与开发，千亿级参数量与万亿Token训练，蛋白质生成，药物分子设计与抗体优化、疫苗开发、酶工程与生物催化剂开发。

4.免费/开源：是

5.文章解读：清华大学团队重磅研究：全球首个百亿参数蛋白质统一模型xTrimoPGLM问世！

6.原文：xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins

首个千亿参数规模统一蛋白语言模型，性能超越ESM-2与ProGen2。

PAIR

（Protein Annotation-Improved Representations）

（开源链接可关注公众号后私信关键词【PAIR】获取。）

1.开发/维护方：University of Toronto, Nvidia（学术机构+企业）

2.核心功能：一种灵活的微调框架，通过让模型学习预测蛋白质的文本注释（如结构域、功能描述）来提升其表征能力。

3.适用场景：生成用于EC/GO注释、远程同源性检测及药物靶点预测的蛋白质嵌入，支持预计算、入库检索。

4.免费/开源：是

5.文章解读：多伦多大学提出PAIR：蛋白质注释增强表示学习，功能预测准确率提升超10%

6.原文：Boosting the predictive power of protein representations with a corpus of text annotations

为PLM注入文本知识的多任务微调框架，在低同源性与少样本场景下超越BLAST。

Saprot

（开源链接可关注公众号后私信关键词【Saprot】获取。）

1.开发/维护方：西湖大学、中国科学院深圳先进技术研究院、麻省理工学院等（学术机构）

2.核心功能：基于结构感知字母表，使用双向Transformer进行掩码语言建模预训练，融合序列与结构信息。

3.适用场景：用于多种蛋白预测任务（零样本突变效应、监督学习、逆折叠等）；也可用于蛋白质设计、功能注释。

4.免费/开源：是

5.文章解读：西湖大学ColabSaprot：蛋白训练效率提升16倍，湿实验13个突变体增强

6.原文：Democratizing protein language model training, sharing and collaboration

将结构信息离散为token融入语言模型，在多项任务上树立了新标杆。

ProTrek

（开源链接可关注公众号后私信关键词【ProTrek】获取。）

1.开发/维护方：西湖大学、香港科技大学（广州）（学术机构）

2.核心功能：三模态对比学习模型，统一建模蛋白质序列、结构和自然语言功能描述，支持9种跨模态检索任务。

3.适用场景：用于蛋白质功能搜索（如序列→功能描述、结构→功能描述、文本→蛋白检索等）；也可用于功能注释、进化分析。

4.免费/开源：是（MIT license）

5.文章解读：西湖大学/港科大三模态蛋白模型ProTrek，速度提百倍，识功能蛋白准超89%

6.原文：A trimodal protein language model enables advanced protein searches

首个将序列、结构、文本三模态统一对比学习的蛋白语言模型，支持50亿蛋白的秒级搜索。

PST

(Protein Set Transformer)

（开源链接可关注公众号后私信关键词【PST】获取。）

1.开发/维护方：University of Wisconsin-Madison（学术机构）

2.核心功能：以蛋白质为基本单元的基因组语言模型，将基因组建模为蛋白质集合，生成基因组和蛋白质的上下文嵌入。

3.适用场景：病毒基因组关系分析，病毒-宿主预测，远缘病毒蛋白功能聚类，病毒宏基因组学中的基因组和蛋白质表征学习；也适用于蛋白-蛋白互作。

4.免费/开源：开源

5.文章解读：威斯康星大学开发PST模型，10万+病毒训练，革新高多样性病毒组学研究

6.原文：Protein Set Transformer: a protein-based genome language model to power high-diversity viromics

突破了传统方法对序列相似性的依赖，为病毒组学提供通用表征基础。

SqueezeProt

（开源链接可关注公众号后私信关键词【SqueezeProt】获取。）

1.开发/维护方：McGill University（学术机构）

2.核心功能：高性能轻量蛋白质语言模型，通过严格的无数据泄露训练协议，生成高质量的蛋白质序列嵌入。

3.适用场景：用于蛋白质-蛋白质相互作用预测等下游任务，突变对结合亲和力的影响评估；抗体-抗原相互作用预测；通用蛋白质性质预测（如二级结构预测、功能注释等）；零样本突变效应分析（需验证其零样本能力）；用于需要严格避免数据泄露问题的公平性能评估场景。

4.免费/开源：是

5.文章解读：麦吉尔大学揭示：预训练蛋白质语言模型存在致命缺陷，导致PPI预测结果虚高11.6%

6.原文：A flaw in using pretrained protein language models in protein-protein interaction inference models

速度提升5倍，为计算生物学提供公平高效的嵌入工具。

LassoESM

（开源链接可关注公众号后私信关键词【LassoESM】获取。）

1.开发/维护方：University of Illinois Urbana-Champaign、Vanderbilt University（学术机构）

2.核心功能：在ESM-2基础上通过域自适应预训练（掩码语言建模）微调得到的套索肽专用蛋白质语言模型。

3.适用场景：底物兼容性预测，新型酶-底物对的识别，生物活性预测。

4.免费/开源：是

5.原文：LassoESM a tailored language model for enhanced lasso peptide property prediction

套索肽专用语言模型，在小样本下仍能精准预测环化酶底物兼容性和生物活性。

下篇预告：AI蛋白质资源系列：蛋白质语言模型——生成式模型

往

期

文

章

NAR（IF=13.1）|单步虚拟筛选+机器学习：AI高效设计高活性低脱靶碱基编辑器

NAR（IF=13.1）|昆士兰大学开发SGGly结构引导分析工具，N-糖基化位点预测MCC达0.888

JACS（IF=15.7）|华盛顿大学David Baker团队从头设计近红外荧光激活蛋白，激发波长892nm

NAR（IF=13.1）|韩国KRIBB联合嘉泉大学团队开发DeepKinomeWeb：一个用于激酶抑制剂筛选与选择性分析的网页平台

NAR（IF=13.1）|南加州大学开发PLATE-VS：一个免费、防数据泄漏的蛋白质-配体数据集平台

NAR（IF=13.1）|伯克利实验室发布BilboMD：一个可通过网页访问的SAXS与AlphaFold引导建模流程

NPJ Digit.Med.（IF=15.1）|中山大学中山眼科中心证实AI+蛋白组学时钟可预警4类老年眼病

Nat.Commun.（IF=15.7）|浙江大学通过机器学习增强采样工作流程，靶向固有无序蛋白AR-NTD，发现前列腺癌耐药新分子K53

Nat.Biotechnol.（IF=41.7）|韩国首尔国立大学开发蛋白质结构基序搜索工具Folddisco，速度比现有方法快20倍，存储效率高4倍

Nature（IF=48.5）|美国西北大学团队开发mHDX-MS技术，大规模解析5,778个蛋白质能量景观，AI赋能构象波动精准设计

Nat.Commun.（IF=15.7）|德国莱比锡大学团队计算改造PHL7酶，PET降解活性提升110倍+耐热达88-95℃

Nat.Biotechnol.（IF=41.7）|滑铁卢大学+清华大学研发RNovA，零样本肽段从头测序实现开放PTM发现，性能达SOTA水平

NAR（IF=13.1）|ProteinNetworkSight：批量解析蛋白共表达模式，一键生成个性化抗癌治疗策略

NAR（IF=13.1）|新工具SPSignal：结构辅助预测核转运信号，候选信号减少35-40%且灵敏度100%

NAR（IF=13.1）|酶挖掘工具EnzymeMiner 2.0全新升级：搜索空间暴增2.8倍，AI赋能酶发现再升级

Adv.Sci.（IF=14.1）|上海中医药大学团队开发机制引导机器学习框架MISPOP，从1033条肽库中筛出溶瘤肽，肿瘤抑制率超92%

Exp.Mol.Med.（IF=12.9）|韩国科学技术院团队AI设计GDF15高亲和结合蛋白，攻克癌症恶病质诊疗瓶颈

ES&T（IF=11.3）|中科院生态环境研究中心联合浙江大学开发EDC Profiler：16核受体、37万化学品高通量筛查，AUC达0.995

- end -