筛多肽的三把刀:AI预测、分子对接、QSAR,到底该怎么用?-夜雨聆风

筛多肽的三把刀:AI预测、分子对接、QSAR,到底该怎么用?

同样是筛多肽，为什么有人三个月出一条候选、有人三年还在原地打转？区别往往不在工具本身，而在有没有用对工具，以及有没有把工具串成一条线。

一个真实的困惑

最近和几位做功能性多肽（抗炎、抗衰、抗菌方向）的朋友聊天，发现一个普遍现象：

大家都知道现在有三类主流方法可以做多肽筛选——机器学习预测、分子对接、QSAR。但真正动手时，问题就来了：

是先做ML预测，还是先做对接？
我手上没有靶点，能不能直接做对接？
QSAR听起来很老派，现在还有用吗？
三个方法是分着用，还是组合着用？
AlphaFold3、RFdiffusion这些新东西出来以后，老流程还要不要走？

更尴尬的是，很多人花了大量时间在一个方法上反复打磨，最后发现选错了路径——手上的数据和问题，根本不该用那把刀。

这篇文章就来把这件事讲清楚。

先打个比方：三把刀分别是干什么的

为了让后面的讨论更直观，我们先做一个类比。假设你是一家猎头公司老板，要从100万份简历里找到最适合某个岗位的人选：

方法一·机器学习预测，相当于你雇了一个经验丰富的HR。她不需要见到求职者本人，只看简历上的关键词、学历、经历，就能凭经验给每份简历打分。优点是快——一天看10万份不在话下；缺点是她的判断完全基于”过去成功的人长什么样”。如今HR还进化出了一种”AI画像师”模式（生成式AI）——不再是被动看简历，而是直接根据岗位需求画出理想候选人的样貌，让你照着去找。

方法二·分子对接（含复合物结构预测），相当于你安排了一场线下面试。求职者本人到场，和岗位的实际场景做模拟匹配，看他们站在一起合不合拍。优点是直观、有解释力——你能看到”为什么这个人合适”；缺点是慢，而且前提是你得先有一个明确的岗位。

方法三·QSAR（含其现代变体），相当于你已经有了一个还不错的候选人，现在想做”职业咨询”——告诉他”你把这段经历换个写法、再考个证书，offer机会能涨50%”。它解决的不是”找人”的问题，而是”把已有的人优化得更好“。

理解了这个类比，我们再看这三把刀在多肽筛选里到底各自能做什么、不能做什么。

第一把刀：机器学习预测——广撒网，秒级筛选

它在解决什么问题

ML方法的核心逻辑非常朴素：收集大量已知活性的多肽数据，让模型学会”什么样的序列容易有活性”，然后拿去预测新序列。

具体来说，你会从公共数据库（比如抗菌肽的APD3、DRAMP，抗炎肽的IEDB-AIE子集，AntiInflam等预测工具的训练集，抗衰肽的BIOPEP-UWM等）拉来几千上万条带活性标签的多肽，把序列丢进ESM-2、ProtBERT这类预训练蛋白语言模型做向量化，然后接一个XGBoost或者轻量级神经网络做分类（是/不是抗炎肽）或回归（活性多强）。

它的甜点场景

当你手上有很大的候选库、但暂时不需要管机制时，ML是唯一现实的选择。

举一个2021年IBM团队发在 Nature Biomedical Engineering 上的经典案例：他们用深度生成模型（CLaSS方法）生成了大约9万条候选肽序列，再用深度学习分类器+粗粒度MD做多级筛选，最终合成测试20条，其中2条对包括耐药肺炎克雷伯菌在内的多种Gram阳性/阴性菌都有效，整个流程48天走完。

注意——这里很多科普文流传的”8000万条候选”是讹传，原始论文和C&EN等媒体报道的实际数字是9万级别。真正达到亿级筛选规模的工作另有其例（如最近用 PeptideAtlas 5.5M 库的 LLAMP，以及 ProteoGPT 系列），但都是更晚的工作。

ML的新形态：从”筛”到”造”

只把ML当作分类器/回归器，是2020年前的思路。2026年的主流玩家已经在用生成式AI直接画候选肽——

序列空间生成：ProtGPT2、AMP-Designer 这类基于蛋白语言模型的生成器，可以根据指定属性（如抗菌+低毒+特定靶点）直接产出全新序列；
结构空间生成：RFdiffusion、ProteinMPNN 这类扩散/反向折叠模型，可以先指定结合口袋，再倒推出能填进去的多肽骨架——这意味着你甚至不需要先有真实的活性数据。

生成式方法部分绕开了”训练集外推差”的老问题，因为它本质上是在物理/几何约束下采样，而不是在历史数据里插值。

它的天花板

但ML（包括生成式）仍有几个绕不开的问题：

第一，可解释性弱。模型告诉你”这条肽是抗炎肽，置信度0.92″，但说不清为什么。SHAP、Attention可视化、AlphaFold结构等可以缓解一部分，但远不如直接的结合姿态图直观。

第二，过度依赖数据质量。Garbage in, garbage out——抗炎肽数据库里大量是”活性级别从μM到mM都混在一起”的脏标签，模型学完后给的”活性预测”经常没有意义。自建数据库的标注一致性，决定了模型的天花板。

第三，容易筛出”对的但不能用的”——比如抗菌活性很强但溶血性也爆表的肽，或者活性预测很高但分子量太大、根本透不过靶细胞膜的肽。这部分要靠后面的多目标过滤（毒性预测、理化性质预测）补救。

一句话总结

ML是漏斗的最上层——负责把100万缩到1000，必要时还能”凭空生成”候选；但需要靠下游工具回答”为什么好”和”能不能用”。

第二把刀：分子对接与复合物结构预测——看清”怎么结合”

它在解决什么问题

对接的逻辑和ML完全相反：它不需要任何活性数据，但必须有靶点的三维结构。

传统流程是：你给它一个多肽（用AlphaFold3、ESMFold等预测出3D结构）和一个靶蛋白（比如TNF-α、IL-6R、SIRT1、MMP-9），对接软件（HADDOCK、Rosetta FlexPepDock、AutoDock CrankPep等）会尝试上千种结合姿态，找出能量最低的那个，然后输出结合自由能ΔG作为亲和力打分。

一个重要的现状变化：AF3 正在吞掉传统对接

到2026年，对短肽-蛋白复合物，AlphaFold3（以及Boltz-1、Chai-1等同代模型）的精度已经显著超过经典对接流程。原因有两个：

AF3 直接联合预测复合物结构，避免了”先单独预测多肽构象、再硬塞进口袋”的两步累计误差；
它内部学到了大量蛋白-蛋白接触模式，对PPI界面的预测尤其稳定。

所以现在的合理做法是：先用 AF3 做复合物结构预测，再把得到的结合姿态送到 Rosetta/HADDOCK 做局部优化和重打分。纯传统对接软件的角色越来越像”细化工具”，而不是主筛工具。

它的甜点场景

靶点明确、机制清楚、候选肽不多的时候，结构预测+对接是最优解。

抗炎方向是最典型的例子：TNF-α是一个三聚体，它和受体的结合界面是一个相对平坦的PPI界面。这种界面的特点是——纯ML几乎学不会，因为它涉及精细的空间互补。这时候用 AF3 / AlphaFold-Multimer 预测多肽-TNF-α复合物，再用 MM/PBSA 重打分，是远比纯ML靠谱的策略，相关文献近几年很多。

更重要的是，结构预测的产出是可视化的结合姿态图——你能清楚看到”这条肽的第3位精氨酸插入了TNF-α的酸性口袋”。这张图既能解释机制，又能直接拿去申专利、画毕业论文。

它的天花板

但对接/结构预测也有它的坑：

第一，长柔性肽仍然难。短的、刚性的、有明显二级结构的肽（α螺旋、β发夹）效果最好。一旦肽超过20个氨基酸、且本身在水中是无序的，AF3的pLDDT/PAE置信度会明显下降。

第二，打分函数 ≠ 实际活性。无论是经典对接的ΔG、还是AF3的ipTM/PAE，它们和实测IC50/KD的相关性通常只在0.3-0.6之间。所以业内有句话：”对接看的是排名，不是绝对值。”想拿到更可靠的能量排序，还得靠 MM/PBSA、FEP+ 这类后处理。

第三，算力不便宜。AF3 跑一个复合物，单卡A100大概几分钟到几十分钟。几千条肽全跑一遍，账单很快上去。

一句话总结

对接（含AF3级结构预测）是漏斗的中层——负责把1000缩到50，并且告诉你”为什么这50条好”。

第三把刀：QSAR——已经知道方向后，告诉你怎么改

它在解决什么问题

QSAR（定量构效关系）的核心逻辑是：

在一组结构相似的多肽里（比如同一个母核的衍生物），把分子的描述符（电荷、疏水性、3D电场等）和活性做定量回归，找出”哪些结构特征决定活性”。

经典QSAR包括CoMFA、CoMSIA、HQSAR等。当它和对接结合时，可以在已知的结合构象周围做3D-QSAR——相当于在结合口袋里画一张”等势线图”，告诉你”这个位置加正电荷活性会涨、那个位置加大体积基团活性会降”。

它的甜点场景

当你已经有了一条先导多肽（lead），想做精细优化时，QSAR是黄金工具。

最经典的案例之一是ACE抑制肽（降血压方向）。1990年代，日本Calpis等团队从酪蛋白（不是乳清）发酵物里直接分离到了 IPP（Ile-Pro-Pro）和 VPP（Val-Pro-Pro），随后这两个肽被商品化用于功能性食品（如 Calpis 的 Ameal S 系列酸奶饮料）。

真正展示QSAR价值的不是这两个先导肽本身，而是它们之后的工作：研究者基于IPP/VPP做QSAR分析，发现了几条规律——

C端的疏水性残基（Trp/Pro/Phe）是关键决定因素；
N端正电荷有利于结合；
中间位置对体积比较敏感。

基于这些规律，后来又设计出了 LRW、IKP、FW 等更强的肽（活性比VPP/IPP高一个数量级以上）。QSAR的价值在”先导肽之后的精修”，而不是”凭空设计先导肽”。

抗衰领域的一个常见误读

抗衰领域大名鼎鼎的 Argireline（乙酰基六肽-3，Ac-EEMQRR-NH₂）经常被科普文当作QSAR案例引用。其实2002年Blanes-Mira等人的原始论文明确把它定性为 “rational design programme”（理性设计）的产物 ——基于SNAP-25 N端序列的功能模拟，而不是经典QSAR回归。N端乙酰化主要是为了提升肽的稳定性和经皮渗透，并不是QSAR告诉化学家”这里加乙酰基活性更高”。

把Argireline列入”基于机制的肽模拟（peptide mimetics）”或者”理性设计”案例更准确。它和QSAR属于不同思路。

QSAR 的现代变体

经典 3D-QSAR（CoMFA/CoMSIA）实操起来很痛苦——分子叠合（alignment）那一步往往把人折磨疯。所以现在的”高级玩家”更多在用：

GNN-based SAR：把肽建模成图，用图神经网络直接学结构-活性关系，不需要手动叠合；
贝叶斯优化（Bayesian Optimization）：少量实验数据迭代地告诉你”下一批合成什么”，是Active Learning流程的核心；
Free-Wilson 类加和模型：在同系列衍生物上仍然好用，且解释性强。

如果你看到一篇QSAR论文还在用CoMFA且没有补充任何现代方法对照，多半已经过时了。

它的天花板

QSAR（含现代变体）的局限性：

第一，主要在同系列内有效。如果你的多肽结构差异很大（线性肽、环肽、D型氨基酸修饰肽混在一起），传统QSAR模型直接失效；GNN稍好但也有限。

第二，数据要求。传统3D-QSAR的甜点是几十到几百条同系列衍生物；现代深度学习SAR可以吃下几千上万条，但异质性必须可控。

第三，它本质上是优化器，不是发现器。它擅长”在已有方向上精修”，不擅长”找新方向”。

一句话总结

QSAR（含现代变体）是漏斗的最底层——负责把”还不错的50条”打磨成”非常好的5条”。

容易被忽视的第四把刀：分子动力学（MD）

原版只把MD当作”最后验证一下”，其实低估了它。多肽和小分子最大的不同是——多肽在水里通常是无序的（random coil），只有结合在靶点上才形成稳定构象。这件事单靠静态对接根本看不出来。

MD能补三件事：

结合的动力学持久性：解离速率（k_off）往往比瞬间结合力更决定真实活性，尤其是抗炎/抗衰这种长效场景；
构象选择：肽在结合前/后构象差异多大、构象熵代价多少；
隐藏口袋：μs级模拟有时能揭示AF3静态结构看不到的瞬时口袋。

所以MD应该和对接一起放在”漏斗中层”，而不是只在最后做个收官。

三把刀（+MD）的本质区别：一张表看懂

维度	ML预测 / 生成式AI	对接 + 结构预测	QSAR / 现代SAR	MD
核心逻辑	序列→活性的统计映射；或物理约束下的生成	结构→物理打分	描述符→活性的定量回归	时序物理模拟
是否需要靶点	不需要（生成式可加靶点约束）	必须有	隐含需要（同系列默认同靶点）	需要（基于复合物）
数据量要求	大（千~万条）	单次计算即可	中（几十~几千条同系列）	单次计算即可
可解释性	弱~中（视方法）	强（可视化口袋）	强（描述符权重明确）	强（可看动力学）
适合阶段	早期广筛/生成	中期精筛+机制	后期lead优化	中后期验证+排序
典型工具	ESM-2、AMPlify、RFdiffusion、ProteinMPNN	AlphaFold3、HADDOCK、Rosetta	CoMFA、GNN-SAR、Bayesian Opt	GROMACS、AMBER、OpenMM

真正高手的玩法：三者（+MD）串成一条漏斗

讲到这里，你应该已经感觉到了——这些方法不是互斥的，而是天然适合串联。

成熟的多肽研发管线一般长这样：

第一关·ML广筛 / 生成：从公共库 + 自建组合库出发，凑出几十万到上百万条候选；或者直接用RFdiffusion/ProteinMPNN生成。用ML模型秒级打分，**同时过掉毒性预测、溶血性预测、理化性质（ClogP、等电点、渗透性）**这些”一票否决”项。剩下几千条。

第二关·结构预测精筛：把幸存的几千条用 AF3 / AlphaFold-Multimer 做复合物结构预测，按 ipTM / PAE / 结合自由能排序，再用 MM/PBSA 重打分，筛出 top 50-100。同时拿到结合模式可视化，机制图就有了。

第三关·MD 动力学验证：对top候选做100ns到μs级模拟，看复合物是否稳定、k_off大概什么量级。这一步会刷掉一些”对接看着好但根本结合不住”的假阳性。

第四关·QSAR / SAR 精修：对剩下的候选做3D-QSAR或GNN-SAR分析，画出等势线图或重要性热图，直接指导化学合成——”第5位Lys换成Arg、第8位Phe换成Trp、N端加乙酰基”。

第五关·闭环反馈（Active Learning）：湿实验拿到的真实活性数据，回过头去重新训练第一关的ML模型；贝叶斯优化器告诉你下一批合成哪些。模型越来越准，每一轮筛选效率越来越高。

ML解决”广度”问题，对接/AF3解决”深度”问题，MD解决”持久性”问题，QSAR解决”精度”问题。

而真正能让管线跑起来的是第五关的湿实验闭环——没有真实数据回流，前面四关都是空中楼阁。

不同方向的实战策略

最后给大家一个按方向分的速查表：

抗菌肽方向

抗菌肽的作用机制不是只有膜破坏——APD3现在已经按机制分为攻击细胞壁、碳水、核酸、核糖体等多类。但确实大量天然AMP的主要机制是膜扰动：

ML/生成式AI权重最大（IBM案例就是典型）
对接价值取决于具体机制：膜作用类用粗粒度MD更合适，胞内靶点（如LPS、脂质II、特定胞内酶）可以做对接
QSAR在物化描述符层面（净电荷、两亲性、α螺旋倾向）很有用
必做：溶血性预测 + 真核细胞毒性预测。AMP最怕”杀敌一千自损八百”，这两个模型不上，筛出来的全是毒药

抗炎肽方向

抗炎靶点很清晰（TNF-α、IL-6R、NF-κB通路相关蛋白），且大多是PPI界面：

AF3复合物预测权重最大——传统对接已经在退场
ML做前期粗筛（IEDB AIE子集是常用训练集）
QSAR/MD用于先导肽优化和持久性评估
注意：抗炎肽的口服稳定性、血脑屏障穿透性（如果是中枢炎症）是后期必须考虑的属性

抗衰肽方向

抗衰是最复杂的，因为”衰老”是多机制的（胶原降解、氧化应激、SASP炎症、神经肌肉传递、端粒维持等）：

多靶点并行：胶原合成走TGF-β/MMP对接、抗氧化走自由基清除ML回归、类肉毒素效应走SNAP-25模拟
通常一个产品需要多条肽组合，每条肽对应一个机制
皮肤渗透性是化妆品级肽的最大瓶颈——你筛出的肽活性再强，透不过角质层就是白搭。Argireline的实际功效争议大半来自这里。在管线里必须加入 logP、分子量、TPSA、渗透性预测，且真实皮肤模型（如重建皮肤）的湿实验不可省

写在最后：选对刀，比磨刀更重要

回到开头那个问题——为什么有人三个月出候选，有人三年还在原地？

答案其实很简单：他们手上的问题、数据、目标，从一开始就决定了哪把刀该先用、哪把刀该后用。

手上有大数据但没靶点 → 先ML / 生成式AI
靶点明确但候选肽少 → 直接 AF3 + 对接
已有先导肽要优化 → QSAR / GNN-SAR + MD
做完整研发管线 → 四把刀按顺序全用 + 湿实验闭环

工具本身没有高低之分，用对场景才是关键。同样重要的是几条容易被忽视的常识——

数据质量决定模型上限：自建库的标注一致性、阴阳性平衡，比换更fancy的模型重要得多
多目标过滤比单目标活性预测更接近真实：活性、毒性、稳定性、可成药性必须一起考虑
没有湿实验闭环的AI管线都是PPT：哪怕预测的IC50再准，没有回流数据，就没有迭代

希望这篇文章能帮你在下一次开组会、写标书、做项目规划时，少走一些弯路。

如果你正在做某个具体方向（抗炎/抗衰/抗菌）的多肽筛选，欢迎留言交流具体的数据库选择、工具组合和起步管线——我们后续可以针对性地写更细的实操文章。