
一句话导读:当 AlphaFold 一次性丢出 2 亿多个蛋白质结构,你想从中找出"具有同一种催化活性位点"的所有同伴,旧工具一晚上跑不完——Folddisco 把这件事的速度提升 20 倍、存储压成 1/4,还更准。 |
20 倍提速!AI 横扫蛋白质宇宙,
找「功能基序」的新王者 Folddisco
Structural motif search across the protein universe with Folddisco
|
📊 核心数据一目了然
20× 查询速度提升 | 1/4 索引存储空间 | 2.14亿 AlphaFoldDB |
⏱️ 实测对比:检索 5000 万结构的蛋白宇宙,pyScoMotif 需要构建 5TB 索引、跑约 10 天;Folddisco 只用 1TB 索引、约 1 天搞定。索引一次、终身可用。 |
🧬 为什么我们需要"功能基序搜索"?
蛋白质的功能往往不靠"整条链",而是靠几个关键氨基酸残基组成的「结构基序」(structural motif)—— 它们在三维空间里恰好凑成一个口袋、一对锌指、一个催化三联体。换句话说,真正决定功能的,是几颗散落各处却空间相邻的「钥匙残基」。
问题来了:AlphaFold 已经吐出 2 亿多个预测结构,ESM Atlas 又添了 7 亿多个宏基因组结构。如果你想问一个再朴素不过的问题——
💭 "在整个已知蛋白质宇宙里,谁还带着跟丝氨酸蛋白酶一模一样的 Ser-His-Asp 催化三联体?" |
旧工具(pyScoMotif、RCSB Structure Motif Search、MASTER)会先把每个候选结构暴力对齐一遍,再算 RMSD,跑到一半就显示"预计还需 8 天"。
这就是 Folddisco 想终结的痛点:让"全宇宙找钥匙"变成秒级查询。

图 1. Folddisco 的查询流程与基准测试 | a 用户提交查询基序(左),系统在数据库中返回完全匹配、跨链匹配和部分匹配;b 把每对残基的几何特征(距离 + 侧链方向 + 主链扭转角)编码为整数 ID 存入倒排索引;c 罕见度评分系统先做粗筛、再做精细残基匹配;d-h 在锌指、催化位点、SCOPe 同家族识别等基准上全面优于 pyScoMotif、RCSB、MASTER,速度优势 10-20 倍。
🔧 Folddisco 是怎么做到的?三招破局
① 把残基对编码成"几何指纹"
把基序里任意两个残基的相对位置,拆成 5 个几何特征:
• 距离:Cα-Cα 距离 + Cβ-Cβ 距离 • 方向:两个残基的侧链朝向夹角 • 扭转:主链 φ/ψ 角 • 残基类型:氨基酸 1 + 氨基酸 2 的组合 |
这 5 个特征经过离散化后被压缩成一个 32 位整数 ID(如示例中的 "45683")。每一对残基都是一个 ID,每个 ID 都能反查到所有"长得像它"的蛋白质。这就是 Folddisco 的"几何指纹索引"——把空间问题变成查字典问题。
② 用"罕见度"给候选排序
常见特征(比如普通 α-helix 里的相邻残基)几乎人人都有,留作鉴别意义不大;而稀有的几何组合(比如锌指里那种 Cys-His 反平行夹角)才是真正的"功能信号"。
Folddisco 借鉴了信息检索里经典的 IDF(逆文档频率)思想:越罕见的指纹权重越高。预筛阶段就能把 99% 的"无聊候选"刷掉,只把剩下 1% 送进精细比对。
③ 位置无关 + 跨链 + 部分匹配
✅ 位置无关:基序残基不需要按序列顺序连续,可以分散在 N 端和 C 端 |

补图 1. Folddisco 详细工作流(对 Fig 1a-c 的扩展)| a 查询基序的特征提取与编码 → b 数据库索引构建(倒排表)→ c 罕见度评分(基于 IDF)的预筛 → d 精细残基匹配 + RMSD 输出。整个过程对用户屏蔽细节,只需输入"基序坐标"。
🏆 基准测试:全维度碾压
作者用三套独立基准做了硬碰硬对比:

补图 2. 跨数据库 + 跨 CPU 核心数的索引构建时间 | 在 Swiss-Prot、人类蛋白质组、AFDB50 三个数据库上,Folddisco 的索引构建时间随 CPU 核数线性下降;即便是 5000 万结构的 AFDB50,使用 64 核也能在 24 小时内完成索引。
🔬 真实应用案例:三类基序、三种惊喜

图 2. Folddisco 三大真实场景 | a 用经典锌指基序(PDB 1G2F)跨库扫描,从 AlphaFold DB 中召回太平洋牡蛎未注释蛋白 K1RNK4 的双锌指、从 ESM30 召回宏基因组锌指、并在大肠杆菌肽脱甲酰酶中找到"反向"的部分匹配;b GPCR 构象变化:用 NPxxY/CWxP/DRY 三组保守基序识别活化态与非活化态 GPCR;c 蛋白-蛋白相互作用界面:以免疫球蛋白 λ-轻链为查询,跨链命中抗 IFNγ scFv 抗体的同源界面。
① 锌指基序:跨物种"反向匹配"也能识别
作者拿 C2H2 型锌指(PDB 1G2F)的 4 个关键残基(F207-C212-F225-C229,含两组 Cys-His 配位)做查询,Folddisco 在 2.14 亿条 AlphaFold 结构里:
✅ 在太平洋牡蛎一个未注释蛋白(UniProt K1RNK4)中找到完整双锌指——AlphaFold3 验证锌配位正确 ✅ 在 ESM Atlas 宏基因组结构(污水来源)中找到全新锌指 ✅ 在大肠杆菌肽脱甲酰酶(UniProt P0A6K3)中找到"残基顺序反过来"的部分锌指——人类标注库从未识别 |
为什么重要?传统序列比对会因氨基酸顺序反转而错过,结构对齐工具会因整体折叠不同而错过——只有 Folddisco 的"位置无关 + 部分匹配"能捞出这种隐藏的功能拷贝。这意味着基因组里可能还藏着大量"被错过"的金属结合蛋白。
② GPCR 双构象识别:精准区分"开"与"关"
G 蛋白偶联受体是药物靶点的金矿,但同一受体的活化态 vs 非活化态结构差异极其细微——只有 DRY、CWxP、NPxxY 三个微基序的相对位置不同。
作者用活化态 GPCR(PDB 6LFO)的三组微基序做查询:
🎯 仅命中 PDB 中其他活化态 GPCR(如 β3 肾上腺素受体 PDB 7XJI),完全过滤掉非活化态(β2 PDB 6PS5 + propranolol) |
③ PPI 界面搜索:抗体设计的新捷径
作者拿免疫球蛋白 λ-轻链与 κ-可变区(PDB 4G3Y)的相互作用界面残基做查询。Folddisco 跨链识别到一个完全不同来源、不同折叠骨架的同源 PPI 界面:抗 IFNγ 单链抗体 scFv(UniProt A2KBC7)。
这等于给抗体工程师指了一条新路:要找"长得像目标界面"的备选 scaffold,不必从头训练 ML 模型,直接基序搜一搜,全世界数据库给你筛。
④ 双基序联合搜索:定位"多功能调控点"
蛋白质常有多个独立的功能位点——比如血红蛋白的异构调控位点(10 残基)+ 活性位点(4 残基)。Folddisco 支持把这 14 个残基同时作为一个组合基序提交查询,一次性识别那些"既有活性又能被别构调控"的同伴。
⚖️ 与 Foldseek、AlphaFold 的关系
| AlphaFold | ||
| Foldseek | ||
| Folddisco |
💡 Foldseek vs Folddisco 的本质差别:Foldseek 问的是"哪些蛋白长得像?",Folddisco 问的是"哪些蛋白的功能口袋长得像?"。前者适合做远缘同源识别,后者直击酶催化、配体结合、PPI 界面这些真正与药物设计相关的子问题。 |

补图 3. 灵敏度 vs 运行时长的权衡 | 通过调整距离离散化的分箱数量,Folddisco 可在"高灵敏度(默认/Sensitive 模式)"与"极速预筛"之间灵活切换;M-CSA 子集测试表明,默认参数已能在数秒内达到接近最优的灵敏度,无需进一步调参。
🚀 意义与未来展望
▸ 对药物发现:找新的酶替代品、找未注释的金属结合位点、找类似 GPCR 活化构象的潜在靶点,从此都是"秒级查询"。 ▸ 对蛋白质设计:当你设计了一个全新的活性位点,可以瞬时反查"自然界是否已经独立进化出过类似结构"——既是验证,也是灵感来源。 ▸ 对宏基因组挖掘:ESM Atlas 里 7 亿个未注释结构,过去只能"看个折叠"。现在可以"按功能基序点名"——找抗菌肽、找 CRISPR 类核酸酶、找新型自组装支架。 ▸ 对教学与开放科学:作者把 Folddisco 做成了在线 webserver(search.foldseek.com/folddisco),普通研究者用浏览器就能查询整个 AlphaFold 宇宙,零代码门槛。 |
🔗 数据与代码
📦 开源代码(GPLv3):https://folddisco.foldseek.com 🌐 在线网页版:https://search.foldseek.com/folddisco 📂 基准数据集:Zenodo DOI 10.5281/zenodo.18443780 🛠️ 分析脚本:github.com/steineggerlab/folddisco-analysis |
👥 关于团队
Martin Steinegger 实验室位于韩国首尔大学生命科学院 + 生物信息学跨学科项目 + 人工智能研究所。该组是结构生物信息学领域的明星——前作 MMseqs2(序列搜索)和 Foldseek(结构搜索)已成为全球分子生物学家的标配工具,本次的 Folddisco 延续了"快、准、开源"的家族基因。 📧 通讯邮箱:martin.steinegger@snu.ac.kr |
🔬 AI 辅助药物发现 每日精读 AI × 生物医学顶刊论文 · 关注我们解锁更多前沿 |
夜雨聆风