(AI制药解析2)当AI能5分钟做出一个蛋白复合体结构,意味着什么?

一键预测全类生物分子结构，AlphaFold 3不是终点，结构生物学的下半场才刚刚开始

我有个师兄读博四年，只做了一个膜蛋白结构。他养了一年多细胞，纯化了两年蛋白。长晶体长到第三年，才出一颗能用的样品。送同步辐射、解相位、优化结构，等他答辩当天，PDB编号才刚批下来。

2024年5月8日，DeepMind和同构实验室在《自然》发了论文。论文题目是《AlphaFold 3精准预测生物分子互作结构》。同一天，alphafoldserver.com上线。全球研究者点几下鼠标，几分钟就能拿到蛋白复合物预测结构。除了蛋白，DNA、RNA、小分子配体、金属离子、糖基化修饰都能算。

我师兄那篇博士论文的核心成果，现在本科生开个浏览器标签页就能复刻。

这篇文章探讨几个核心问题： AlphaFold 3到底怎么"猜"结构？和2020年的AlphaFold 2有什么差异？为什么这次选了扩散路径？它真的无所不能吗？

博士生四年磨一个结构

1958年，剑桥学者John Kendrew用X射线衍射解出首个蛋白结构。是一头鲸的肌红蛋白。那篇《自然》论文里，肌红蛋白画成一盘盘卷起来的香肠。 Kendrew后来拿了1962年诺贝尔化学奖。磨结构这门手艺，从此有了起点。

之后的几十年，解结构一直是苦力活。要知道一段氨基酸序列怎么折叠，得先纯化对应蛋白、长晶体、送同步辐射，再花几个月解相位。博士生四年做一个结构是常态。

冷冻电镜（cryo-EM） 2017年拿了诺奖。它靠液氮急冻样品，用电子显微镜拍照重建三维结构。膜蛋白的解析难度才降了一点，但纯化和数据处理还是很慢。 核磁共振（NMR） 靠原子周围的核磁信号反推距离约束，只适合小蛋白。

1972年学者Christian Anfinsen拿诺奖时，致辞里提了一个判断。业内叫安芬森教条（Anfinsen dogma）：生理环境下，蛋白只靠氨基酸序列就能决定三维结构，不需要额外遗传指令。也就是说，理论上只要知道序列，结构就是唯一确定的。

但1969年学者Cyrus Levinthal提了反向提醒，业内叫莱文索尔悖论。一条100个残基的肽链，每个二面角随机试一遍，构象空间是10^300量级。试完的时间比宇宙年龄还长。但真实蛋白几毫秒到几秒就能折好。说明折叠肯定不是穷举，背后有局部规则提前压缩了搜索空间。

这两个结论一个给希望，一个泼冷水。序列决定结构，说明可以靠计算得到。但搜索空间太大，没人知道怎么算。之后50年，主流研究走了两条路。

一条是David Baker团队的Rosetta软件。 2000年前后由华盛顿大学蛋白质设计研究所开发。核心逻辑是拼小片段、用能量函数排序、蒙特卡洛算法搜全局最小值。 2010年前后，这条路能做到中等精度。

另一条是CASP蛋白结构预测竞赛。 1994年开始，每两年办一届盲测。组委会选一批刚解出但未公开的实验结构，让全球算法盲算再公开打分。 2018年CASP13大赛，DeepMind第一次带AlphaFold 1参赛。最难类目中位GDT_TS得分约58.9，比第二名高不少，但还达不到可用精度。

2020年11月CASP14大赛，AlphaFold 2把中位GDT_TS拉到92.4分。组委会主席John Moult闭幕时说：这个问题在这里就算解决了。 88个最难的自由建模域中，AF2在87个上达到可用精度。做了三十年结构的资深学者群当晚一片沉默，不少实验室要重新调整研究方向。

AF2把精度拉到92.4分

AF2 2021年7月正式发表，权重当天就开源。要懂AF3的改动，得先弄清AF2的技术路径。

AF2的输入是一段氨基酸序列。它不会直接画结构，先去UniRef这类几亿条的蛋白序列库，搜出几百到几千条同源序列，拼成一张表，叫多序列比对（MSA）。就是把同源蛋白对齐排成一列，看哪些位置保守，哪些位置在不同物种里同步突变。

为什么要做多序列比对？两个氨基酸如果在三维结构里挨着，进化压力会让它们同步突变。一边变了，另一边为了适配也要变。这种共变信号就埋在MSA里。 AF2之前的trRosetta、AlphaFold 1，都是从MSA里挖共变信号。

AF2的主干叫Evoformer，是48层注意力模块。它反复更新两类信息：一类是MSA表征，行是同源序列，列是位置。另一类是配对表征，存残基i和残基j之间的距离、角度信息。两类信息轮流传消息，配对表征里加入三角注意力、三角乘法等几何约束，最后提炼出两两残基之间的几何先验。

之后接结构模块不变点注意力（IPA）。这是一种在3D点云上做的几何注意力，旋转或平移整个分子，结果不变。 IPA把每个残基放进局部坐标系，反复用注意力互作，直接输出每个原子的3D坐标。

训练时用FAPE损失。这是一种坐标系无关的位置损失，把预测原子放到真实参考坐标系里逐个比距离。整套系统端到端可微，满足SE(3)等变性。网络结构本身就能保证，输入旋转，输出也会跟着旋转，不用靠数据增强教模型。

这套架构非常工整，但有两个限制，让AF2只能算蛋白。第一，IPA专为20种标准氨基酸的几何骨架设计。要扩展到DNA、RNA、小分子，得为每种新分子重写一套几何处理逻辑。第二，FAPE的几何先验把注意力锁死在残基刚体层级，要推到原子级精度就会受限。

后来DeepMind推出AlphaFold-Multimer处理蛋白-蛋白复合物，还有内部版本AlphaFold-Latest能跑配体。但要做到一个模型搞定全部生物分子，AF2的几何骨架已经改不动了。

AF3重写了整条流水线

2024年5月上线的AF3，从输入到输出整条流水线全部重写。最核心的改动有两个。

第一个改动：Evoformer缩成Pairformer。 AF3把MSA处理模块从48层砍到4层。 MSA只在最开始过一遍，把共变信号提炼到配对表征上就退出。剩下48层叫Pairformer，只处理配对表征和单残基表征这两路，不再反复迭代MSA。

Pairformer不是Evoformer换个名字那么简单。 AF2 Evoformer里把单链表征反向打回配对表征的外积均值模块没了。沿MSA列方向的列注意力也没了。 AF3主干彻底不再维护MSA表征。保留下来的是三角注意力、三角乘法这套对配对表征做几何约束的机制。这个改动直接砍掉大量算力，也让模型对MSA质量差的输入更宽容，比如孤儿蛋白、人工设计蛋白。

第二个改动更彻底：IPA加FAPE整块换成扩散去噪。 这个逻辑得拆开说。

熟悉图像生成的人应该知道去噪扩散概率模型（DDPM）。 Stable Diffusion、DALL·E、Midjourney都用这套逻辑。简单说就是：先给清晰照片一层层加高斯噪声，直到变成纯雪花。再训练网络学怎么把雪花一点点擦掉，每擦一步恢复一点细节。推理时给网络一张纯雪花，让它一步步擦，最后出来一张全新的照片。

AF3把这套逻辑搬到了原子坐标预测上。

训练时，给真实蛋白复合物的所有原子坐标加不同强度的高斯噪声。低噪声让网络学局部几何，比如键长键角。高噪声让网络学全局拓扑，比如结构域之间的位置关系。网络的任务是，给定加噪后的坐标和Pairformer输出的配对表征，预测每个原子该往哪个方向回到真实位置。

推理时，先给一团纯噪声原子云，每个点带碳、氮、氧、磷等类型标签。让网络一步步把这团云去噪成真实结构。

这个改动看起来只是换了个技术路径，但实现了三件AF2做不到的事：

第一是统一表征。 AF2的IPA专为氨基酸骨架定制。 AF3的扩散模块不管输入是氨基酸、核苷酸还是ATP里的一个碳，都当成带类型标签的原子云处理。

AF3内部把蛋白、核酸、小分子统一为两级表征：上层是token级，一个氨基酸或核苷酸算一个token，小分子和修饰部分每个原子单独算一个token。下层是原子级，每个原子单独建模。这套架构第一次让一个模型既能算蛋白-蛋白、蛋白-DNA、蛋白-小分子，还能算金属离子和糖基化修饰。

第二是几何不变性靠数据学习。 AF2的IPA是硬约束，网络结构本身保证SE(3)等变性。 AF3的扩散模块是软约束，网络不再显式等变。靠训练时大量随机旋转、平移的数据增强，让网络自己学到等变特性。代价是同一个输入旋转后，AF3可能给出略有不同的输出。好处是网络更灵活，能容纳更多类型的分子。

第三是生成式特性带来不确定性，要多次采样再排序。 AF2一个输入对应一个确定输出。 AF3每次推理结果都不同，因为扩散过程本身有噪声。默认做法是跑5个随机种子，每个种子采样5次，一共得到25个候选结构。再用独立的置信度头给每个候选打分，指标包括pLDDT每残基置信度、PAE残基间误差预测、ipTM/PTM整体复合物对接质量。最后按排名分数排序选最优。

这个排名分数不是黑箱。 AF3的GitHub文档公开了公式：0.8 × ipTM + 0.2 × pTM + 0.5 × disorder − 100 × has_clash。界面质量ipTM权重0.8，整体结构pTM权重0.2。只要任意两条链原子穿模超过100个，或者超过50%的链原子相撞，就触发穿模惩罚，直接扣100分。分数范围在-100到1.5之间。

药企的BD、CADD团队要拿AF3输出做决策，得看ipTM是否超过0.8，也就是高质量界面。 pTM是否超过0.5，也就是整体折叠可信。界面分低于0.6的基本要谨慎。这套做法从图像生成领域搬来，采样多个候选再选最优，和AF2一次输出的思路完全不同。

训练还有几个细节。 AF3的训练数据截止到2021年9月30日。 PDB在那之后存的近3年新结构，都没进训练集。训练用384个token的裁剪窗口，再微调到640、768个token，单卡 batch 256。整套训练用TPU跑了数周，DeepMind没公开具体卡时。推理门槛低很多，一块NVIDIA A100 80G就能跑4352个token以内的复合物。学术圈拿到代码立刻就能本地复现。

AF3真的无所不能？

AF3上线那一周，整个药化圈都去官网跑自己的项目复合物。把已知小分子配体放进去对接，看能不能复现已知的结合姿态。

跑出来的结果符合预期。常规蛋白-蛋白对接比AlphaFold-Multimer 2.3好很多。抗体-抗原界面平均DockQ从0.325升到0.422，提升约30%。蛋白-DNA、蛋白-RNA预测效果比专门的核酸预测器好。蛋白-小分子对接在PoseBusters评测里成功率约76%，比AutoDock Vina、Glide这些传统物理对接工具好。

这个数字一公布，计算机辅助药物设计（CADD）圈先躁动。传统对接软件一年给药企算几百万次复合物，AF3的对接成绩如果稳定，整套商业模式都要重排。

但AF3不是没有能力边界。

第一个边界是生成幻觉。无序区域、天然无序蛋白这类没有固定构象的序列，AF3经常会"编"出一个看似有序的螺旋或片层结构，还给出较高的pLDDT分数。但这类序列在真实生物体内是软的，没有固定构象。 2024到2025年有好几篇论文专门量化这个问题。也就是说，pLDDT高不等于结构正确，只等于模型自己认为正确。

第二个边界是评测基准的争议。牛津大学Buttenschoen团队2024年在《化学科学》发了论文。用308个2021年之后发布的蛋白-配体复合物做基准，除了RMSD≤2埃的要求，还加入物理合理性检查，重新评测AF3的小分子对接能力。

结论是：目标蛋白和PDBbind 2020训练集的最大序列相似度低于30%时，深度学习对接几乎拿不出同时满足2埃精度和物理合理性的姿态。 AF3的一部分对接能力，是识别训练时见过的相似配体。这套评测还测出AF3有4.4%的立体化学违规率。

第三个边界是训练数据截止到2021年9月30日。 2021年10月之后实验解出的新折叠，比如特殊折叠的设计蛋白、新发现的天然蛋白家族，AF3都没见过。要预测真正未知的新蛋白，AF3也没把握。

第四个边界是不输出亲和力，也不模拟动力学。 AF3只给结构坐标和置信分，不给结合常数、自由能、结合解离速率，也不输出分子动力学轨迹。相分离、构象切换、变构调控、磷酸化导致的功能态切换这些问题，AF3都回答不了。 2025年6月MIT团队发布Boltz-2，专门把结合亲和力当成显式任务做，就是补AF3的缺口。

监管端截至2026年5月，公开渠道没有明确表态，认可AF3计算结构作为IND申报的独立支持证据。当前AF3在监管层面更适合做假设生成和结构辅助，不能直接当申报材料。

第五个边界是商业访问限制。 AlphaFold Server免费但限速，每个学术账号每天最多跑30个任务，单任务上限5000个token。不预测水分子、氢原子，也不感知膜平面。膜蛋白、金属配位水、氢键网络这些结果，不要指望官网服务器直接输出。

服务条款明确禁止商业用途，禁止用输出训练其他结构预测模型，禁止把输出导入对接、虚拟筛选工具。代码2024年11月上传GitHub，许可证是CC BY-NC-SA 4.0。权重需要学术身份单独申请，不能二次分发。商业访问权由同构实验室独家持有。

30亿美刀押注新赛道

商业化端的节奏非常快。 2024年1月7日，同构实验室一天签了两笔合作。礼来预付4500万美元，里程碑上限17亿美元。诺华预付3750万美元，里程碑上限12亿美元。两笔合计潜在总金额约30亿美元，这是上限不是已到账收入。

2026年5月12日，Thrive Capital领投21亿美元B轮融资。 Alphabet和GV跟投，MGX、淡马锡、CapitalG、英国主权AI基金新进。这笔钱将用于升级IsoDDE药物设计引擎、全球扩张、推进自有管线进入临床。公司公开表示，2026年内要把首个AI设计的小分子推进I期临床。

AF3的出现，对国内AI制药公司来说五味杂陈。

一方面，一个模型搞定全类生物分子结构的路径已经被验证。各家AI制药公司原来靠AF2加自研对接模块拼出来的管线价值缩水。你能做的，AlphaFold Server开个标签页也能做。

另一方面，因为商业限制，国产开源复现成了必须走通的路。 2024年8月，百度螺旋桨PaddleHelix团队推出HelixFold 3，号称全球首个完整复现AF3的开源版本。在小分子、核酸、蛋白互作上的指标对标DeepMind。

2026年2月，字节跳动旗下的Protenix-v1以Apache 2.0协议全开源，代码和权重都开放。在和AF3同等训练数据截止时间、同等模型尺寸的前提下，指标超过AF3。两个月后又推出Protenix-v2，参数464M，抗体-抗原对接和小分子合理性指标再提升一档。这两条国产路线，已经把AF3权重不公开的护城河填平了，至少在学术和开源使用层面是这样。

海外开源端也动作不断。 MIT Jameel Clinic 2024年11月发布Boltz-1，MIT协议全开源。 Chai Discovery 2024年9月发布Chai-1，非商用研究开源。 Meta FAIR的ESMFold走另一条技术路线，不需要MSA，靠蛋白语言模型预测。 2025年各家又推出下一代版本：Boltz-2补上了亲和力预测能力，Chai-2把零样本抗体设计的命中率推到16%。 2024到2025年这一年半，开源生态几乎补齐了AF3的所有能力。

磨结构的苦少了大半

我师兄花四年做出来的膜蛋白结构，现在用AlphaFold Server跑一次只要5分钟。但他做的那些事，长晶体、解相位、跑动力学、看构象变化，AF3还是回答不了。 AF3给出的结果，是2021年9月之前的训练分布里，这个序列最可能的折叠形态。这件事非常有用，而且几乎免费。但AF3不会告诉你，这个蛋白在细胞膜里、有配体存在时、37度生理盐水中、磷酸化之后是什么形态。天然无序蛋白、构象动力学、膜蛋白真实环境、全新折叠，这几个问题还没解决。

安芬森1972年提出的序列决定结构是对的。莱文索尔1969年提出的搜索空间太大也是对的。 AF3没有绕过莱文索尔悖论。它把PDB60年沉淀的二十多万个实验结构里的先验，压缩进了几亿参数。神经网络预测新序列时，本质是在找以前见过的最相似的结构。

下次再看到博士生为了一个结构泡三年实验室，可以提醒他一句：先去AlphaFold官网跑一遍，至少能省下养细胞的两年时间。