AI算了几小时,蛋白质折叠这道五十年的难题就被破了-夜雨聆风

AI算了几小时,蛋白质折叠这道五十年的难题就被破了

TECH · AI

AI 算了几小时蛋白质折叠这道 50 年难题就破了

文 | 亿树

人体里大概有几万种蛋白质。每一种，都是一串氨基酸像折纸一样折成一个特定的三维形状，然后凭这个形状去执行一个具体的功能：搬运氧气、催化反应、传递信号、防御病毒。

形状错了，功能就废了。一些重大疾病，比如阿尔茨海默、帕金森，本质就是蛋白质折叠出了岔子。

而要想做一种药，几乎都绕不开一件事：先搞清楚你想干预的那个蛋白长什么样。

这件事在过去，慢得离谱。

—— 01 ——

五十年的”折叠难题”

为什么慢？因为蛋白质折叠是一道科学界出了名的难题。

1972年，美国化学家Christian Anfinsen拿诺贝尔化学奖时提出一个判断：氨基酸序列本身，就决定了蛋白质最终怎么折。换句话说，只要你知道一串氨基酸的顺序，原则上就能算出它的三维结构。

听起来很合理。但真去算，立刻就遇到天文数字。一个普通蛋白几百个氨基酸，每个键都能在多个角度上转，可能的折叠状态多到一台计算机算到宇宙终结都算不完。这就是著名的”列文塔尔悖论”（Levinthal’s Paradox）：组合爆炸到根本不可能穷举。

所以现实里，搞清楚一个蛋白的结构得靠实验。X射线晶体学、核磁共振、近些年的冷冻电镜，每种方法都能做到，但都得真把蛋白纯化出来、长成晶体或者冻在冰里、再花几个月甚至几年时间扫描分析。

到2020年前后，科学界辛辛苦苦干了几十年，全球公开数据库里也就十几万个被实验解析过的蛋白结构。和已知存在的几亿种蛋白相比，连零头都算不上。

ALPHAFOLD DATABASE

2 亿+ 结构

几乎覆盖已知物种的所有蛋白

—— 02 ——

CASP14上发生的事

CASP是个考试。全名Critical Assessment of Structure Prediction，从1994年开始每两年办一次，专门测试各家算法预测蛋白结构的水平。组织方挑一批刚被实验解析、但答案还没公开的蛋白，让参赛队伍纯靠氨基酸序列去预测三维结构，再和实验结果比对打分。

这个考试持续了二十多年，最好成绩一直在六十分左右徘徊（满分100，GDT_TS指标）。一般认为得到90分以上才算”接近实验级别”。

2020年5月到7月，第十四届CASP开考。Google DeepMind带着一个新版本AlphaFold去参赛。

11月公布结果。AlphaFold2在97个目标里，88个拿到了最优预测，中位GDT_TS分数92.4，三分之二的目标超过90分。其中最难的”自由建模”那一类目标——就是没有任何已知相似结构可以参考的——它也照样做对。

CASP的主办方Mohammed AlQuraishi看完结果说：”这事儿基本上算解决了。”

2021年7月15日，DeepMind把AlphaFold2的论文发在Nature上，标题就一句话：《Highly accurate protein structure prediction with AlphaFold》（用AlphaFold实现高精度蛋白结构预测）。同一天，源代码在GitHub上开源。

到2025年底，这篇论文被引用了将近4.3万次。

—— 03 ——

200,214,684个蛋白结构

光是登顶比赛还不够。DeepMind又做了一件更狠的事。

2022年7月28日，DeepMind和欧洲分子生物学实验室（EMBL-EBI）联合上线了AlphaFold蛋白质结构数据库的扩展版。

数据库里的结构数从不到100万，一口气扩到了2.14亿。具体数字是214,684,311个。

这个数字意味着什么？意味着已知所有被测序过的物种、几乎所有它们的蛋白，都有了一个AI预测的三维结构。植物、细菌、动物、古菌，覆盖范围接近100%。

而且全免费、全开放、全网下载。任何研究者，无论在哪个国家，无论有没有钱，打开浏览器输入一个蛋白名字，几秒钟就能看到它长什么样。

这是开放科学的一次极限示范。

—— 04 ——

2024年5月：AlphaFold3登场

如果AlphaFold2解决的是”一个蛋白单独长什么样”，那真实的生物学问题往往是”一群东西凑在一起长什么样”。

蛋白和小分子药结合的样子。蛋白和DNA、RNA结合的样子。蛋白和蛋白结合的样子。蛋白带着糖、磷酸、金属离子的样子。

这些”复合物”的结构，正是药物研发最关心的——你要做一种药，本质就是要设计一个小分子，让它精准卡进蛋白上的某一个口袋。

2024年5月8日，Google DeepMind和Isomorphic Labs（Alphabet旗下专做AI制药的子公司）一起发布了AlphaFold3。

这次它能做的事，比AlphaFold2大了一圈：不光预测蛋白本身，还能预测蛋白+小分子配体、蛋白+DNA、蛋白+RNA、蛋白+离子等各种组合。在PoseBusters这个公认的药物-蛋白对接基准测试上，AlphaFold3比传统方法准确度高出50%。

David Baker所在的华盛顿大学团队几乎在同一时间也发布了RoseTTAFold All-Atom，思路接近、目标相同。这两个团队在AI蛋白质这条赛道上一直在并行赛跑。

—— 05 ——

2024年10月：诺贝尔化学奖

2024年10月9日，瑞典皇家科学院宣布：当年的诺贝尔化学奖，一半授予David Baker（华盛顿大学），表彰其在”计算蛋白质设计”上的工作；另一半由Demis Hassabis（DeepMind CEO）和John Jumper（DeepMind高级研究科学家）共同获得，表彰他们”在蛋白质结构预测上的突破”。

奖金一共1100万瑞典克朗。

颁奖词里说，他们做的事，是”一项二十一世纪初的工程”，”打开了一扇门，让我们能用全新的方式来理解和创造蛋白质这种生命的工具”。

Baker这一半也很有意思。他从2003年开始，用一个叫Rosetta的软件做反向操作：不是给定氨基酸序列预测结构，而是给定一个想要的形状，反过来设计出一串能折成那个形状的氨基酸序列。也就是从零设计全新的蛋白——自然界里不存在的蛋白。

这二十多年里，Baker实验室设计出了人工酶、新型疫苗组件、抗病毒蛋白、可控释放的纳米笼。这些蛋白都是大自然没有过的，是人类用算法”画”出来的。

DeepMind破解的是”读懂”，Baker破解的是”创造”。两半合起来，就是2024年化学奖的主题：人和AI，一起开始能像写代码一样写蛋白。

—— 06 ——

药物研发被压缩了多少

回到药这件事上。

传统流程里，光是”搞清楚药靶蛋白长什么样”，就要花几年到十几年。冷冻电镜需要把蛋白做出来、纯化、冻片、扫描、解析，一步都省不掉。一个新靶点的结构，从立项到见到三维图，三到五年是常态。

AlphaFold之后，这一段直接被压到几小时——你输入氨基酸序列，几小时后拿到一个置信度可视化的三维模型。

更关键的是，它把”过滤”这一步前置了。过去做药要从几百万个候选小分子里筛，每个都要在湿实验里过一遍，慢且贵。现在可以在AI预测的蛋白结构上先做计算筛选，把没希望的分子早早砍掉，把湿实验留给真正有戏的几百个。

Isomorphic Labs在2024年1月分别和诺华（Novartis）、礼来（Eli Lilly）签了合作。两笔合作的总规模累计接近30亿美元。2025年3月，Isomorphic Labs又拿了Thrive Capital领投的6亿美元融资，专门用来推进AI制药管线。这家公司的目标是把第一批AI设计的药物推进人体临床。

罗氏（Roche）在2023年的全球药企AI能力榜上排第一，自建了内部AI平台，并和AWS、NVIDIA合作扩计算资源。辉瑞（Pfizer）通过和Tempus、CytoReason、Gero的合作把AI嵌入药物发现到临床的全流程。阿斯利康（AstraZeneca）则在和BenevolentAI、Qure.ai合作之外，自己研究怎么让AlphaFold去预测蛋白的”动态构象空间”，弥补它的短板。

整个行业的共识是：AI不是要取代药化学家，是要让药化学家的尝试次数从几百万次压到几千次。

—— 07 ——

它还做不到的事

但是要打住一点。AlphaFold并不是万能。

第一，它擅长”静态”的蛋白，对”动态”的不太行。很多蛋白在身体里不是一个固定形状，而是在多个构象之间来回切换——比如帕金森病关联的α-突触核蛋白、阿尔茨海默关联的Tau、肿瘤抑制因子p53的转录激活结构域，这些蛋白被AlphaFold预测出来往往是低置信度、零碎、不像一个完整结构的东西，因为它们本来就是无定形的。

第二，它不”看见”配体。AlphaFold2在训练时只学了蛋白本身的结构，没学蛋白和小分子结合后会变成什么样。一个典型例子是己糖激酶（hexokinase），有糖结合时它是一个形状，没糖时是另一个形状，AlphaFold2只能给出”没糖”那个形状。AlphaFold3补上了这个能力，但仍然在很多复杂场景下不够准。

第三，预测和真药之间还有巨大的工程鸿沟。结构预测对了，不代表小分子能稳定结合；能结合，不代表能进入细胞；能进入细胞，不代表副作用可控；副作用可控，不代表临床能成功。药物研发90%以上的成本花在临床三期之后，AI目前压缩的主要还是早期发现这一段。

所以，”AI让药物研发提速十倍”这句话，准确的说法应该是：在”靶点结构解析+候选分子筛选”这一段，提速十倍甚至百倍。但在临床这一关，AI还在路上。

—— 08 ——

中国的位置

国内这条线也有人在跑。

华大基因长期参与全球蛋白结构和组学合作。清华大学、北京大学、上海科技大学、中国科学院上海有机化学研究所等机构，都有AI蛋白质结构预测和蛋白质设计的团队。一批做AI制药的初创公司也已经成立，包括英矽智能、晶泰科技、剂泰医药等，主要业务是把AI模型嵌入到药物研发管线里去做靶点发现和先导化合物筛选。

2024、2025年，中国科学院旗下多个研究所发表了基于AlphaFold体系的下游应用论文，覆盖耐药菌靶点、肿瘤靶点、未折叠蛋白响应等方向。整体而言，中国在AlphaFold的应用层和小语种模型上有跟进能力，在底层基础模型这一层和DeepMind、Baker实验室仍有距离。

—— 09 ——

第一波临床的窗口

2025到2026年这两年，被业内普遍认为是”AI制药真正进入临床”的第一波窗口期。

Isomorphic Labs在2025年7月正式宣布准备启动它的首批人体临床试验。多家AI药企的早期管线进入了一期、二期临床阶段。这些管线的命运还要等三五年才能见分晓——临床数据是不能加速的，监管审批也是不能加速的。

但有一点几乎可以确定：在我们这一代之前，蛋白质折叠是一道”五十年都没解开的难题”；在我们这一代以后，新一代生物学家面对一个未知蛋白，第一反应将不再是”花五年实验解析”，而是”打开浏览器查AlphaFold”。

Anfinsen 1972年那个判断——氨基酸序列决定结构——花了快五十年才被算法验证。今天的孩子学生物，可能不会再被告知”蛋白结构很难”。对他们来说，蛋白结构和打开手机查地图一样，是一种基础设施。

1972年Anfinsen在诺贝尔奖演讲里提出，蛋白质的形状由它的氨基酸序列决定。从那一年到2020年AlphaFold2在CASP14登顶，将近半个世纪。从2020年到2024年DeepMind那两个人和Baker一起拿到化学奖，只用了四年。蛋白质这件事，过去是慢学科里最慢的那种；现在是被AI改造得最彻底的那种。一种叫”算出来再做出来”的新生物学，已经开始。

关注亿树小站

用科学的眼光，看见生活的真相

亿树小站 · 用数据说话的科普号