AI算了几小时,蛋白质折叠这道五十年的难题就被破了

TECH · AI
AI 算了几小时蛋白质折叠这道 50 年难题就破了
文 | 亿树
人体里大概有几万种蛋白质。每一种,都是一串氨基酸像折纸一样折成一个特定的三维形状,然后凭这个形状去执行一个具体的功能:搬运氧气、催化反应、传递信号、防御病毒。
形状错了,功能就废了。一些重大疾病,比如阿尔茨海默、帕金森,本质就是蛋白质折叠出了岔子。
而要想做一种药,几乎都绕不开一件事:先搞清楚你想干预的那个蛋白长什么样。
这件事在过去,慢得离谱。
—— 01 ——
五十年的”折叠难题”
为什么慢?因为蛋白质折叠是一道科学界出了名的难题。
1972年,美国化学家Christian Anfinsen拿诺贝尔化学奖时提出一个判断:氨基酸序列本身,就决定了蛋白质最终怎么折。换句话说,只要你知道一串氨基酸的顺序,原则上就能算出它的三维结构。
听起来很合理。但真去算,立刻就遇到天文数字。一个普通蛋白几百个氨基酸,每个键都能在多个角度上转,可能的折叠状态多到一台计算机算到宇宙终结都算不完。这就是著名的”列文塔尔悖论”(Levinthal’s Paradox):组合爆炸到根本不可能穷举。
所以现实里,搞清楚一个蛋白的结构得靠实验。X射线晶体学、核磁共振、近些年的冷冻电镜,每种方法都能做到,但都得真把蛋白纯化出来、长成晶体或者冻在冰里、再花几个月甚至几年时间扫描分析。
到2020年前后,科学界辛辛苦苦干了几十年,全球公开数据库里也就十几万个被实验解析过的蛋白结构。和已知存在的几亿种蛋白相比,连零头都算不上。
ALPHAFOLD DATABASE
2 亿+ 结构
几乎覆盖已知物种的所有蛋白
—— 02 ——
CASP14上发生的事
CASP是个考试。全名Critical Assessment of Structure Prediction,从1994年开始每两年办一次,专门测试各家算法预测蛋白结构的水平。组织方挑一批刚被实验解析、但答案还没公开的蛋白,让参赛队伍纯靠氨基酸序列去预测三维结构,再和实验结果比对打分。
这个考试持续了二十多年,最好成绩一直在六十分左右徘徊(满分100,GDT_TS指标)。一般认为得到90分以上才算”接近实验级别”。
2020年5月到7月,第十四届CASP开考。Google DeepMind带着一个新版本AlphaFold去参赛。
11月公布结果。AlphaFold2在97个目标里,88个拿到了最优预测,中位GDT_TS分数92.4,三分之二的目标超过90分。其中最难的”自由建模”那一类目标——就是没有任何已知相似结构可以参考的——它也照样做对。
CASP的主办方Mohammed AlQuraishi看完结果说:”这事儿基本上算解决了。”
2021年7月15日,DeepMind把AlphaFold2的论文发在Nature上,标题就一句话:《Highly accurate protein structure prediction with AlphaFold》(用AlphaFold实现高精度蛋白结构预测)。同一天,源代码在GitHub上开源。
到2025年底,这篇论文被引用了将近4.3万次。

—— 03 ——
200,214,684个蛋白结构
光是登顶比赛还不够。DeepMind又做了一件更狠的事。
2022年7月28日,DeepMind和欧洲分子生物学实验室(EMBL-EBI)联合上线了AlphaFold蛋白质结构数据库的扩展版。
数据库里的结构数从不到100万,一口气扩到了2.14亿。具体数字是214,684,311个。
这个数字意味着什么?意味着已知所有被测序过的物种、几乎所有它们的蛋白,都有了一个AI预测的三维结构。植物、细菌、动物、古菌,覆盖范围接近100%。
而且全免费、全开放、全网下载。任何研究者,无论在哪个国家,无论有没有钱,打开浏览器输入一个蛋白名字,几秒钟就能看到它长什么样。
这是开放科学的一次极限示范。
—— 04 ——
2024年5月:AlphaFold3登场
如果AlphaFold2解决的是”一个蛋白单独长什么样”,那真实的生物学问题往往是”一群东西凑在一起长什么样”。
蛋白和小分子药结合的样子。蛋白和DNA、RNA结合的样子。蛋白和蛋白结合的样子。蛋白带着糖、磷酸、金属离子的样子。
这些”复合物”的结构,正是药物研发最关心的——你要做一种药,本质就是要设计一个小分子,让它精准卡进蛋白上的某一个口袋。
2024年5月8日,Google DeepMind和Isomorphic Labs(Alphabet旗下专做AI制药的子公司)一起发布了AlphaFold3。
这次它能做的事,比AlphaFold2大了一圈:不光预测蛋白本身,还能预测蛋白+小分子配体、蛋白+DNA、蛋白+RNA、蛋白+离子等各种组合。在PoseBusters这个公认的药物-蛋白对接基准测试上,AlphaFold3比传统方法准确度高出50%。
David Baker所在的华盛顿大学团队几乎在同一时间也发布了RoseTTAFold All-Atom,思路接近、目标相同。这两个团队在AI蛋白质这条赛道上一直在并行赛跑。

—— 05 ——
2024年10月:诺贝尔化学奖
2024年10月9日,瑞典皇家科学院宣布:当年的诺贝尔化学奖,一半授予David Baker(华盛顿大学),表彰其在”计算蛋白质设计”上的工作;另一半由Demis Hassabis(DeepMind CEO)和John Jumper(DeepMind高级研究科学家)共同获得,表彰他们”在蛋白质结构预测上的突破”。
奖金一共1100万瑞典克朗。
颁奖词里说,他们做的事,是”一项二十一世纪初的工程”,”打开了一扇门,让我们能用全新的方式来理解和创造蛋白质这种生命的工具”。
Baker这一半也很有意思。他从2003年开始,用一个叫Rosetta的软件做反向操作:不是给定氨基酸序列预测结构,而是给定一个想要的形状,反过来设计出一串能折成那个形状的氨基酸序列。也就是从零设计全新的蛋白——自然界里不存在的蛋白。
这二十多年里,Baker实验室设计出了人工酶、新型疫苗组件、抗病毒蛋白、可控释放的纳米笼。这些蛋白都是大自然没有过的,是人类用算法”画”出来的。
DeepMind破解的是”读懂”,Baker破解的是”创造”。两半合起来,就是2024年化学奖的主题:人和AI,一起开始能像写代码一样写蛋白。
—— 06 ——
药物研发被压缩了多少
回到药这件事上。
传统流程里,光是”搞清楚药靶蛋白长什么样”,就要花几年到十几年。冷冻电镜需要把蛋白做出来、纯化、冻片、扫描、解析,一步都省不掉。一个新靶点的结构,从立项到见到三维图,三到五年是常态。
AlphaFold之后,这一段直接被压到几小时——你输入氨基酸序列,几小时后拿到一个置信度可视化的三维模型。
更关键的是,它把”过滤”这一步前置了。过去做药要从几百万个候选小分子里筛,每个都要在湿实验里过一遍,慢且贵。现在可以在AI预测的蛋白结构上先做计算筛选,把没希望的分子早早砍掉,把湿实验留给真正有戏的几百个。
Isomorphic Labs在2024年1月分别和诺华(Novartis)、礼来(Eli Lilly)签了合作。两笔合作的总规模累计接近30亿美元。2025年3月,Isomorphic Labs又拿了Thrive Capital领投的6亿美元融资,专门用来推进AI制药管线。这家公司的目标是把第一批AI设计的药物推进人体临床。
罗氏(Roche)在2023年的全球药企AI能力榜上排第一,自建了内部AI平台,并和AWS、NVIDIA合作扩计算资源。辉瑞(Pfizer)通过和Tempus、CytoReason、Gero的合作把AI嵌入药物发现到临床的全流程。阿斯利康(AstraZeneca)则在和BenevolentAI、Qure.ai合作之外,自己研究怎么让AlphaFold去预测蛋白的”动态构象空间”,弥补它的短板。
整个行业的共识是:AI不是要取代药化学家,是要让药化学家的尝试次数从几百万次压到几千次。
—— 07 ——
它还做不到的事
但是要打住一点。AlphaFold并不是万能。
第一,它擅长”静态”的蛋白,对”动态”的不太行。很多蛋白在身体里不是一个固定形状,而是在多个构象之间来回切换——比如帕金森病关联的α-突触核蛋白、阿尔茨海默关联的Tau、肿瘤抑制因子p53的转录激活结构域,这些蛋白被AlphaFold预测出来往往是低置信度、零碎、不像一个完整结构的东西,因为它们本来就是无定形的。
第二,它不”看见”配体。AlphaFold2在训练时只学了蛋白本身的结构,没学蛋白和小分子结合后会变成什么样。一个典型例子是己糖激酶(hexokinase),有糖结合时它是一个形状,没糖时是另一个形状,AlphaFold2只能给出”没糖”那个形状。AlphaFold3补上了这个能力,但仍然在很多复杂场景下不够准。
第三,预测和真药之间还有巨大的工程鸿沟。结构预测对了,不代表小分子能稳定结合;能结合,不代表能进入细胞;能进入细胞,不代表副作用可控;副作用可控,不代表临床能成功。药物研发90%以上的成本花在临床三期之后,AI目前压缩的主要还是早期发现这一段。
所以,”AI让药物研发提速十倍”这句话,准确的说法应该是:在”靶点结构解析+候选分子筛选”这一段,提速十倍甚至百倍。但在临床这一关,AI还在路上。
—— 08 ——
中国的位置
国内这条线也有人在跑。
华大基因长期参与全球蛋白结构和组学合作。清华大学、北京大学、上海科技大学、中国科学院上海有机化学研究所等机构,都有AI蛋白质结构预测和蛋白质设计的团队。一批做AI制药的初创公司也已经成立,包括英矽智能、晶泰科技、剂泰医药等,主要业务是把AI模型嵌入到药物研发管线里去做靶点发现和先导化合物筛选。
2024、2025年,中国科学院旗下多个研究所发表了基于AlphaFold体系的下游应用论文,覆盖耐药菌靶点、肿瘤靶点、未折叠蛋白响应等方向。整体而言,中国在AlphaFold的应用层和小语种模型上有跟进能力,在底层基础模型这一层和DeepMind、Baker实验室仍有距离。
—— 09 ——
第一波临床的窗口
2025到2026年这两年,被业内普遍认为是”AI制药真正进入临床”的第一波窗口期。
Isomorphic Labs在2025年7月正式宣布准备启动它的首批人体临床试验。多家AI药企的早期管线进入了一期、二期临床阶段。这些管线的命运还要等三五年才能见分晓——临床数据是不能加速的,监管审批也是不能加速的。
但有一点几乎可以确定:在我们这一代之前,蛋白质折叠是一道”五十年都没解开的难题”;在我们这一代以后,新一代生物学家面对一个未知蛋白,第一反应将不再是”花五年实验解析”,而是”打开浏览器查AlphaFold”。
Anfinsen 1972年那个判断——氨基酸序列决定结构——花了快五十年才被算法验证。今天的孩子学生物,可能不会再被告知”蛋白结构很难”。对他们来说,蛋白结构和打开手机查地图一样,是一种基础设施。
1972年Anfinsen在诺贝尔奖演讲里提出,蛋白质的形状由它的氨基酸序列决定。从那一年到2020年AlphaFold2在CASP14登顶,将近半个世纪。从2020年到2024年DeepMind那两个人和Baker一起拿到化学奖,只用了四年。蛋白质这件事,过去是慢学科里最慢的那种;现在是被AI改造得最彻底的那种。一种叫”算出来再做出来”的新生物学,已经开始。
关注亿树小站
用科学的眼光,看见生活的真相
亿树小站 · 用数据说话的科普号
夜雨聆风