AI科研WorkFlow系列共 5 篇,本期是第 1 站。北大开源了 NaFM,这是第一个专门给天然产物造的「AI 大模型」,刚发在 Nature Machine Intelligence 上,一个模型能干 4 件事。
我们都听过几个药:青蒿素治疟疾,阿司匹林止疼,紫杉醇治癌,青霉素抗菌。它们有什么共同点?都是从动植物或微生物里直接提取出来的,这类分子叫「天然产物」。全球获批的新药里,超过 1/3 都和天然产物有关。 但奇怪的事来了。最近几年,化学领域的 AI 大模型一个接一个,训练用的数据却基本都是化学家在实验室里画出来的人造分子,不是天然产物。换到天然产物上用,效果就差一截。 直到几周前。北京大学团队在 Nature Machine Intelligence 上发了 NaFM,这是第一个专门为天然产物造的 AI 大模型。代码权重数据全开源,一个模型搞定 4 件事。 |
速览 · NaFM 关键事实
|
AI 科研流水线 · 5 站系列地图
5 篇连发,隔天 1 篇。每一站对应 AI 在科研流水线里走到哪一步。 |
一、为什么天然产物需要一个自己的 AI?
先把名字说清楚。「天然产物」就是从动植物或微生物里直接提取出来的化学分子,不是人在实验室里合成的,是生物在亿万年进化里慢慢长出来的。
这些分子有一个共同点:结构骨架特别复杂。生物为了让一个分子能精准抓住某个蛋白,会进化出非常巧妙的环状结构。这跟化学家在实验室里画的人造分子相比,复杂度完全不在一个量级。
问题来了:过去几年所有出名的化学 AI 大模型,用来训练它们的数据,基本上都是大库里的人造分子,比如 ZINC、ChEMBL 这些库里的合成化合物。简单的、规则的、按章法画的分子。
于是当你把这些 AI 模型拿到天然产物上去用,会发现:分类做不准、活性预测偏差大、想从分子反推它来自哪种生物更是抓瞎。论文里直接点出:「现有的分子表征方法不适合天然产物的特殊任务。」
二、NaFM 做了哪两件不一样的事?
NaFM 的全名是 Natural product Foundation Model,意思就是「天然产物的基础大模型」。北大团队主导(一作 Yuheng Ding,通讯作者 Zhenmin Liu),核心创新有两点。
创新点 1:只用天然产物训练 训练数据用的是 COCONUT,一个超大型天然产物数据库,不再混入合成分子。让模型从一开始就只看天然产物的化学规律。 |
创新点 2:把骨架和侧链拆开学 模型在训练时把每个分子拆成两部分:核心骨架(决定它属于哪一大类)和 侧链(决定它的具体功能)。两部分分开学,再放回去整合。这模拟了生物合成的真实过程,因为同一个酶家族产出的分子,骨架是同源的,侧链才会变。 |
具体训练方式用了两个互补的任务,都是「自监督学习」(不需要人去标注答案,AI 自己出题自己答):
- 对比学习
让模型学会,同骨架的分子在 AI 眼里要长得像,不同骨架的分子要离得远。 - 掩码图学习
随机遮住分子里几个原子,让模型预测缺失的部分。和教 ChatGPT 「猜下一个字」是同一个思路,只不过这里猜的是化学结构。
这两个任务合在一起,模型既能记住「骨架代表的进化关系」,也能捕捉「侧链带来的具体差异」。
三、一个模型,4 件事都能干
论文在 4 个具体应用上做了验证,每一个都比通用的化学 AI 模型强:
NaFM 的 4 个具体应用
|
最值得划重点的是任务 ③ 基因组挖矿。它的意义是:
给你一个新分子,模型能告诉你「这玩意儿大概是某菌某酶合成的」。 反过来给你一段 DNA 序列,模型也能告诉你「这段基因大概能产出哪类天然产物」。
这相当于架了一座从基因到分子的双向 AI 桥,对发掘新抗生素、新植物活性成分非常有用。
NaFM · 一句话总结 一个模型4 件事 分类 · 活性 · 基因 · 筛选 天然产物专属 AI 大模型 北京大学主导 · 全开源 · 上 Nature Machine Intelligence 2026 数据 · doi.org/10.1038/s42256-026-01226-8 | 科研 AGENT 实验室 |
↑ 长按保存或者截图发到药物 AI 群
四、想用 NaFM 怎么开始
这篇论文最大的亮点是全部开源。代码、训练好的模型、数据集都放出来了,下面是直接的链接:
如果你做的是这几类工作,可以直接套用:
①药化研究人员:用 NaFM 给你的天然产物候选库做活性预筛,可能比通用化学模型更快也更准。 ②合成生物学家:用基因组挖矿这一功能,从一段微生物 DNA 反推可能的产物,给那些「目前还不知道能产什么」的基因簇一个起点。 ③做 ML 的计算化学家:把 NaFM 输出的分子向量当成你下游模型的输入特征,通常比传统的「分子指纹」表征更强。 |
五、为什么这是「AI 科研流水线的第 1 站」
在我们这个 5 篇系列里,第 1 站对应的是「找资源、挑题目」。在药物研发里,这一步往往就是「面对一大堆候选分子,选出哪几个值得做下去」。
基础大模型把这一步效率提了几个量级。回想这两年:ESM 让蛋白预测换了天,AlphaFold 把结构生物学整个翻了一遍,ChemBERTa 把人造分子推进了 AI 化学时代。现在轮到了天然产物。
天然产物是 AI 科研流水线最前面的入口之一,往后还有 4 站:做预测、搞设计、做实验、想风险。下一篇我们写站 2:分子动力学模拟里,AI 是怎么「不算力也能预测」的。
公众号后台回复以下任意一个关键词 NaFM / 天然产物 基础模型 / AI4Sci (以上 4 个关键词,任何一个都能命中) 可领取本文配套资源包:NaFM 论文 PDF + GitHub、Zenodo、figshare 全部直链 + 入门示例笔记本 |
论文信息 Ding Y, Qiang B, Liu Z, et al. Pretraining a foundation model for small-molecule natural products. Nature Machine Intelligence, 2026, 8(5): 777-788. DOI:10.1038/s42256-026-01226-8|配套 News & Views(Guo, Rava, Walker, 2026):10.1038/s42256-026-01241-9 |
💬 评论区聊聊 你做的领域,有没有自己专属的 AI 大模型了?比如做蛋白结构有 ESM,做合成分子有 ChemBERTa,现在天然产物有了 NaFM。你的领域还缺什么样的「基础模型」?评论区告诉我们,下一篇看看能不能扒到。 📤 如果身边有人做药物挖掘或合成生物学 把这一篇发给他。NaFM 是完全开源的,可以直接接到他现在的工作流里。至少能省掉一晚上调通用模型的时间,多一个真正能用上的起点。 |
📂 系列预告 站 2 · 做预测(下篇发):分子动力学模拟传统要算每个原子的受力。新模型 TrajCast 跳过力计算,直接预测下一帧位置,时间步长比传统方法提高 30 倍。物理学家估计要先愣一下:「不算力还能对吗?」 |
科研 AGENT 实验室 · 顶刊雷达 系列第 1 站,共 5 站
2026-05-26
夜雨聆风