全球新药 1/3 来自天然产物,但 AI 工具几乎都为人造分子打造.北大刚把这事补上

AI科研WorkFlow系列共 5 篇，本期是第 1 站。北大开源了 NaFM，这是第一个专门给天然产物造的「AI 大模型」，刚发在 Nature Machine Intelligence 上，一个模型能干 4 件事。

我们都听过几个药：青蒿素治疟疾，阿司匹林止疼，紫杉醇治癌，青霉素抗菌。它们有什么共同点？都是从动植物或微生物里直接提取出来的，这类分子叫「天然产物」。全球获批的新药里，超过 1/3 都和天然产物有关。

但奇怪的事来了。最近几年，化学领域的 AI 大模型一个接一个，训练用的数据却基本都是化学家在实验室里画出来的人造分子，不是天然产物。换到天然产物上用，效果就差一截。

直到几周前。北京大学团队在 Nature Machine Intelligence 上发了 NaFM，这是第一个专门为天然产物造的 AI 大模型。代码权重数据全开源，一个模型搞定 4 件事。

速览 · NaFM 关键事实

模型名称

NaFM

首个天然产物专属大模型

主导团队

北京大学

天然药物国家重点实验室

能干的事

4 件

分类、活性、挖矿、筛选

开源情况

全开源

代码、权重、数据齐全

AI 科研流水线 · 5 站系列地图

★ 站 1

找资源

本期

站 2

做预测

下期

站 3

搞设计

站 4

做实验

站 5

想风险

5 篇连发，隔天 1 篇。每一站对应 AI 在科研流水线里走到哪一步。

一、为什么天然产物需要一个自己的 AI？

先把名字说清楚。「天然产物」就是从动植物或微生物里直接提取出来的化学分子，不是人在实验室里合成的，是生物在亿万年进化里慢慢长出来的。

这些分子有一个共同点：结构骨架特别复杂。生物为了让一个分子能精准抓住某个蛋白，会进化出非常巧妙的环状结构。这跟化学家在实验室里画的人造分子相比，复杂度完全不在一个量级。

问题来了：过去几年所有出名的化学 AI 大模型，用来训练它们的数据，基本上都是大库里的人造分子，比如 ZINC、ChEMBL 这些库里的合成化合物。简单的、规则的、按章法画的分子。

于是当你把这些 AI 模型拿到天然产物上去用，会发现：分类做不准、活性预测偏差大、想从分子反推它来自哪种生物更是抓瞎。论文里直接点出：「现有的分子表征方法不适合天然产物的特殊任务。」

二、NaFM 做了哪两件不一样的事？

NaFM 的全名是 Natural product Foundation Model，意思就是「天然产物的基础大模型」。北大团队主导（一作 Yuheng Ding，通讯作者 Zhenmin Liu），核心创新有两点。

创新点 1：只用天然产物训练

训练数据用的是 COCONUT，一个超大型天然产物数据库，不再混入合成分子。让模型从一开始就只看天然产物的化学规律。

创新点 2：把骨架和侧链拆开学

模型在训练时把每个分子拆成两部分：核心骨架（决定它属于哪一大类）和侧链（决定它的具体功能）。两部分分开学，再放回去整合。这模拟了生物合成的真实过程，因为同一个酶家族产出的分子，骨架是同源的，侧链才会变。

具体训练方式用了两个互补的任务，都是「自监督学习」（不需要人去标注答案，AI 自己出题自己答）：

对比学习
让模型学会，同骨架的分子在 AI 眼里要长得像，不同骨架的分子要离得远。
掩码图学习
随机遮住分子里几个原子，让模型预测缺失的部分。和教 ChatGPT 「猜下一个字」是同一个思路，只不过这里猜的是化学结构。

这两个任务合在一起，模型既能记住「骨架代表的进化关系」，也能捕捉「侧链带来的具体差异」。

三、一个模型，4 件事都能干

论文在 4 个具体应用上做了验证，每一个都比通用的化学 AI 模型强：

NaFM 的 4 个具体应用

① 分类

给一个分子，自动判断它属于哪一类天然产物（生物碱、萜类、聚酮等）。比现有的 NPClassifier 工具更准。

② 预测生物活性

给一个分子和一个药物靶点，预测它的活性数值。基于 NPASS 这个活性数据库训练。

③ 基因组挖矿

给一个天然产物分子，反推它可能是哪种生物的哪段基因合成的（这种基因叫「生物合成基因簇」，简称 BGC）。这是天然产物领域最难的逆向问题之一。

④ 虚拟筛选

从一个大库里挑出可能有效抑制某靶点的天然产物。论文在两个常用药物靶点（一个跟阿尔茨海默有关，一个跟糖尿病有关）上做了验证。

最值得划重点的是任务 ③ 基因组挖矿。它的意义是：

给你一个新分子，模型能告诉你「这玩意儿大概是某菌某酶合成的」。
反过来给你一段 DNA 序列，模型也能告诉你「这段基因大概能产出哪类天然产物」。

这相当于架了一座从基因到分子的双向 AI 桥，对发掘新抗生素、新植物活性成分非常有用。

NaFM · 一句话总结

一个模型4 件事

分类 · 活性 · 基因 · 筛选

天然产物专属 AI 大模型

北京大学主导 · 全开源 · 上 Nature Machine Intelligence 2026

数据 · doi.org/10.1038/s42256-026-01226-8 | 科研 AGENT 实验室

↑ 长按保存或者截图发到药物 AI 群

四、想用 NaFM 怎么开始

这篇论文最大的亮点是全部开源。代码、训练好的模型、数据集都放出来了，下面是直接的链接：

资源	位置
代码	GitHub：TomAIDD/NaFM-Official
训练好的模型	Zenodo 10.5281/zenodo.15382660
训练数据	figshare + COCONUT 数据库
预印本（更细的方法）	arXiv 2503.17656

如果你做的是这几类工作，可以直接套用：

①药化研究人员：用 NaFM 给你的天然产物候选库做活性预筛，可能比通用化学模型更快也更准。

②合成生物学家：用基因组挖矿这一功能，从一段微生物 DNA 反推可能的产物，给那些「目前还不知道能产什么」的基因簇一个起点。

③做 ML 的计算化学家：把 NaFM 输出的分子向量当成你下游模型的输入特征，通常比传统的「分子指纹」表征更强。

五、为什么这是「AI 科研流水线的第 1 站」

在我们这个 5 篇系列里，第 1 站对应的是「找资源、挑题目」。在药物研发里，这一步往往就是「面对一大堆候选分子，选出哪几个值得做下去」。

基础大模型把这一步效率提了几个量级。回想这两年：ESM 让蛋白预测换了天，AlphaFold 把结构生物学整个翻了一遍，ChemBERTa 把人造分子推进了 AI 化学时代。现在轮到了天然产物。

天然产物是 AI 科研流水线最前面的入口之一，往后还有 4 站：做预测、搞设计、做实验、想风险。下一篇我们写站 2：分子动力学模拟里，AI 是怎么「不算力也能预测」的。

公众号后台回复以下任意一个关键词

NaFM / 天然产物

基础模型 / AI4Sci

（以上 4 个关键词，任何一个都能命中）

可领取本文配套资源包：NaFM 论文 PDF + GitHub、Zenodo、figshare 全部直链 + 入门示例笔记本

论文信息

Ding Y, Qiang B, Liu Z, et al. Pretraining a foundation model for small-molecule natural products. Nature Machine Intelligence, 2026, 8(5): 777-788. DOI：10.1038/s42256-026-01226-8｜配套 News & Views（Guo, Rava, Walker, 2026）：10.1038/s42256-026-01241-9

💬 评论区聊聊

你做的领域，有没有自己专属的 AI 大模型了？比如做蛋白结构有 ESM，做合成分子有 ChemBERTa，现在天然产物有了 NaFM。你的领域还缺什么样的「基础模型」？评论区告诉我们，下一篇看看能不能扒到。

📤 如果身边有人做药物挖掘或合成生物学

把这一篇发给他。NaFM 是完全开源的，可以直接接到他现在的工作流里。至少能省掉一晚上调通用模型的时间，多一个真正能用上的起点。

📂 系列预告

站 2 · 做预测（下篇发）：分子动力学模拟传统要算每个原子的受力。新模型 TrajCast 跳过力计算，直接预测下一帧位置，时间步长比传统方法提高 30 倍。物理学家估计要先愣一下：「不算力还能对吗？」

科研 AGENT 实验室 · 顶刊雷达系列第 1 站，共 5 站

2026-05-26