AI for Science 爆发:AI 化学突破进化,Claude 击败化学软件 ChemDraw

Anthropic 用 20 个 ChemRxiv 预印本里的化合物做了一次盲测:在 NMR 化学位移、多重性、耦合常数三项上,Opus 4.7 全面追平或反超 ChemDraw 25.0.2 和 MestReNova 17.0.0,还从一维谱 + 质谱反推出了结构——后者是专用软件做不了的事。

Anthropic 把 Claude 送进了化学实验室
6 月 5 日,Anthropic 内部化学家 David Kamber 发布报告《How Claude performs on NMR prediction and structure elucidation》。
测试对象是三个 Claude 模型:Opus 4.7、Opus 4.6、Sonnet 4.6。对手是两款摆在几乎每个化学家桌面上的专业软件:ChemDraw 25.0.2 和 MestReNova 17.0.0。
战场选在 NMR(核磁共振)谱图。合成一个化合物后,确认手里做出来的是不是目标分子,靠 NMR。把谱图里每个峰对应到结构里每个原子,是合成化学最耗时的环节之一。

让 Claude 接管谱图分析,是 Anthropic AI for Science 计划扩到化学的第一份公开工作。
读一张 NMR 谱:三层信息,两个方向
一张 NMR 谱图是一列峰,每个化学上不等价的氢或碳一个峰,峰的位置被周围原子推移。看懂它要同时读三层信息。
化学位移(chemical shift,单位 ppm):峰在谱图上的位置,反映原子所处的化学环境。预测氢谱和碳谱位移,是最基础的一关。
多重性(multiplicity):一个氢信号的裂分形状——单峰、双峰、三重峰等,由相邻氢的数目决定。
耦合常数(J-coupling,单位 Hz):裂分出来的子峰之间的间距,衡量两个核通过化学键相互作用的强度。

测试沿两个方向展开。正向预测(structure → NMR)是日常活:画出预期结构,预测谱图,再和实测对照——ChemDraw 和 MestReNova 就干这个。
逆向预测(NMR → structure)更难:给一张谱图,反推结构,需要专家级推理判断哪些片段存在、怎么连接。ChemDraw 完全没有逆向能力,MestReNova 能把峰指派到已知结构,但不会从峰列表生成候选结构。
评分协议决定可信度:锁样本、匈牙利匹配、跑三次
结论可不可信,全压在评分协议上。
为避免选择偏差,化合物在生成预测前就被锁定。来源是 ChemRxiv 上的合成化学预印本:化学家逐篇阅读,从补充材料里取每篇第一个完整表征、数据自洽的新化合物。
排除以旋转异构体混合物形式报告的样本,手动转录峰列表,提取 SMILES、¹H 和 ¹³C 峰列表、NMR 溶剂。正向集 20 个、逆向集 15 个,各自独立抽取。

正向集是四类骨架各五个:P1 氯哒嗪(DMSO-d₆ 里慢交换的 NH)、P2 Boc-N-芳基马来酰亚胺与 N-Boc 烯酰胺、P3 螺酮(带苯甲酰甲基或乙酰基侧链)、P4 α-硅基甲磺酰胺(屏蔽的硅-α 碳)。每类专门考一种 NMR 难点。
每个工具拿到一个 SMILES,要在原文献的溶剂里预测 ¹H 和 ¹³C 位移,带多重性和耦合常数。三个 Claude 模型每个化合物各跑 3 次以表征输出波动;ChemDraw 和 MestReNova 是确定性的,每个化合物跑 1 次。
预测峰与实验原子用最小 |Δδ| 做匈牙利一对一指派。宽于 0.3 ppm 的 ¹H 多重峰从位移误差里剔除,保留用于多重性评分。最终对固定分母——401 个 ¹H 原子、225 个 ¹³C 原子——报告 MAE、RMSE、中位 |Δδ|。
核心指标是落在容差窗内的原子比例:¹H ±0.20 ppm、¹³C ±1.0 ppm。
跑三次是为了对付波动。逐化合物的胜者在 20 个样本间频繁易主,单次评测会严重误报胜率;而 Opus 4.7 的 run-to-run 波动小于它和下一名的差距。
正向预测:位移、多重性、耦合常数三项全拿下
¹H 位移,Opus 4.7 的 MAE 是 0.079 ppm,所有受测工具里最低,远在化学家 ±0.20 ppm 的容差窗内。
¹³C 上,Opus 4.7 的 1.37 ppm 与 MestReNova 的 1.48 ppm 基本打平,明显好过 ChemDraw 的 2.107 ppm。
逐化合物胜率,Opus 4.7 在 ¹H 上赢 11.7/20、¹³C 上赢 8.0/20,都是第一。

Anthropic 官方 Figure 2:左 ¹H、右 ¹³C 的位移误差(MAE 实心、RMSE 斜纹),Claude 三模型取 3 次均值带波动范围,经典工具为单点。
多重性和耦合常数上,差距更明显。Opus 4.7 的多重性 exact 命中率 85%(343/401),是所有工具最高;MestReNova 54%、ChemDraw 41%。

Anthropic 官方 Figure 7:绿 = exact 完全命中、黄 = lenient 实验只报 m、红 = wrong 判错、灰 = missing 没预测到该原子;分母固定 401。
J 耦合上,三个 Claude 模型的平均误差都在 0.5 Hz 上下,落在 ±0.5 Hz 内的比例达 80–84%;经典工具平均误差 1.9–2.0 Hz,±0.5 Hz 内只有 26–35%。

Anthropic 官方 Figure 8:横轴从左(最严 ≤0.1 Hz)到右(最松 ≤5 Hz),格子是落在该容差内的 J 配对比例,绿高红低。Claude 三行明显比经典工具两行绿。
ChemDraw 的 J 值偏差很大程度来自模板默认值:12.4 Hz geminal 耦合在 31 个 J 里出现 5 次,芳香邻位耦合一律发到 7.0–7.1 Hz。
慢交换的 NH 质子实验上落在 6.8–7.9 ppm 的窄窗。Opus 4.7 略偏上场,Opus 4.6 散开几个 ppm,Sonnet 4.6 直接错放到 10–13 ppm。
还有一个所有工具共有的系统性偏差:羰基碳 δ(C=O) 都被预测得偏低——拿”两个工具是否一致”做正确性检查也照样漏。

Anthropic 官方 Figure 6:每格是该工具在该骨架内残差的标准差 σ(越小越一致),颜色按列内归一化,越深越差。Opus 4.7 在多数骨架上 σ 最低。
MestReNova 的 ¹H MAE 有个口径差异:它只覆盖了 267/401 个原子,跳过了 >0.3 ppm 的实验多重峰,分数和全覆盖的工具不能直接比。ChemDraw 反而强在覆盖最广。
逆向解析:从谱图反推结构,软件做不了的事
逆向集 Opus 4.7 拿到 15 个 NMR/HRMS 解析问题,每个跑 3 次,要求返回最多 3 个排序的 SMILES 候选。立体化学按设计排除——一维 NMR 定不了绝对构型。
15 个问题分两种 prompt 条件,对应化学家真实面对的两种情形。8 个较简单的目标(Q1–Q5、Q9、Q10、Q14)只给高分辨质谱(HRMS)和一维 NMR,相当于确认一个未指定反应的产物。
7 个结构更密集的目标(Q6–Q8、Q11–Q13、Q15)额外给起始原料 SMILES 作锚点,但不给任何其他反应上下文(无试剂、条件、机理、产物类别),相当于确认一个已知输入的反应产物。
结果:8 个简单目标仅凭谱图和质谱,每次都恢复出已发表结构。7 个密集目标在起始原料 SMILES 下,Q6、Q8、Q12、Q15 三次全对,Q7、Q11、Q13 三次对两次。

Anthropic 官方 Figure 9:每个分子标注 3 次尝试的命中数。绿框 = 仅凭 HRMS + 一维谱解出(无起始原料上下文),蓝框 = 额外给起始原料 SMILES。
专用结构解析软件存在几十年,通常需要 2D NMR(COSY、HSQC、HMBC 等二维谱),或先假设候选结构再与谱图对照。Opus 4.7 用的只是化学家随手粘进对话框的一维峰列表和质谱。
自动结构解析从依赖 2D 实验的区间,推进到了原本只能靠手工判断的骨架密度。
AI for Science 关键信号:多模态加显式推理,绕开数据壁垒
过去 AI 在化学上难突破,卡点在数据:训练数据稀缺,缺阴性结果、格式不统一、锁在订阅期刊付费墙后。逆合成分析:能用的工具存在多年,普通学术实验室至今不用。

前沿模型是多模态、能显式推理的,可以直接从期刊插图或手绘草图读出结构,不再依赖预先整理好的分子数据库。通用模型不靠领域专用数据库,照样能在专业仪器分析上打平专用软件,还能干软件干不了的逆向题。
变化落在能向一个通用推理模型提的问题上。确认一个已知反应的产物、排除某个区域异构体、对峰指派做 sanity-check、判断哪些化合物值得上 2D 实验——以前要么需要专用软件,要么需要专家逐个判断。现在一个模型用纯文本就能逐项处理。
入口在变,壁垒在评测,化学只是开始
专业软件不会消失,但默认入口会变。ChemDraw、MestReNova 积累了几十年可靠性,短期替不掉。但当一维谱加质谱粘进对话框就能拿到位移、多重性、J 值和一个结构候选,新一代化学家的第一反应会先打开聊天框。

壁垒会从模型本身转移到评测协议。报告最硬的部分是方法学:怎么锁样本、怎么做匈牙利匹配、为什么跑三次、用哪个固定分母。模型能力是公共供给,能拉开差距的是有没有一套严谨、可复现、骗不过去的领域评测。
化学只是开始。多模态读图、显式推理、不依赖封闭数据库——同一套逻辑可以平移到材料、生物、药物。一旦在一个学科证明跑得通,复制成本很低。
20 个化合物之后,真正的考验才开始
样本小:正向 20 个、逆向 15 个,每个骨架只贡献单一类失败模式,数值排名只能指示方向,不是精确结果。慢交换 NH 杂芳烃只通过氯哒嗪采样,相关的羟基吡啶、氨基噻唑等 DMSO-d₆ 里 NH 活泼的体系都没测。
2D 实验(COSY、HSQC、HMBC)和立体化学按设计排除。溶剂只覆盖 DMSO-d₆、CDCl₃、D₂O,甲醇-d₄、苯-d₆、丙酮-d₆ 未评估。

接下来值得盯三件事:扩到几百个化合物、横跨二三十类骨架后准确率会不会塌;逆向解析能不能在没有起始原料锚点时啃下更密的结构;能力会不会真的进到实验室日常流程,被当成每天打开的工具。
20 个化合物的盲测规模不大,但已经划出一条线:通用大模型在专业仪器分析上打平了几十年的窄域软件,还接下了软件做不了的逆向题。小样本上的成绩有了,下一道坎是它能不能扛住更大规模,从一次演示变成化学家每天打开的对话框。
参考信息:
https://www.anthropic.com/research/making-claude-a-chemist
https://www-cdn.anthropic.com/07441e654ad3dfeb0cd090e9361511562825d012.pdf
夜雨聆风