AI 做逆合成,光靠数据远远不够

2024 年，AlphaFold 已经可以预测人类蛋白质组中几乎所有蛋白质的结构，但在有机合成规划这个「理论上更适合 AI」的领域，纯数据驱动的方法却陷入了瓶颈。问题不在于数据量不够大，而在于我们从根本上低估了合成化学中「不可见知识」的深度。

标签： AI 逆合成 | 化学信息学 | 专家知识 | 数据质量 | 机器学习

一个令人尴尬的事实

先说结论：截至目前，纯粹从反应数据中训练出来的 AI 逆合成规划器，只能处理简单的目标分子。 面对具有多个立体中心的复杂天然产物，它们几乎无能为力。

这与 AI 在其他领域的辉煌战绩形成了鲜明反差：

AlphaFold
：解决困扰生物学界 50 年的蛋白质折叠问题
AlphaGo
：战胜人类围棋冠军，搜索空间约 10^170
GPT-4
：几乎通过了所有专业考试

而有机逆合成的搜索空间呢？对于一个需要 n 步完成的合成路线，可能的路径数量约为 100^n。即使 n = 10，搜索空间也「仅」有 10^20——远小于围棋。从计算角度看，这应该是一个完全可驾驭的问题。

那为什么 AI 搞不定？

数据的问题，远比「不够多」严重

行业里最常见的一种声音是：我们缺更多的反应数据。尤其是「失败的实验数据」——如果 AI 能从失败中学习，它就能知道什么条件不work。

这种说法没错，但只触及了表层。真正的问题远比数据量更根本。

1. 公开数据集的质量堪忧

上期我们讨论过 Grzybowski 团队 2021 年的研究：USPTO 专利数据库中约 40% 的反应条目可能是错误的。最常见的错误包括溶剂被当作底物录入、底物和产物写反、多步反应被压缩成一步等。

这就是目前大部分纯数据驱动模型的训练午餐。垃圾进，垃圾出——即使模型架构再精妙，也无法从错误数据中学到正确的化学规律。

2. 严重的发表偏倚

这可能是最容易被忽视的问题。

当化学家在论文中报告一个反应时，读者看到的是最终优化的条件——最佳催化剂、最佳溶剂、最佳温度。但在这之前，研究者可能在实验室里尝试了数十种条件组合，绝大多数以失败告终。

这些失败信息几乎从未被记录。

这意味着，从公开数据中，AI 看到的是：「底物 A + 底物 B + 催化剂 Pd(PPh₃)₄ → 产物 C，产率 85%」。但它完全不知道：换成 Ni 催化剂产率只有 5%，换 DMF 为甲苯完全不反应，温度降到 40°C 需要反应 72 小时而非 2 小时。

发表的数据只是冰山一角。冰山之下是数量庞大得多的「暗知识」。

3. 模板提取的精度陷阱

从具体反应中自动提取反应模板（Reaction Template）是几乎所有数据驱动方法的第一步。但这一步本身就充满陷阱：

立体化学信息的丢失
：大部分自动化工具在提取模板时无法正确处理手性中心、E/Z 异构等立体化学细节
反应条件无法编码
：模板描述的是「什么键断裂、什么键形成」，但催化剂、溶剂、温度、添加剂这些对反应成败至关重要的信息，通常不在模板的范畴内
「相似但不相同」的边界模糊
：两个反应看起来模板相同，但微妙的底物差异可能导致完全不同的反应结果

AI 学不到的「隐知识」

纯数据驱动方法的核心假设是：所有必要的化学知识都可以从反应实例中归纳出来。但这个假设是错的。

以下这些知识，几乎不可能从现有的反应数据库中学到：

反应机理

一个 Suzuki 偶联反应在数据中看起来只是一个「芳基卤化物 + 硼酸 → 偶联产物」的模式。但它背后涉及氧化加成、转金属化、还原消除三步催化循环，每一步的能量学、动力学特征、中间体结构——这些决定了哪些底物能反应、哪些不能、什么条件最优。

没有机理理解，AI 就只是在做表面模式的统计匹配。

物理有机化学原理

为什么某些底物在 SN2 反应中选择性地从一个方向进攻？
为什么 Bredt’s rule 告诉我们某些桥环系统不能形成双键？
为什么某些芳香亲电取代反应中，取代基的定位效应不是简单的邻/间/对？

这些原理是化学家数百年积累的「理论工具箱」，它们构成了反应预测的先验知识。一个掌握了这些原理的化学家，即使面对从未见过的底物，也能做出合理的预测。但一个只见过 1000 个反应实例的 ML 模型，面对超出训练分布的新底物时，往往会给出荒谬的建议。

战术组合（Tactical Combinations）

这是高级合成设计中最精妙的技巧之一。化学家经常将两个或多个反应串联甚至交叉进行，在一个操作中完成多个化学变换。例如：

Michael 加成 + 烷基化
的一锅法串联
多组分反应
（如 Ugi 反应、Passerini 反应）一步构建复杂分子

这种「战术组合」在数据中表现为独立的反应实例，但其真正的价值在于组合策略——这是一种更高层次的化学智能，远非简单的模板匹配所能覆盖。

条件选择的经验法则

工业界有大量关于试剂、溶剂、催化剂选择的实用指南（如 GSK 的试剂选择指南、溶剂选择指南），这些知识来源于数十年的工艺开发经验，涵盖了毒性、成本、可扩展性等实际考量因素。

一个在实验室里成功的反应，如果需要用到每克 500 美元的催化剂或高致癌性溶剂，它在工业上就是不可行的。 这种实用性判断，几乎不可能从学术文献的反应数据中学到。

混合路线：AI + 专家知识的成功实践

如果纯数据驱动走不通，那什么方法有效？

答案是**「混合算法」**——将 AI 的搜索和计算能力与化学专家的知识编码结合起来。

Synthia（原 Chematica）：一个标杆案例

Synthia 是目前最成功的计算机辅助合成规划系统之一。它的核心设计哲学是：

反应规则由专家手工编码
，而非从数据中自动提取。每位专家规则都经过严格的化学验证，确保可靠性
搜索算法利用网络的拓扑特性
，通过智能评分函数引导搜索方向，避免在不 promising 的路径上浪费时间
战术组合作为一等公民
，系统知道何时可以将两个反应串联执行，从而减少合成步骤

2018 年，Synthia 规划的合成路线在实验室中被成功执行；2020 年，它完成了多个复杂天然产物的合成规划并在实验中验证，包括 (+)- dichroanone、(−)-tautomycin 和 (+)-magellanine。

关键在于：这些成就并非来自更大的数据集或更强的 GPU，而是来自更深入的化学知识编码。

立体化学预测的突破

传统 ML 模型在立体化学预测上的表现一直很差——数据太少、特征不够描述性。但 2021 年 Grzybowski 团队提出了一种创新方法：用非共价相互作用向量作为描述符，让 ML 模型学习立体选择性。

这说明了一个重要原则：不是 ML 不行，而是需要用正确的「语言」来描述化学问题。 而这种「语言」的设计，恰恰需要专家知识。

对领域发展的四条建议

基于以上分析，论文提出了几条切实可行的建议：

1. 数据清洗是第一优先级

在训练任何模型之前，必须先对反应数据库进行系统性清洗：

剔除所有 k=1 的多组分反应（错误率极高）
对长时间保持 k=1 的反应模板进行人工审查
引入自动化的结构验证和质量检查流程

2. 将专家知识注入 ML 管线

具体的做法包括：

用物理有机化学原理设计更有意义的分子描述符
将反应机理信息（中间体、过渡态）编码进模型
让 ML 模型学习化学家的启发式规则（如 Hanessian 的「视觉意象」方法）
用强化学习从人类专家的反馈中学习偏好

3. 收集和共享负面数据

化学界需要建立一个类似 Open Reaction Database 的平台，鼓励研究人员提交失败的实验。这不仅能帮助 ML 模型学习「什么不行」，也能避免其他研究者重复已知的失败路径。

4. 让化学家参与算法开发

最终用户是合成化学家，而不是算法工程师。当前的很多逆合成工具之所以在实验室中不被接受，根本原因是开发者和用户之间的沟通鸿沟。只有让化学家深度参与工具的设计、测试和反馈，才能开发出真正有用的系统。

更大的图景：化学是一门「信息不完整」的科学

这篇论文引发的思考，远不止于逆合成规划这一个具体问题。

它揭示了一个更深层的事实：化学，尤其是合成化学，是一门「信息极度不完整」的科学。

在蛋白质折叠领域，所有需要的信息原则上都编码在氨基酸序列中——这是一个自包含的问题。但在合成化学中，公开的文献只记录了成功路径的「最优快照」，大量关键的决策过程、失败的尝试、隐含的经验判断都被省略了。

这意味着，无论我们收集多少公开数据，都只是在采样一个极度偏倚的分布。要打破这个困境，需要的不是更大的算力或更多的数据，而是将化学家的隐性知识显性化，让 AI 能够接触到那些「写在实验室笔记本里、但从未出现在论文中」的知识。

正如论文最后所言：

「算法专家与合成化学家之间的更紧密合作，将是弥合计算机算法与化学合成复杂性之间鸿沟的关键。」

这不是一个技术问题，而是一个文化和协作方式的问题。

原始论文： Strieth-Kalthoff, F.; Szymkuć, S.; Molga, K.; Aspuru-Guzik, A.; Glorius, F.; Grzybowski, B. A. Artificial Intelligence for Retrosynthetic Planning Needs Both Data and Expert Knowledge. J. Am. Chem. Soc. 2024, 146, 11005–11017.

相关阅读：

Szymkuć et al. (2021) — 有机化学是否真的在指数增长？（本系列上一篇）
Segler, Preuss & Waller (2018) — 用深度神经网络规划化学合成（Nature）
Coley et al. (2019) — AI 规划的流动合成机器人平台（Science）
Open Reaction Database — 开放反应数据库计划

上期回顾： 《有机化学真的在指数增长吗？数据告诉你另一个故事》——分析了反应类型增长率、数据质量问题及其对 AI 合成规划的影响。本文在此基础上，进一步探讨了 AI 逆合成的根本性挑战与出路。