2024 年,AlphaFold 已经可以预测人类蛋白质组中几乎所有蛋白质的结构,但在有机合成规划这个「理论上更适合 AI」的领域,纯数据驱动的方法却陷入了瓶颈。问题不在于数据量不够大,而在于我们从根本上低估了合成化学中「不可见知识」的深度。
标签: AI 逆合成 | 化学信息学 | 专家知识 | 数据质量 | 机器学习
一个令人尴尬的事实
先说结论:截至目前,纯粹从反应数据中训练出来的 AI 逆合成规划器,只能处理简单的目标分子。 面对具有多个立体中心的复杂天然产物,它们几乎无能为力。
这与 AI 在其他领域的辉煌战绩形成了鲜明反差:
- AlphaFold
:解决困扰生物学界 50 年的蛋白质折叠问题 - AlphaGo
:战胜人类围棋冠军,搜索空间约 10^170 - GPT-4
:几乎通过了所有专业考试
而有机逆合成的搜索空间呢?对于一个需要 n 步完成的合成路线,可能的路径数量约为 100^n。即使 n = 10,搜索空间也「仅」有 10^20——远小于围棋。从计算角度看,这应该是一个完全可驾驭的问题。
那为什么 AI 搞不定?
数据的问题,远比「不够多」严重
行业里最常见的一种声音是:我们缺更多的反应数据。尤其是「失败的实验数据」——如果 AI 能从失败中学习,它就能知道什么条件不work。
这种说法没错,但只触及了表层。真正的问题远比数据量更根本。
1. 公开数据集的质量堪忧
上期我们讨论过 Grzybowski 团队 2021 年的研究:USPTO 专利数据库中约 40% 的反应条目可能是错误的。最常见的错误包括溶剂被当作底物录入、底物和产物写反、多步反应被压缩成一步等。
这就是目前大部分纯数据驱动模型的训练午餐。垃圾进,垃圾出——即使模型架构再精妙,也无法从错误数据中学到正确的化学规律。
2. 严重的发表偏倚
这可能是最容易被忽视的问题。
当化学家在论文中报告一个反应时,读者看到的是最终优化的条件——最佳催化剂、最佳溶剂、最佳温度。但在这之前,研究者可能在实验室里尝试了数十种条件组合,绝大多数以失败告终。
这些失败信息几乎从未被记录。
这意味着,从公开数据中,AI 看到的是:「底物 A + 底物 B + 催化剂 Pd(PPh₃)₄ → 产物 C,产率 85%」。但它完全不知道:换成 Ni 催化剂产率只有 5%,换 DMF 为甲苯完全不反应,温度降到 40°C 需要反应 72 小时而非 2 小时。
发表的数据只是冰山一角。冰山之下是数量庞大得多的「暗知识」。
3. 模板提取的精度陷阱
从具体反应中自动提取反应模板(Reaction Template)是几乎所有数据驱动方法的第一步。但这一步本身就充满陷阱:
- 立体化学信息的丢失
:大部分自动化工具在提取模板时无法正确处理手性中心、E/Z 异构等立体化学细节 - 反应条件无法编码
:模板描述的是「什么键断裂、什么键形成」,但催化剂、溶剂、温度、添加剂这些对反应成败至关重要的信息,通常不在模板的范畴内 - 「相似但不相同」的边界模糊
:两个反应看起来模板相同,但微妙的底物差异可能导致完全不同的反应结果
AI 学不到的「隐知识」
纯数据驱动方法的核心假设是:所有必要的化学知识都可以从反应实例中归纳出来。但这个假设是错的。
以下这些知识,几乎不可能从现有的反应数据库中学到:
反应机理
一个 Suzuki 偶联反应在数据中看起来只是一个「芳基卤化物 + 硼酸 → 偶联产物」的模式。但它背后涉及氧化加成、转金属化、还原消除三步催化循环,每一步的能量学、动力学特征、中间体结构——这些决定了哪些底物能反应、哪些不能、什么条件最优。
没有机理理解,AI 就只是在做表面模式的统计匹配。
物理有机化学原理
为什么某些底物在 SN2 反应中选择性地从一个方向进攻? 为什么 Bredt’s rule 告诉我们某些桥环系统不能形成双键? 为什么某些芳香亲电取代反应中,取代基的定位效应不是简单的邻/间/对?
这些原理是化学家数百年积累的「理论工具箱」,它们构成了反应预测的先验知识。一个掌握了这些原理的化学家,即使面对从未见过的底物,也能做出合理的预测。但一个只见过 1000 个反应实例的 ML 模型,面对超出训练分布的新底物时,往往会给出荒谬的建议。
战术组合(Tactical Combinations)
这是高级合成设计中最精妙的技巧之一。化学家经常将两个或多个反应串联甚至交叉进行,在一个操作中完成多个化学变换。例如:
- Michael 加成 + 烷基化
的一锅法串联 - 多组分反应
(如 Ugi 反应、Passerini 反应)一步构建复杂分子
这种「战术组合」在数据中表现为独立的反应实例,但其真正的价值在于组合策略——这是一种更高层次的化学智能,远非简单的模板匹配所能覆盖。
条件选择的经验法则
工业界有大量关于试剂、溶剂、催化剂选择的实用指南(如 GSK 的试剂选择指南、溶剂选择指南),这些知识来源于数十年的工艺开发经验,涵盖了毒性、成本、可扩展性等实际考量因素。
一个在实验室里成功的反应,如果需要用到每克 500 美元的催化剂或高致癌性溶剂,它在工业上就是不可行的。 这种实用性判断,几乎不可能从学术文献的反应数据中学到。
混合路线:AI + 专家知识的成功实践
如果纯数据驱动走不通,那什么方法有效?
答案是**「混合算法」**——将 AI 的搜索和计算能力与化学专家的知识编码结合起来。
Synthia(原 Chematica):一个标杆案例
Synthia 是目前最成功的计算机辅助合成规划系统之一。它的核心设计哲学是:
- 反应规则由专家手工编码
,而非从数据中自动提取。每位专家规则都经过严格的化学验证,确保可靠性 - 搜索算法利用网络的拓扑特性
,通过智能评分函数引导搜索方向,避免在不 promising 的路径上浪费时间 - 战术组合作为一等公民
,系统知道何时可以将两个反应串联执行,从而减少合成步骤
2018 年,Synthia 规划的合成路线在实验室中被成功执行;2020 年,它完成了多个复杂天然产物的合成规划并在实验中验证,包括 (+)- dichroanone、(−)-tautomycin 和 (+)-magellanine。
关键在于:这些成就并非来自更大的数据集或更强的 GPU,而是来自更深入的化学知识编码。
立体化学预测的突破
传统 ML 模型在立体化学预测上的表现一直很差——数据太少、特征不够描述性。但 2021 年 Grzybowski 团队提出了一种创新方法:用非共价相互作用向量作为描述符,让 ML 模型学习立体选择性。
这说明了一个重要原则:不是 ML 不行,而是需要用正确的「语言」来描述化学问题。 而这种「语言」的设计,恰恰需要专家知识。
对领域发展的四条建议
基于以上分析,论文提出了几条切实可行的建议:
1. 数据清洗是第一优先级
在训练任何模型之前,必须先对反应数据库进行系统性清洗:
剔除所有 k=1 的多组分反应(错误率极高) 对长时间保持 k=1 的反应模板进行人工审查 引入自动化的结构验证和质量检查流程
2. 将专家知识注入 ML 管线
具体的做法包括:
用物理有机化学原理设计更有意义的分子描述符 将反应机理信息(中间体、过渡态)编码进模型 让 ML 模型学习化学家的启发式规则(如 Hanessian 的「视觉意象」方法) 用强化学习从人类专家的反馈中学习偏好
3. 收集和共享负面数据
化学界需要建立一个类似 Open Reaction Database 的平台,鼓励研究人员提交失败的实验。这不仅能帮助 ML 模型学习「什么不行」,也能避免其他研究者重复已知的失败路径。
4. 让化学家参与算法开发
最终用户是合成化学家,而不是算法工程师。当前的很多逆合成工具之所以在实验室中不被接受,根本原因是开发者和用户之间的沟通鸿沟。只有让化学家深度参与工具的设计、测试和反馈,才能开发出真正有用的系统。
更大的图景:化学是一门「信息不完整」的科学
这篇论文引发的思考,远不止于逆合成规划这一个具体问题。
它揭示了一个更深层的事实:化学,尤其是合成化学,是一门「信息极度不完整」的科学。
在蛋白质折叠领域,所有需要的信息原则上都编码在氨基酸序列中——这是一个自包含的问题。但在合成化学中,公开的文献只记录了成功路径的「最优快照」,大量关键的决策过程、失败的尝试、隐含的经验判断都被省略了。
这意味着,无论我们收集多少公开数据,都只是在采样一个极度偏倚的分布。要打破这个困境,需要的不是更大的算力或更多的数据,而是将化学家的隐性知识显性化,让 AI 能够接触到那些「写在实验室笔记本里、但从未出现在论文中」的知识。
正如论文最后所言:
「算法专家与合成化学家之间的更紧密合作,将是弥合计算机算法与化学合成复杂性之间鸿沟的关键。」
这不是一个技术问题,而是一个文化和协作方式的问题。
原始论文: Strieth-Kalthoff, F.; Szymkuć, S.; Molga, K.; Aspuru-Guzik, A.; Glorius, F.; Grzybowski, B. A. Artificial Intelligence for Retrosynthetic Planning Needs Both Data and Expert Knowledge. J. Am. Chem. Soc. 2024, 146, 11005–11017.
相关阅读:
Szymkuć et al. (2021) — 有机化学是否真的在指数增长?(本系列上一篇) Segler, Preuss & Waller (2018) — 用深度神经网络规划化学合成(Nature) Coley et al. (2019) — AI 规划的流动合成机器人平台(Science) Open Reaction Database — 开放反应数据库计划
上期回顾: 《有机化学真的在指数增长吗?数据告诉你另一个故事》——分析了反应类型增长率、数据质量问题及其对 AI 合成规划的影响。本文在此基础上,进一步探讨了 AI 逆合成的根本性挑战与出路。
夜雨聆风