上周OpenAI发了一篇论文,说的是GPT-5.4跑进一个化学实验室,自己设计实验、自己跑反应、自己分析数据,最后改进了一个药物合成里的关键反应。
注意,不是"帮化学家查文献"那种辅助。是它自己决定改什么、怎么改、下一步该试什么。
人类化学家大部分时间在旁边看着。
真的,我读这篇论文的时候反复确认了好几遍。这跟以前那些"AI辅助药物研发"的新闻稿完全是两个物种。
我一个一个说。
AI自己决定要改哪个反应
先说背景。有机化学是所有小分子药物的根基。抗癌药、抗菌药、降压药,都是从一个个化学反应里造出来的。
但有机合成有一个残酷的现实:科学家只能测试自己能造出来的分子。一个反应如果产率太低、副产物太多,化学家可能就得放弃一个本来很有希望的药物分子,或者花几个月甚至几年另找路线。
所以合成是药物发现的最大瓶颈。这不是比喻,这是每天在药企实验室里发生的事。
这次GPT-5.4盯上的,是一个叫Chan-Lam偶联的反应。这个反应专门用来搭碳氮键,而碳氮键在药物分子里到处都是。但麻烦在于,这个反应对某一类重要的分子(伯磺酰胺)特别不好使,历来产率都很低。
偏偏磺酰胺这一族又极其重要,抗癌药里有它,抗生素里有它,利尿剂里也有它。
所以你看,这是一个典型的"又难又有用"的问题。完美。
那么OpenAI是怎么做的?他们把GPT-5.4接到了Molecule.one公司的Maria身上。Maria是一套化学AI agent系统,后面连着一个能全自动跑实验的高通量实验室。
然后他们给了系统一个非常开放的目标:"去改进某一类重要反应。"
就这一句。至于改哪个反应、怎么改、从哪个方向入手,全部自己看着办。

10080次实验,比一个化学家干十年还多
然后就是最震撼的数据了。
两轮实验下来,Maria一共跑了10080个反应。
翻译成人话:一个化学家每天做三个反应,连做十年,也才做一万出头。AI两周跑完了。
你就说,这不是降维打击是什么。
但数量只是表象。真正厉害的是质量。
GPT-5.4从十种候选氧化剂中,精准锁定了TEMPO。而TEMPO并不是最显而易见的那个选项。四个外部评审的化学专家一致认为,这个发现是"新颖的、值得分享的"。
密歇根大学的药物化学副教授Tim Cernak的原话是:"高通量实验与现代AI的结合代表了科学发现的新前沿。"
具体效果是这样的:
在优化条件下,所测试的硼酸中有88%产率提升,磺酰胺中有83%提升。平均产率从16.6%涨到了25.2%。产率超过30%的反应占比,从15.6%提到了37.5%。
看着好像涨得不多?但你要知道,在药物化学里,产率从十几跳到二十几,意味着能从"基本没法用"变成"可以考虑"。从无法合成到可以合成,这就是一个分子的生死线。
而且更妙的是,系统在第二轮实验里还发现了:TEMPO可以换成便宜得多的类似物4-hydroxy-TEMPO,性能几乎不打折。
说实话,这不只是"AI帮了忙"。这是AI做了一个化学家会做的完整决策链:发现问题、提出假设、设计实验、分析结果、优化方案、考虑成本。

但最让我意外的,不是AI做了什么
是人在这个过程里干了什么。
OpenAI在论文里把流程描述为"近乎自主",不是"完全自主"。他们很坦诚地列了人类做的工作。
你猜人类主要在干嘛?
写引导prompt。从系统排名的候选方案里挑几个送实验室。纠正一些实验细节。帮忙备料配试剂。亲手重复关键实验做验证。
全过程中人类做过的最大一次干预是什么?叫停了用DMSO当溶剂。因为化学家担心DMSO会和用作对照的强氧化剂起反应。
就这。整个三个月里最大的一次人工介入,是一句"别用那个,不安全"。
说真的,我看到这里的时候还是很震撼的。这个AI for Science的理念
不是因为AI太强了。是因为人的角色变化得如此之快。从"做实验的人",变成了"把关的人"。从执行者,变成了决策者。
这在药物研发行业意味着什么,你懂的。一个经验丰富的药物化学家的核心价值,正在从"能熟练操作多少个反应"转变为"能在AI提出的100个方案里挑出最靠谱的那一个"。
听着好像不错对吧。但问题是,有多少化学家准备好了做这种转变?

不只化学。OpenAI同一周还发了两件大事
化学实验的论文是6月17日发的。同一天,OpenAI还发布了LifeSciBench,一个专门评测AI做生命科学研究能力的基准。
这个基准有多大?750个任务,173位博士级科学家出题,19020条评分标准,453位专家评审。每一项任务都是真实科研场景:解读实验证据、设计实验方案、评估转化风险、决定下一步做什么。没有一道是"选择题"那种简单问答。
97%的评审者拥有博士学位,平均12年行业经验。超过96%的评审认为这些题目"反映了真实科研工作"。
然后6月18日,又发了一篇。OpenAI o3 Deep Research帮助波士顿儿童医院的专家,重新分析了376个此前无法确诊的罕见病儿童病例。结果找出了18个新诊断,额外诊断率4.8%。
有一个叫Kyra的女孩,9岁开始出现肌肉无力,经历了将近20年的检查、治疗、咨询,始终没有一个明确的诊断。AI重新分析她的基因组数据后,把她的病锁定在HSPB8基因的一个突变上,确诊为肌纤维肌病。诊断通知打给她的时候,离她28岁生日还有一周。
我看到这些时,真的起鸡皮疙瘩。
波士顿儿童医院Manton中心的主任Alan Beggs说了一句特别坦诚的话:"像我这样的研究者,不可能把8000种不同的疾病全装在脑子里。这就是AI的力量。"
三件事放在一起看,一个清晰的路线图就出来了:AI不只是聊天工具了。它在实验室跑实验,在医院翻基因组,在基准测试里做科研级别的推理。科学发现的速度,正在被一种新的方式重新定义。

"近乎自主"这四个字,到底意味着什么
OpenAI很谨慎。他们用了"near-autonomous"这个词,不是"fully autonomous"。
他们反复强调:人类的判断仍然不可或缺。模型提出想法,人类做高层引导和把关。实验细节需要人纠正,关键结果需要人手验证。安全评估和风险控制也不是AI能做的。
但你要看清楚这个趋势。
六个月前,GPT-5刚能做到"降低无细胞蛋白合成的成本",那还是在人的主导下。三个月前,GPT-5.4已经能"近乎自主"地改进一个药物合成反应。那六个月后呢?
LifeSciBench的数据给出了一个有趣的参照。GPT-Rosalind(一个专门为生命科学调教过的模型)在"科学沟通"类任务上的通过率已经从GPT-5.5的56.3%跳到了71.1%。在"转化"类任务上,从36.8%跳到57.7%。
但"实验设计与优化"类任务上,通过率只有30.7%。"数值计算"类任务更是只有14.8%。
你看到那个模式了吗?AI最擅长的是综合已有知识、做沟通和推理。最不擅长的是从零创造、精确操作、独立跑通全流程。
这不就是现在大多数知识工作者的真实处境吗?用AI查资料、写报告、做分析,很强。但让它独立负责一个端到端的项目,还是差点意思。
对药企、化学家和普通人的真实影响
先说药企。
药物研发的成本高得离谱。根据业界数据,把一个新药从实验室带到市场上,平均需要10-15年,花费超过10亿美元。而其中大量时间和金钱,都花在了"试"上。试点这个分子能不能合成,试那个路线产率够不够。
如果AI能把这个"试"的过程加速100倍(10080个反应 vs 化学家每天3个),药物的研发周期可能从15年变成什么?坦白讲,我不知道准确答案。但方向是明确的。
这对罕见病患者来说尤其重要。很多罕见病因为患者太少,药企根本没有经济动力去研发。但如果AI把研发成本砍掉一个数量级,"不值得做"的项目可能就变成"可以做"了。
再说化学家。
说实话,我觉得化学家不会"消失"。但他们的工作内容会发生根本性变化。就像计算器没有消灭数学家,但改变了数学家的工作方式一样。
未来的药物化学家,可能不再花80%的时间在实验台前。他们会花更多时间在:理解AI为什么提出某个方案、判断哪个假设值得深入、在AI跑完一万次实验后决定下一步怎么走。
说白了,从"动手的人"变成"动脑的人"。这对有些人来说是解放,对有些人来说是威胁。取决于你愿不愿意跨出舒适区。
最后说普通人。
你可能觉得"药物化学跟我有什么关系"。有关系。你吃的每一种药、你家人用的每一种治疗方案,都是从这些反应里来的。AI加速了药物发现,意味着新药更快上市、更多罕见病有药可治、药价可能因为研发成本降低而下降。
当然,这些"可能"都还在路上。奥本海默那句老话,"理论变成现实的速度,总是超出预期",在AI时代变得更加真实了。
我最想问的,不是AI能做到什么
而是我们准备好了吗。
OpenAI在这篇论文的安全章节里写了一段很有意思的话。他们说,选择Chan-Lam偶联这个题目,是经过深思熟虑的:这是一个有明确科学价值的合法药物化学问题,不涉及毒素、化学武器或任何有害应用。
但他们在同一段里也承认:"这次实验没有测试或证明系统能帮助有害应用。随着这些能力的提升,我们将继续评估新出现的风险,加强防护措施。"
你看,他们自己也在摸着石头过河。
3月4日,他们输入了第一个prompt。6月4日,他们把结果交给外部专家。6月17日,论文公开发布。三个月,从一个想法,到一篇可以发表的科学发现。
我不确定这是兴奋还是不安。可能是两者都有。
但我知道一件事:当AI开始跑进实验室自己动手的时候,"AI只是工具"这个说法,可能需要重新定义了。
这篇论文的最后一句写的是:"更长期的愿景是探索专家引导的AI辅助重新分析,能否帮科学理解跟上发现的速度。"
"帮科学理解跟上发现的速度。"
这句话我反复看了好几遍。它在说,AI不仅在加速我们做科学的速度,它还在加速我们发现的速度。而人类,还在努力跟上。
我不知道这算不算"AI科学家的黎明"。但我知道,GPT-5.4在化学实验室里自主跑完10080次实验的那个瞬间,历史确实翻了一小页。
而翻这一页的人,可能并不是人类。
引用来源
OpenAI: A near-autonomous AI chemist improves a challenging reaction in medicinal chemistry —https://openai.com/index/ai-chemist-improves-reaction/ OpenAI: Introducing LifeSciBench — https://openai.com/index/introducing-life-sci-bench OpenAI: Using AI to help physicians diagnose rare genetic diseases affecting children —https://openai.com/index/diagnose-rare-childhood-diseases 量子位: GPT发AI原创新成果了 —https://www.qbitai.com/2026/06/436842.html OpenAI Research Paper: TEMPO Improves Generality and Decreases Oxidative Deboronation — PDF Preprint NEJM AI: AI-Assisted Genomic Reanalysis —https://ai.nejm.org/doi/full/10.1056/AIcs2501343 Molecule.one — https://molecule.one
夜雨聆风