AI 科学家不再只是一个概念
AI 科学家这个词,终于从概念营销里落到了一条真实链路上。
OpenAI 这一周发了两件事:一个是 AI chemist 进高通量实验室,跑完 10,080 次化学反应;另一个是 LifeSciBench,把生命科学研发任务拆给模型做专家级评测。
这两个发布放在一起看,信号很清楚。
模型有没有“懂科学”,已经不是最有用的问题。更该问的是:它能不能进入文献、假设、实验设计、自动化实验、数据解释、复现实验这条链路,并且让每一环都留下可检查的证据。
AI 科研的拐点,不在模型说出一个漂亮答案,而在它把一个假设推进到可复现实验结果。

先看实验室
OpenAI 的 AI chemist 案例,研究的是 Chan-Lam coupling。
这是一类药物化学里常见、但条件优化很麻烦的反应。OpenAI 用 GPT-5.4 配合 Molecule.one 的 Maria 高通量实验室,在 OAI-M1-03 中运行了 10,080 次反应。
这里最关键的点,不是模型写了一段建议。
它参与的是一整套迭代:读文献,提出 proposal,设计反应条件,让自动化实验室执行,再根据实验数据安排下一轮 follow-up。
数字比口号扎实。
在优化条件下,88% 的 boronic acids 和 83% 的 sulfonamides 测试对象产率提升。平均产率从 16.6% 提到 25.2%,超过 30% 产率的反应占比从 15.6% 提到 37.5%。
OpenAI 还让人类化学家做了 bench scale 复现。14 对底物里,11 对产率提升,其中 8 对提升超过 2 倍。
10,080 次实验真正有冲击力的地方,是它把 AI 的输出从“文本建议”变成了“实验记录”。
当然,这不是一个人在办公室里打开聊天窗口就能复刻的能力。
它依赖专门的高通量实验室、化学家的 steering、proposal 选择、实验计划修正和独立验证。OpenAI 原文也用了 near-autonomous,而不是 fully autonomous。
这份克制反而重要。
如果 AI 科研要进入真实世界,它先要能在强约束、低风险、可重复的环境里证明自己。药物化学里的反应优化,就是一个很合适的入口。

评测也变硬了
LifeSciBench 的价值,是把“模型会不会生物学”这个问题拆细了。
它不是普通问答题库。OpenAI 说,LifeSciBench 包含 750 个真实生命科学研发任务,由 173 位具备 Ph.D. 训练、并有生物技术或制药行业经验的专家科学家编写和评审。
这些任务的难点不在背概念。
79% 的任务需要多步推理或决策,平均每个任务 4 步。数据包里还有 1,062 个附件,包括图、PDF、表格、序列文件、结构或化学文件、网页引用等。
评价也不是一句“答对了”。
专家写了 19,020 条 rubric,平均每个任务 25 条评价标准。模型要处理证据、分析附件、解释实验、设计优化方案,还要在复杂材料里保持判断稳定。
这很接近真实研发里的麻烦:材料不干净,证据不完整,格式很杂,答案经常要跨文件、跨图表、跨实验条件拼出来。
OpenAI 给了一个很刺眼的数字:GPT-Rosalind 在 artifact-heavy 任务上的通过率,从 text-only 的 45.1% 降到 28.1%。
这说明科学工作里的“脏活”还很硬。读图、读表、读附件、对齐实验上下文,比在干净文本里推理难得多。
真正的科学能力,不只体现在模型会解释术语,还体现在它能处理那些又杂、又脏、又不能丢证据的研发材料。

闭环才是信号
把 AI chemist 和 LifeSciBench 合起来看,OpenAI 讲的不是一个“聪明模型”的故事。
它讲的是工作流。
过去我们讨论 AI 做科研,常常卡在两个极端:要么把它当搜索引擎和论文助手,要么想象它一夜之间发现新药、拿诺奖。
这两个说法都太粗。
真正会先发生变化的地方,是科研链路里那些高频、可验证、可自动化的环节。
读一批文献,整理候选假设;把假设翻译成实验矩阵;让自动化平台执行;从失败实验里找下一轮方向;再让人类专家挑出值得复现的结果。
这条链路跑得越短,研发反馈就越快。
AI 科学家的第一阶段,很可能还谈不上“替代科学家”,更现实的价值是把科学家的想法更快送到实验台上。
这里的差别很大。
如果模型只会给建议,科学家还要自己把建议改成实验计划,自己排条件,自己判断异常数据。链路很长,很多想法死在中间。
如果模型能接住文献、假设、实验设计和数据解释,科学家要做的就变成审题、设边界、挑方向、做复现。
人的位置没有消失,但人的工作重心变了。
别急着神化
这件事不能写成“AI 已经能独立做科学”。
OpenAI 的 AI chemist 从 2026-03-04 第一次 prompt,到 2026-06-04 把结果分享给外部专家,整个过程约 3 个月。中间有人类 steering,有专门实验平台,有独立复现。
LifeSciBench 也还只是 self-contained tasks。
它能测试模型在一组封闭任务里的表现,但不等于模型已经能长期推进一个真实研发项目。真实项目里会有预算、伦理、安全、设备排期、数据质量、专利边界和组织协作,这些都不会自动消失。
生物化学还有双用风险。
一个能优化反应、理解结构文件、提出实验设计的系统,也必须被放进严格的权限、审计和安全边界里。越接近真实实验室,越不能只看能力增长。
这也是为什么复现数字很关键。
在 AI chemist 案例里,人类化学家复现了 14 对底物,11 对产率提升。这种外部于模型文本的验证,才让结果站得住。
没有复现,漂亮曲线只是漂亮曲线。
科研里的 AI 不能只交一段答案,它必须交出实验日志、失败记录、复现证据和安全边界。
普通人该看什么
这件事对普通技术人也有提醒。
别只盯着模型参数、榜单分数和演示视频。更有价值的问题是:你的专业领域里,有没有一条类似的闭环?
比如:
• 输入是不是足够结构化,能被模型稳定读取; • 假设能不能被拆成可执行步骤; • 执行结果有没有客观指标; • 失败样本能不能回流; • 人类专家能不能做独立复核。
如果这些条件都没有,AI 再强也很容易停在“会说”这一层。
如果这些条件具备,变化会快很多。模型不需要一次性替代整个职业,它只要把一个关键循环压短,就会改变生产节奏。

我更关心的是后者。
AI 科学家第一次具体了,原因不在科幻电影式的研究员形象,而在它开始接触真实科研里最朴素的东西:证据、实验、失败、复现。
这些东西不性感,但它们决定一项能力能不能离开发布会。
夜雨聆风