乐于分享
好东西不私藏

AI科学家68%的时候在「表演科研」?

AI科学家68%的时候在「表演科研」?

2.5 万次实验之后,发现 AI 科学家 68% 的时间在假装做科研

一篇 4 月 20 日上传 arXiv 的论文《AI scientists produce results without reasoning scientifically》,做了一件没人做过的事。
它让三个最强的 AI 模型——GPT-4o、Claude Sonnet 4.5、GPT-OSS-120B——在化学、物理、生物等 8 个领域反复科研:提假设、做测试、看证据、下结论。总共跑了 25,000 次。
然后找了一组领域专家,把 AI 的每一步推理拆开,手工标注:这一步它在干什么?它看了实验结果吗?它因为新证据改变了想法吗?
773 条推理链条,逐条解剖。
结论让人脊背发凉。
AI 做实验的能力还行。但实际科研的能力,基本为零。

68%:拿到实验结果就当没看见

这是论文最核心的发现。
在 68% 的推理步骤中,AI 拿到实验结果后直接跳过了“这个结果说明了什么”这一步。它做了一个测试,得出了一个数字,然后继续输出下一个假设或结论——就好像实验根本没发生过。
只有 26% 的情况下,AI 会因为新证据修正自己的判断。
71% 的情况下,AI 从头到尾没有更新过一次信念。初始假设是什么,最后结论还是什么。中间那个实验,它确实跑了,但没用。
论文用的词很冷静:“当前 AI 科学智能体执行了科学工作流,但没有展现科学推理。”
翻译成人话:它会跑实验。它不会做科研。

花三个月打磨提示词,不如换个更聪明的基础模型

这篇论文还做了另一件事。
把 AI 的表现拆开,算每个因素分别起了多大作用:模型本身的推理能力、任务环境的复杂度、提示词和工具调用。
结果让人瞠目结舌。
模型推理能力贡献了 41.4%。任务环境贡献了 30.1%。
提示词和工具调用只贡献了 1.5%。
你花了三个月打磨提示词和工具链。换一个推理能力更强的模型,比所有这些努力加起来有效 27 倍。

四步之后,整条推理链基本作废

还有一个数学事实藏在论文里:科研过程的错误传播及累积相当显著。
一个需要 5 步关键推理的科学问题:提出假设、设计实验、拿到数据、解释数据、修正结论。即使每一步单独看都合理,整件事靠谱的概率不超过 5%。
当前的评估方法,跑 benchmark、看最终分数,检测不到 AI 在中间步骤的推理失败。这些失败在最终分数上完全看不见。
除非推理本身成为训练目标,否则 AI 产出的“科学知识”,自己都没法证明可信。
最后一个问题不是问 AI 的。是问我们的:如果一个工具 68% 的时间在假装思考,我们还相信它产出的“知识”吗?
相关阅读:
燃烧瓶砸向Altman家:暴力反AI运动的拐点,已经过了
教科书骗了我们300年:郁金香泡沫可能从未存在
AI正在接管编程:谷歌75%代码由AI生成

本文由 AI 辅助撰写,内容经人工审核后发布。