AI科学家68%的时候在「表演科研」?

2.5 万次实验之后，发现 AI 科学家 68% 的时间在假装做科研

一篇 4 月 20 日上传 arXiv 的论文《AI scientists produce results without reasoning scientifically》，做了一件没人做过的事。

它让三个最强的 AI 模型——GPT-4o、Claude Sonnet 4.5、GPT-OSS-120B——在化学、物理、生物等 8 个领域反复科研：提假设、做测试、看证据、下结论。总共跑了 25,000 次。

然后找了一组领域专家，把 AI 的每一步推理拆开，手工标注：这一步它在干什么？它看了实验结果吗？它因为新证据改变了想法吗？

773 条推理链条，逐条解剖。

结论让人脊背发凉。

AI 做实验的能力还行。但实际科研的能力，基本为零。

68%：拿到实验结果就当没看见

这是论文最核心的发现。

在 68% 的推理步骤中，AI 拿到实验结果后直接跳过了“这个结果说明了什么”这一步。它做了一个测试，得出了一个数字，然后继续输出下一个假设或结论——就好像实验根本没发生过。

只有 26% 的情况下，AI 会因为新证据修正自己的判断。

71% 的情况下，AI 从头到尾没有更新过一次信念。初始假设是什么，最后结论还是什么。中间那个实验，它确实跑了，但没用。

论文用的词很冷静：“当前 AI 科学智能体执行了科学工作流，但没有展现科学推理。”

翻译成人话：它会跑实验。它不会做科研。

这篇论文还做了另一件事。

把 AI 的表现拆开，算每个因素分别起了多大作用：模型本身的推理能力、任务环境的复杂度、提示词和工具调用。

结果让人瞠目结舌。

模型推理能力贡献了 41.4%。任务环境贡献了 30.1%。

提示词和工具调用只贡献了 1.5%。

你花了三个月打磨提示词和工具链。换一个推理能力更强的模型，比所有这些努力加起来有效 27 倍。

还有一个数学事实藏在论文里：科研过程的错误传播及累积相当显著。

一个需要 5 步关键推理的科学问题：提出假设、设计实验、拿到数据、解释数据、修正结论。即使每一步单独看都合理，整件事靠谱的概率不超过 5%。

当前的评估方法，跑 benchmark、看最终分数，检测不到 AI 在中间步骤的推理失败。这些失败在最终分数上完全看不见。

除非推理本身成为训练目标，否则 AI 产出的“科学知识”，自己都没法证明可信。

最后一个问题不是问 AI 的。是问我们的：如果一个工具 68% 的时间在假装思考，我们还相信它产出的“知识”吗？