AI 做出了结果,但它根本不知道自己在干什么-夜雨聆风

AI 做出了结果,但它根本不知道自己在干什么

最近看到一篇刚发布的论文，读完之后觉得很多人都应该知道这件事。

论文来自 arXiv，发布于 2026 年 4 月，题目直接翻译过来是：《AI 科学家能产出结果，但没有进行真正的科学推理》。

研究团队在 8 个不同的科学领域里，让各种 AI 代理系统自主”做科研”——跑实验、分析数据、得出结论。

总共跑了超过 25,000 次任务。

然后他们不只看”答案对不对”，他们还去拆解 AI 的每一步推理过程，标注它有没有：

– 提出假设
– 收集证据
– 根据新信息修正判断

结果非常有意思。

68%：在超过三分之二的推理轨迹中，AI 收集了证据，但在后续推理里根本没用上这些证据。

26%：只有不到四分之一的情况，AI 会因为”发现自己的假设被推翻了”而改变判断。

41.4% vs 1.5%：AI 的行为差异，41% 取决于底层模型本身，只有 1.5% 取决于你怎么设计提示词、工具调用、工作流。

换句话说：AI 在走程序，不在做思考。

这篇论文讲的是”AI 科学家”，但它揭示的问题，跟每一个正在使用 AI 工具的人都有关。

第一个启示：结果正确，不等于推理正确。

AI 可以给你一个看起来合理的方案、一篇看起来逻辑通顺的文章、一个看起来有依据的分析。但它到底是”推理出来的”，还是”猜出来的”？这两种情况，输出可能一模一样。

这对知识工作者意味着什么？你拿 AI 生成的内容去教别人的时候，你有没有真正验证过背后的逻辑？

第二个启示：改提示词解决不了根本问题。

很多人遇到 AI 输出质量差，第一反应是”我的 prompt 写得不够好”。这篇论文告诉你：在认知层面的缺陷，调 prompt 只能改变 1.5%。

这不是说 prompt 不重要。而是说，你要清楚 AI 擅长什么、不擅长什么，而不是无限期待工程优化能解决一切。

第三个启示：会”走程序”的 AI，和真正会思考的人，差距正在变成机会。

AI 越来越擅长执行有结构的工作流。但科学研究里最难的部分——面对矛盾证据时调整自己的判断、在不确定中形成可靠结论——它还差得很远。

这恰恰是人类思维最有价值的地方。

我们这代人活在一个奇怪的时代：AI 工具已经足够强大，强大到让很多人以为它”什么都会”。

但这篇论文提醒我：工具能做到的事情，和工具真正理解的事情，是两回事。

一个创业者、一个内容创作者、一个知识工作者，真正的护城河不是”会用 AI”，而是能判断 AI 输出的质量、能在 AI 给不了答案的地方给出自己的答案。

这个能力，目前还没有办法被外包出去。

*参考来源：Ríos-García et al., “AI scientists produce results without reasoning scientifically”, arXiv:2604.18805, 2026.*