AI 做出了结果,但它根本不知道自己在干什么
最近看到一篇刚发布的论文,读完之后觉得很多人都应该知道这件事。
论文来自 arXiv,发布于 2026 年 4 月,题目直接翻译过来是:《AI 科学家能产出结果,但没有进行真正的科学推理》。
他们做了什么测试?
研究团队在 8 个不同的科学领域里,让各种 AI 代理系统自主”做科研”——跑实验、分析数据、得出结论。
总共跑了超过 25,000 次任务。
然后他们不只看”答案对不对”,他们还去拆解 AI 的每一步推理过程,标注它有没有:
– 提出假设
– 收集证据
– 根据新信息修正判断
结果非常有意思。
三个关键数字
68%:在超过三分之二的推理轨迹中,AI 收集了证据,但在后续推理里根本没用上这些证据。
26%:只有不到四分之一的情况,AI 会因为”发现自己的假设被推翻了”而改变判断。
41.4% vs 1.5%:AI 的行为差异,41% 取决于底层模型本身,只有 1.5% 取决于你怎么设计提示词、工具调用、工作流。
换句话说:AI 在走程序,不在做思考。
这和你有什么关系?
这篇论文讲的是”AI 科学家”,但它揭示的问题,跟每一个正在使用 AI 工具的人都有关。
第一个启示:结果正确,不等于推理正确。
AI 可以给你一个看起来合理的方案、一篇看起来逻辑通顺的文章、一个看起来有依据的分析。但它到底是”推理出来的”,还是”猜出来的”?这两种情况,输出可能一模一样。
这对知识工作者意味着什么?你拿 AI 生成的内容去教别人的时候,你有没有真正验证过背后的逻辑?
第二个启示:改提示词解决不了根本问题。
很多人遇到 AI 输出质量差,第一反应是”我的 prompt 写得不够好”。这篇论文告诉你:在认知层面的缺陷,调 prompt 只能改变 1.5%。
这不是说 prompt 不重要。而是说,你要清楚 AI 擅长什么、不擅长什么,而不是无限期待工程优化能解决一切。
第三个启示:会”走程序”的 AI,和真正会思考的人,差距正在变成机会。
AI 越来越擅长执行有结构的工作流。但科学研究里最难的部分——面对矛盾证据时调整自己的判断、在不确定中形成可靠结论——它还差得很远。
这恰恰是人类思维最有价值的地方。
我真正想说的:
我们这代人活在一个奇怪的时代:AI 工具已经足够强大,强大到让很多人以为它”什么都会”。
但这篇论文提醒我:工具能做到的事情,和工具真正理解的事情,是两回事。
一个创业者、一个内容创作者、一个知识工作者,真正的护城河不是”会用 AI”,而是能判断 AI 输出的质量、能在 AI 给不了答案的地方给出自己的答案。
这个能力,目前还没有办法被外包出去。
*参考来源:Ríos-García et al., “AI scientists produce results without reasoning scientifically”, arXiv:2604.18805, 2026.*
夜雨聆风