这篇论文还做了另一件事。把 AI 的表现拆开,算每个因素分别起了多大作用:模型本身的推理能力、任务环境的复杂度、提示词和工具调用。结果让人瞠目结舌。模型推理能力贡献了 41.4%。任务环境贡献了 30.1%。提示词和工具调用只贡献了 1.5%。你花了三个月打磨提示词和工具链。换一个推理能力更强的模型,比所有这些努力加起来有效 27 倍。
四步之后,整条推理链基本作废
还有一个数学事实藏在论文里:科研过程的错误传播及累积相当显著。一个需要 5 步关键推理的科学问题:提出假设、设计实验、拿到数据、解释数据、修正结论。即使每一步单独看都合理,整件事靠谱的概率不超过 5%。当前的评估方法,跑 benchmark、看最终分数,检测不到 AI 在中间步骤的推理失败。这些失败在最终分数上完全看不见。除非推理本身成为训练目标,否则 AI 产出的“科学知识”,自己都没法证明可信。最后一个问题不是问 AI 的。是问我们的:如果一个工具 68% 的时间在假装思考,我们还相信它产出的“知识”吗?相关阅读:燃烧瓶砸向Altman家:暴力反AI运动的拐点,已经过了教科书骗了我们300年:郁金香泡沫可能从未存在AI正在接管编程:谷歌75%代码由AI生成本文由 AI 辅助撰写,内容经人工审核后发布。