科研AI要会改错

你让 AI 查资料，它很快能给出一段漂亮回答。

但科学发现不是把答案说顺。更难的是：答案错了以后，它能不能知道错在哪里，留下证据，再改掉自己的做题方法。

这篇论文讲的就是这个问题。它的原题很硬，叫 Self-Revising Discovery Systems for Science。我们今天不讲公式，只抓住一个教学问题：

一个科研 AI，为什么不能只会回答，还要会改自己的规则？

本文读的是 arXiv:2606.01444v1^[1]，作者是 Fiona Y. Wang 和 Markus J. Buehler。

想象一个学霸的错题本。

它不是把正确答案抄一遍。一本好错题本会写清楚四件事：

第一，原题是什么。

第二，我用了什么方法。

第三，哪一步错了。

第四，下次遇到类似题，要换什么方法。

科研 AI 也一样。它真正有价值的地方，不只是生成一段文字，而是把每一步研究都记成一本可检查的错题本。

三个动作别混淆

论文里最重要的区分，是三件事：检索、搜索、发现。

检索像去书架上拿一本已经存在的书。东西本来就在那儿，只是你把它找出来。

搜索像在同一本练习册里换一种解法。题型没变，工具没变，只是你找到了新的路线。

发现更难。它像你突然意识到：这道题不能再按原来的章节来分。你要新开一页，增加一个新的概念，甚至换一把尺子来量。

所以，论文说的“发现”，不是主观感觉上的新鲜。它指的是研究系统的表示方式变了：多了新的变量，新的工具，新的检验方法，或者新的结果类型。

为什么要给成果贴标签

论文用了一个词：类型。

这里不用想得太抽象。类型就是便利贴上的标签。

一张实验数据，贴“数据”。

一段程序，贴“代码”。

一个模型，贴“模型”。

一次失败的检验，贴“失败记录”。

一张图，贴“图表”。

这些标签看起来麻烦，但它们决定一件事：以后别人能不能查清楚这个结论是怎么来的。

如果一个 AI 只给你最后一句话，却不告诉你它用了哪些数据、跑了哪些程序、拒绝了哪些模型，那它像一个只写答案、不写过程的学生。答案可能对，也可能只是蒙对。

论文把这种来龙去脉叫 provenance，可以理解成“证据链”。科研 AI 必须把证据链留下来。

真正的门槛在这里

只记录过程还不够。

科研还需要门槛。

论文里举了一个蛋白质力学的例子。系统先用旧模型解释蛋白质里哪些位置更柔软。后来，新的蛋白质例子把旧模型“打破”了。系统不能只是在旧公式里多塞一个参数。它要问：是不是应该加入一个新的理解方式？

论文中有一个门槛叫 MDL，可以粗略理解成“最短说明长度”。一个新模型不能只靠变复杂来赢。它要在解释更多证据的同时，仍然足够简洁。多花的复杂度要值回票价。

这像老师批改答案：

你不能把每一道错题都背成一个特例。你要找到一个更短、更稳的规律。

论文还讲了一个纤维网络的例子。系统比较了两种解释：只数有多少根纤维，还是看纤维朝哪个方向排列。最后，方向结构通过了检验。这里的重点不是“AI 又画了一张图”，而是它记录了候选模型、被拒绝的模型、验收门槛和压力测试。

会改规则，不等于乱改

这里最容易误解。

有人一听“AI 会自我修正”，就以为它可以自己想什么就改什么。

不是这样。

论文强调的自我修正，是有记录、有门槛、有旧证据保护的修正。

旧证据不能偷偷删掉。

失败模型不能假装没出现过。

新规则不能空口加入。

每一次改变，都要能回答：旧东西怎么搬到新框架里？哪些内容是新框架真正多出来的？这些新增内容有没有通过检验？

这也是为什么论文会用范畴论。范畴论是一种数学语言，擅长描述“有哪些东西，以及东西之间能怎么变”。放在这里，它的作用不是让文章更玄，而是给科研 AI 的证据链和规则变化起一个严格名字。

怎么判断一个科研 AI 靠不靠谱

不用先看它说得多像专家。

先看四个问题。

第一，它有没有保存原始数据、程序、模型和图表的关系？

第二，它有没有记录失败、拒绝和被替换的方案？

第三，它有没有明确的验收门槛，而不是觉得“看起来不错”？

第四，当它提出新概念时，能不能说明旧证据怎么保留下来，新东西又新增在哪里？

能回答这些问题，它才像一个能做研究的系统。

答不上来，它更像一个很会写总结的助手。

一句话收住

这篇论文最值得记住的一句话是：科研 AI 的下一步，不是只会给答案，而是要像一本可检查的错题本，知道自己为什么改、改了什么、凭什么通过。

引用链接

[1] arXiv:2606.01444v1: https://arxiv.org/abs/2606.01444