
你让 AI 查资料,它很快能给出一段漂亮回答。
但科学发现不是把答案说顺。更难的是:答案错了以后,它能不能知道错在哪里,留下证据,再改掉自己的做题方法。
这篇论文讲的就是这个问题。它的原题很硬,叫 Self-Revising Discovery Systems for Science。我们今天不讲公式,只抓住一个教学问题:
一个科研 AI,为什么不能只会回答,还要会改自己的规则?
本文读的是 arXiv:2606.01444v1[1],作者是 Fiona Y. Wang 和 Markus J. Buehler。
想象一个学霸的错题本。
它不是把正确答案抄一遍。一本好错题本会写清楚四件事:
第一,原题是什么。
第二,我用了什么方法。
第三,哪一步错了。
第四,下次遇到类似题,要换什么方法。
科研 AI 也一样。它真正有价值的地方,不只是生成一段文字,而是把每一步研究都记成一本可检查的错题本。

三个动作别混淆
论文里最重要的区分,是三件事:检索、搜索、发现。
检索像去书架上拿一本已经存在的书。东西本来就在那儿,只是你把它找出来。
搜索像在同一本练习册里换一种解法。题型没变,工具没变,只是你找到了新的路线。
发现更难。它像你突然意识到:这道题不能再按原来的章节来分。你要新开一页,增加一个新的概念,甚至换一把尺子来量。
所以,论文说的“发现”,不是主观感觉上的新鲜。它指的是研究系统的表示方式变了:多了新的变量,新的工具,新的检验方法,或者新的结果类型。

为什么要给成果贴标签
论文用了一个词:类型。
这里不用想得太抽象。类型就是便利贴上的标签。
一张实验数据,贴“数据”。
一段程序,贴“代码”。
一个模型,贴“模型”。
一次失败的检验,贴“失败记录”。
一张图,贴“图表”。
这些标签看起来麻烦,但它们决定一件事:以后别人能不能查清楚这个结论是怎么来的。
如果一个 AI 只给你最后一句话,却不告诉你它用了哪些数据、跑了哪些程序、拒绝了哪些模型,那它像一个只写答案、不写过程的学生。答案可能对,也可能只是蒙对。
论文把这种来龙去脉叫 provenance,可以理解成“证据链”。科研 AI 必须把证据链留下来。

真正的门槛在这里
只记录过程还不够。
科研还需要门槛。
论文里举了一个蛋白质力学的例子。系统先用旧模型解释蛋白质里哪些位置更柔软。后来,新的蛋白质例子把旧模型“打破”了。系统不能只是在旧公式里多塞一个参数。它要问:是不是应该加入一个新的理解方式?
论文中有一个门槛叫 MDL,可以粗略理解成“最短说明长度”。一个新模型不能只靠变复杂来赢。它要在解释更多证据的同时,仍然足够简洁。多花的复杂度要值回票价。
这像老师批改答案:
你不能把每一道错题都背成一个特例。你要找到一个更短、更稳的规律。
论文还讲了一个纤维网络的例子。系统比较了两种解释:只数有多少根纤维,还是看纤维朝哪个方向排列。最后,方向结构通过了检验。这里的重点不是“AI 又画了一张图”,而是它记录了候选模型、被拒绝的模型、验收门槛和压力测试。

会改规则,不等于乱改
这里最容易误解。
有人一听“AI 会自我修正”,就以为它可以自己想什么就改什么。
不是这样。
论文强调的自我修正,是有记录、有门槛、有旧证据保护的修正。
旧证据不能偷偷删掉。
失败模型不能假装没出现过。
新规则不能空口加入。
每一次改变,都要能回答:旧东西怎么搬到新框架里?哪些内容是新框架真正多出来的?这些新增内容有没有通过检验?
这也是为什么论文会用范畴论。范畴论是一种数学语言,擅长描述“有哪些东西,以及东西之间能怎么变”。放在这里,它的作用不是让文章更玄,而是给科研 AI 的证据链和规则变化起一个严格名字。
怎么判断一个科研 AI 靠不靠谱
不用先看它说得多像专家。
先看四个问题。
第一,它有没有保存原始数据、程序、模型和图表的关系?
第二,它有没有记录失败、拒绝和被替换的方案?
第三,它有没有明确的验收门槛,而不是觉得“看起来不错”?
第四,当它提出新概念时,能不能说明旧证据怎么保留下来,新东西又新增在哪里?
能回答这些问题,它才像一个能做研究的系统。
答不上来,它更像一个很会写总结的助手。

一句话收住
这篇论文最值得记住的一句话是:科研 AI 的下一步,不是只会给答案,而是要像一本可检查的错题本,知道自己为什么改、改了什么、凭什么通过。
引用链接
[1] arXiv:2606.01444v1: https://arxiv.org/abs/2606.01444
夜雨聆风