让AI「自己改自己的作业」?NousResearch新论文实锤:越改越烂,345个词能删到只剩102个!-夜雨聆风

让AI「自己改自己的作业」?NousResearch新论文实锤:越改越烂,345个词能删到只剩102个!

导读
NousResearch发布论文Autoreason，用实验数据证明了一个让整个AI圈都不太舒服的结论：传统的「让模型自己批评自己、自己改自己」的self-refinement循环，大概率会把输出越改越差。更狠的是，某些baseline甚至会把一篇345词的文案删到只剩102词——模型在系统性地删除自己的工作。Haiku 3.5搭配他们的新方法拿到42/42满分，而传统refinement baseline反而跑输了单次直出。

2023年，所有人都信了一个美丽的故事

时间拉回2023年。

那一年，卡内基梅隆和Google联合发了一篇叫Self-Refine的论文，入选了NeurIPS 2023主会。核心主张简单到让人兴奋：让同一个大模型先写初稿，再给自己提反馈，然后迭代修改——不需要额外训练数据，不需要人类标注，性能就能提升约20%。

▲ Self-Refine论文入选NeurIPS 2023主会，提出”同模自评自改”范式

这个叙事太完美了。它意味着你不需要更大的模型、更多的数据、更贵的训练——只要让模型「多想一会儿」，输出就会变好。

整个行业迅速跟进。OpenAI、Anthropic、DeepMind都在内部搞self-critique项目。创业公司把「自我改进」写进BP。推理时计算（inference-time compute）成了最火的方向之一。

大家默认了一个前提：多改几轮，总比少改几轮强。

然而三年过去，有人拿着数据回来了，说：这个前提，错了。

NousResearch的反击：你们的模型根本不会「停手」

2026年4月，NousResearch在GitHub上放出了一个叫Autoreason的项目，附带完整论文。

标题已经把立场亮得明明白白——

Autoreason: Self-Refinement That Knows When to Stop

▲ NousResearch的Autoreason项目主页，README直接列出传统self-refinement的三大结构性缺陷

论文开篇就对准了传统self-refinement的三个致命问题，一条比一条扎心：

第一，Prompt Bias（提示偏差）。当你告诉模型「找出这段文字的问题」，它会怎么做？它会为了完成这个指令，硬找出根本不存在的问题。你让它挑刺，它就一定会挑出刺来——哪怕原文其实没什么毛病。

第二，Scope Creep（范围蔓延）。每一轮修改，模型都倾向于加内容、改结构、扩展范围。一轮又一轮，文本越来越长、越来越偏离原始目标，像一个永远刹不住车的编辑。

第三，Lack of Restraint（缺乏克制）。这是最要命的一条——模型几乎永远不会说「这版已经够好了，不用改了」。它的默认行为永远是继续动刀。

三条加在一起，结论就很清晰了：没有停止机制的self-refinement循环，天然就是一个退化系统。

数据有多残酷？345词删到102词

如果上面三条还像是理论分析，论文里的实验数据直接把问题摆到了台面上。

▲ 不同方法在15轮迭代中的词数变化——传统方法（Harsh critic等）疯狂膨胀或砍削，Autoreason保持稳定

论文给出了一组让人瞠目的数字：

Conservative baseline把一篇205词的GTM文案砍到了78词，直接删掉62%；
Harsh critic把一篇345词的pitch削到了102词，蒸发70%；
Critique-and-revise把一篇331词的policy文档切到了137词，干掉59%。

模型在干什么？它在系统性地删除自己的工作。

每一轮「优化」，都在把文本往更短、更空洞的方向推。不是在打磨，是在拆迁。

与此同时，Autoreason在同样的任务上，词数变化是：345→476，331→407，205→388。内容在增长，但保持可控。

满分42/42 vs 跑输单次直出：差距到底有多大

论文里最炸的一组结果：

Haiku 3.5 + Autoreason，在三项任务上拿到了42/42的Borda满分。

▲ 五种方法的平均Borda得分对比，Autoreason（27.8分，rank 1.8）远超所有baseline

而那些传统的refinement baseline呢？它们不只是没赢——它们把同一个模型的输出质量，拉到了比单次直出还低的水平。

你没看错。精心设计的多轮自我修改流程，最终效果还不如什么都不做，让模型一次性写完交卷。

代码任务上的数字同样扎眼：

Sonnet 4.6

：Autoreason拿到private-test准确率77%，单次直出只有73%；
Haiku 3.5

：在相同算力下，Autoreason40%vs best-of-6采样的31%；
Haiku 4.5

：优势消失，三种策略都来到60%左右——因为模型够强了，生成和评审之间的差距已经闭合。

最后这个细节特别值得注意：受益最大的反而是中档模型。太弱的模型生成不出足够多样的候选，太强的模型自己就能判断好坏。真正需要外部评审结构的，恰恰是那些「写得出来，但判不准」的中间地带。

Autoreason怎么治的？三版本盲选 + 允许「什么都不做」

Autoreason的解法说穿了就一句话：把「默认继续改」变成「默认保留现状，除非新版本真的更好」。

具体怎么做？

每一轮迭代同时生成三个候选版本：

A

：原始稿，完全不动；
B

：根据批评修改的新版本；
AB

：把A和B做融合的synthesis版本。

然后关键来了——谁来选？

传统做法是让写稿的模型自己打分。但论文明确指出，这行不通。刚写出这段文字的人，没办法公正地给自己打分。所以Autoreason用了3个全新的、不共享任何上下文的fresh judge做盲选，用Borda count聚合排名，平局时保守地让原稿胜出。

最精妙的是停止条件：如果原始版A连续两轮都赢了，系统判定已经收敛，自动停止。

这解决了传统self-refinement最致命的问题——你永远不知道什么时候该住手。现在有人帮你踩刹车了。

失败之后，谁能爬起来？62% vs 43%

还有一组数据特别能说明问题。

论文挑出了那些「第一次尝试双方都失败」的53道编程题，看后续谁能追回来：

Autoreason追回了33道，成功率62%；
单次直出（多采样）追回了23道，成功率43%。

差距接近20个百分点。这说明Autoreason真正的价值体现在失败之后——它能更好地分析哪里出了问题，并且只在值得改的时候再改。

从业者的反应：「我们半年前就不用critic agent了」

这篇论文的结论并不孤立。推特上的讨论显示，不少一线从业者早就踩过同样的坑。

▲ Anees Merchant：critic agent是当前技术栈中最被高估的组件之一，一半时间收益为负

Anees Merchant直接说：critic agent是当前AI技术栈中最被高估的组件。大家都在往pipeline里塞critic，但几乎没人严格做过和first-draft baseline的对比测试。他们团队的实践经验是，在生产环境中默认不用critic agent，只有在特定任务上能测到可量化的提升时才加——而一半的时候，所谓的「提升」其实是负数。