乐于分享
好东西不私藏

AI审稿,还没准备好

AI审稿,还没准备好

你有没有想过,未来评判你呕心沥血写出的科学论文的,可能不再是人类专家,而是一个AI?

随着投稿量激增,科学家们忙不过来,不少顶级学术会议已经开始悄悄让 AI 参与审稿。这听起来高效又酷炫,但一篇研究 [1] 却给这股热潮泼了一大盆冷水。研究者们通过大量实验发现,让今天的 AI 当审稿人,不仅可能让所有论文都变得“千篇一律”,而且你甚至只用花两块多钱,就能轻易骗它给你的论文打出高分。

第一个问题:AI审稿人是个“复读机”

这篇研究的第一个发现,叫做“蜂群思维”效应。简单说,就是AI审稿人没有自己的“个性”和独到见解。

研究者分析了顶级会议 ICLR 2026 超过七万五千条审稿意见后发现,人类专家给同一篇论文写的评语,常常各有侧重,有人看到亮点,有人发现致命伤。但 AI 呢?它们给出的评语相似度高得惊人。不只是评同一篇论文时意见容易“撞车”,哪怕看的是完全不同的论文,AI 也爱反反复复用那几个固定的问话模板,比如“你的方法对参数敏感吗?”或者“能不能再提供点细节?”。

这很糟糕。因为科学进步的关键,就在于汇集不同的视角,碰撞出新的火花。如果一群AI审稿人本质上在说着差不多的话,那就意味着我们正在失去多元化带来的宝贵智慧。研究还发现,AI 打的分数对未来该论文影响力的预测能力,远不如人类专家打的分数。

第二个问题:花两块五,就能让 AI 给你的论文“放水”

如果说“同质化”还只是让人担心,那第二个发现就更像一个现实存在的漏洞,研究者称之为“论文洗稿”。

操作流程简单得令人吃惊。你只需要把论文发给一个大语言模型,告诉它“请根据顶尖会议的审稿标准,帮我把这篇论文润色一下”,然后把生成的新版本再提交给AI审稿人。结果怎么样?论文的得分平均显著提升了0.28分(满分10分)。

这可不是因为科学内容真的变好了。研究者对比发现,所谓“润色”,并不是补充了实验、修正了逻辑,而主要是做了些表面的“语言化妆”——比如加了很多“也许”、“可能”这类让语气显得更谨慎的词,或者把“好”改成“出奇的强大”这类更夸张的强调词。更有甚者,AI会凭空杜撰出一些没有做过的实验分析,让文章看起来更“扎实”。

这个操作的全过程无需人工监督,成本每篇仅仅 0.25 美元。更关键的是,这种利用AI美化语言来刷高分的行为,目前并不违反任何会议规定。如果大家都开始“洗稿”,最后整个科学界的论文风格都会变得越来越像,形成一种可怕的“知识单一文化”。

我们的结论:别急着让AI“判卷”

看到这里你可能会问,既然人类审稿也有偏见,为什么不给更“高效”的AI一个机会呢?

论文作者解释说,这里有个关键区别。人类专家的偏见是“分布式”的,你有你的偏好,我有我的专长,大家一综合,很多偏见能互相抵消。但AI的偏见是“集中式”的,一旦某个模型有偏好,所有依赖它的审稿结果都会朝同一个方向偏,造成系统性的不公。

所以,这篇研究并不是要全盘否定AI。相反,它是在郑重呼吁,在把决定研究者职业生涯的“生杀大权”交给 AI 之前,我们必须先建立一套严格的“同行评审自动化科学”来评估它。在没通过足够的安全和多样性测试之前,AI 可以当助理,但绝不能让它当裁判。

[1] https://joe-baumann.com/aipeerreview.pdf