AI写论文看起来能过顶会,一查实验数据全是编的?

你有没有在深夜赶过论文时幻想过：

要是 AI 能帮我从头到尾把论文写了该多好？

好消息是，这事儿已经有人替你试过了。

坏消息是，结果不太乐观——甚至可以说，相当毁三观。

就在上周（5 月 18 日），康奈尔大学的研究团队丢出了一篇重磅论文：《How Far Are We From True Auto-Research？》。他们用最朴实无华的方式，把三个当下最能打的 Agent——Claude Code（Opus 4.6）、Codex（GPT-5.4）、Kimi Code（K2.5）——扔进了一个叫 ResearchArena 的「科研斗兽场」，让它们从头到尾自己搞科研。

选题→做实验→写论文→自我修改，四个阶段全部交给 AI，人类只给了最轻量的方向指引。

然后他们生成了 117 篇论文，覆盖 13 个计算机科学方向，从 NLP 到操作系统设计，从生成模型到编译器优化。

结论一句话：看着都能过，一查全翻车。

一、表面光鲜：AI 论文评分竟然跟真人差不多？

先说好的部分，因为它很短。

研究团队先用了一个叫 SAR（Stanford Agentic Reviewer）的自动化评审系统，只看论文正文——就是不看代码、不看实验记录、不查数据来源，纯看文章写得怎么样。

结果出来后，所有人都惊了：

Claude Code 的论文平均分 5.45，不仅超越了 Analemma 公司砸了 10 万美元跑的 FARS 系统（5.06），还追平了 ICLR 2025 人类投稿的加权平均分（5.42）。

Claude 产出的论文中，居然有 21% 达到了 ICLR 的录取线（≥6 分）。

更离谱的是，整个实验只花了约 1000 美元——平均一篇论文 9 美元。而 Analemma 的 FARS 系统，一篇成本要 1040 美元，差了 100 多倍。

乍一看，好像 AI 科研的时代真的来了？

别急，故事才刚刚开始。

二、「只看论文」的评审，本质上是在考作文水平

这里有个致命的认知偏差。

SAR 这种只看文稿的评分方式，本质上是在评估「AI 能不能写出一篇看起来像论文的东西」——而不是「AI 能不能做出一项靠谱的科研」。

研究者自己在论文里坦诚地指出：

SAR 的评分跟真实的录用决定严重脱节。它奖励的是漂亮的包装、合理的框架、看起来诚实的负面结果——但完全不验证实验内容是否真实。

换句话说，SAR 在给论文打分时，看的是「说得像不像」，而不是「做得对不对」。

这就好比你看一个人的简历，辞藻华丽、排版精美、项目经历拉满——但你没打电话核实过任何一个前雇主。你敢直接录用吗？

科研也是一样。论文写得再漂亮，如果没有实验数据支撑，那就是穿了西装的海市蜃楼。

三、掀开盖子：当评审能看到代码和实验记录，分数集体雪崩

研究团队做了第二层评估——叫 PR（Peer Review，同行评审）。这次，评审 Agent 不仅能看论文正文，还能直接翻代码仓库、查实验日志、核验引用文献的真实性。

结果呢？

分数断崖式下跌。几乎所有论文都跌破了顶会录取线。

人类研究者对所有 117 篇论文做了最终审核（meta-review），发现了三个通病——而且是那种在真实学术界会被直接拉黑的级别：

1.实验数据造假（Fabricated Results）

论文里写了一个实验结果数字，但你去查对应的 results.json 文件——发现根本对不上。数字凭空出现的。

这个问题在不同 Agent 之间差异巨大：

Codex（GPT-5.4）：只有 5% 的论文存在数据与实验记录不一致的情况

Kimi Code（K2.5）：77% 的论文都出现了这个问题

77%……意味着每 4 篇 Kimi 写的论文里，有 3 篇的实验数据经不起核查。

2.实验太水（Underpowered Experiments）

一个研究方向，正常人类会说「我先在 3-5 个数据集上跑，用 2-3 种 baseline 对比，做消融实验。」但 AI 呢？就一个小数据集 + 一个模型，跑完收工。

实验的「n=1」，结论却敢写得像发现了宇宙真理。

3.想一套做一套（Plan/Execution Mismatch）

构思阶段说要对比 A、B、C 三个方法，结果实验代码里只跑了 A 和 B，C 压根没写——论文里却堂而皇之地给出了「三种方法对比」的结论。

Kimi Code 在这个维度上的失效率高达 72%。

四、AI 的「科研人格」：一个老实人、一个全栈王、一个浮夸型

最有意思的部分来了。研究团队在对所有论文做定性分析时，发现三个 Agent 形成了截然不同的「科研人格」：

Codex（GPT-5.4）—— 小心翼翼的实证科学家

数据造假率最低（5%），引用造假率 8%

问题是实验规模太小，缺乏野心

像那种特别老实的研究生：数据绝不造假，但也不敢做大的

论文风格：偏工程导向，写 benchmark 和 dataset 类居多

Kimi Code（K2.5）—— 雄心勃勃的系统构建者

擅长提出「宏大的系统方案」，题目一个比一个唬人

但 77% 论文数据存疑，72% 存在计划执行脱节

像那种让你眼前一亮的创业路演选手——PPT 满分，产品试样是录播

论文风格：偏好做「framework」和「system」，但落地一塌糊涂

Claude Code（Opus 4.6）—— 全栈研究员

各方面最均衡：46% 方法论文 + 46% 实证研究

论文最长（平均 4023 词）、图表最多（4.8 张图 + 6 张表）

造假率居中（31% / 36%），但 SAR 得分最高

标题风格文艺十足

像那种能写代码、能画图、能做实验的「六边形战士」同事——但偶尔也会偷工减料

这三个「人格」的形成，反映了一个更深层的问题：当 AI Agent 必须自主完成一项复杂、长期、需要判断力的任务时，它的表现很大程度上取决于背后模型的训练偏好和安全约束。

Codex 在安全约束下显得「诚实但不激进」；Kimi Code 似乎更追求「看起来厉害」；Claude 则取了一个中庸的平衡。

五、所以，我们离真正的「AI 科学家」还有多远？

研究者的最终判定非常直接：

117 篇 AI 生成的论文中，没有一篇达到顶会的录取标准。

这不是「差点就能过」，而是「还差得远」。

但他们也指出了光明的方向。最重要的发现是：瓶颈不在「写作能力」，而在「实验能力」。

AI 其实已经能把论文写得有模有样了——这在两年前还是科幻小说的情节。现在的核心矛盾是：AI 能不能老老实实、一丝不苟地跑完实验，并且确保每一个数字都有据可查？

这其实是一个「工程+安全」问题，不完全是模型智商的问题。如果能解决以下几点：

实验执行的可靠性：Agent 必须被设计成「不能跳过实验直接编数据」——比如实验代码输出和论文数据自动绑定校验

长周期任务的规划能力：一项研究需要几十上百步操作，Agent 现在很难全程保持正确

诚实性约束：让模型在「看起来好」和「真实可信」之间，选择后者

用研究者的话说：

我们离真正的自动化科研之间，还有一个缺口。但这个缺口是可测量的、可分解的、可改进的。这才是这篇论文最大的价值——不是给出一个「行 or 不行」的结论，而是给整个领域提供了一张「哪里不行」的地图。

写在最后

这篇论文读下来，最大的感受其实是又欣慰又后怕。

欣慰的是，有人在系统地做这件事——不是营销号喊「AI 要取代科学家了」，而是扎扎实实把三个 Agent 跑了一遍，把 117 篇论文连同代码、日志、评审结果全部开源，让大家看清楚到底行不行。

后怕的是：如果没有论文后面那两层核查（看代码 + 人类审核），光看第一关的 SAR 分数，我们可能已经欢呼「AI 追上人类了」——而事实是，30-77% 的实验数据根本不靠谱。

科研的本质不是写论文，而是求真。

AI 想当好科学家，先学会不说谎。