你有没有在深夜赶过论文时幻想过:
要是 AI 能帮我从头到尾把论文写了该多好?
好消息是,这事儿已经有人替你试过了。
坏消息是,结果不太乐观——甚至可以说,相当毁三观。
就在上周(5 月 18 日),康奈尔大学的研究团队丢出了一篇重磅论文:《How Far Are We From True Auto-Research?》。他们用最朴实无华的方式,把三个当下最能打的 Agent——Claude Code(Opus 4.6)、Codex(GPT-5.4)、Kimi Code(K2.5)——扔进了一个叫 ResearchArena 的「科研斗兽场」,让它们从头到尾自己搞科研。
选题→做实验→写论文→自我修改,四个阶段全部交给 AI,人类只给了最轻量的方向指引。
然后他们生成了 117 篇论文,覆盖 13 个计算机科学方向,从 NLP 到操作系统设计,从生成模型到编译器优化。
结论一句话:看着都能过,一查全翻车。
一、表面光鲜:AI 论文评分竟然跟真人差不多?
先说好的部分,因为它很短。
研究团队先用了一个叫 SAR(Stanford Agentic Reviewer)的自动化评审系统,只看论文正文——就是不看代码、不看实验记录、不查数据来源,纯看文章写得怎么样。
结果出来后,所有人都惊了:
Claude Code 的论文平均分 5.45,不仅超越了 Analemma 公司砸了 10 万美元跑的 FARS 系统(5.06),还 追平了 ICLR 2025 人类投稿的加权平均分(5.42)。
Claude 产出的论文中,居然有 21% 达到了 ICLR 的录取线(≥6 分)。
更离谱的是,整个实验只花了 约 1000 美元——平均一篇论文 9 美元。而 Analemma 的 FARS 系统,一篇成本要 1040 美元,差了 100 多倍。
乍一看,好像 AI 科研的时代真的来了?
别急,故事才刚刚开始。
二、「只看论文」的评审,本质上是在考作文水平
这里有个致命的认知偏差。
SAR 这种只看文稿的评分方式,本质上是在评估「AI 能不能写出一篇看起来像论文的东西」——而不是「AI 能不能做出一项靠谱的科研」。
研究者自己在论文里坦诚地指出:
SAR 的评分跟真实的录用决定严重脱节。它奖励的是漂亮的包装、合理的框架、看起来诚实的负面结果——但完全不验证实验内容是否真实。
换句话说,SAR 在给论文打分时,看的是「说得像不像」,而不是「做得对不对」。
这就好比你看一个人的简历,辞藻华丽、排版精美、项目经历拉满——但你没打电话核实过任何一个前雇主。你敢直接录用吗?
科研也是一样。论文写得再漂亮,如果没有实验数据支撑,那就是穿了西装的海市蜃楼。
三、掀开盖子:当评审能看到代码和实验记录,分数集体雪崩
研究团队做了第二层评估——叫 PR(Peer Review,同行评审)。这次,评审 Agent 不仅能看论文正文,还能直接翻代码仓库、查实验日志、核验引用文献的真实性。
结果呢?
分数断崖式下跌。几乎所有论文都跌破了顶会录取线。
人类研究者对所有 117 篇论文做了最终审核(meta-review),发现了三个通病——而且是那种在真实学术界会被直接拉黑的级别:
1.实验数据造假(Fabricated Results)
论文里写了一个实验结果数字,但你去查对应的 results.json 文件——发现根本对不上。数字凭空出现的。
这个问题在不同 Agent 之间差异巨大:
Codex(GPT-5.4):只有 5% 的论文存在数据与实验记录不一致的情况
Kimi Code(K2.5):77% 的论文都出现了这个问题
77%……意味着每 4 篇 Kimi 写的论文里,有 3 篇的实验数据经不起核查。
2.实验太水(Underpowered Experiments)
一个研究方向,正常人类会说「我先在 3-5 个数据集上跑,用 2-3 种 baseline 对比,做消融实验。」但 AI 呢?就一个小数据集 + 一个模型,跑完收工。
实验的「n=1」,结论却敢写得像发现了宇宙真理。
3.想一套做一套(Plan/Execution Mismatch)
构思阶段说要对比 A、B、C 三个方法,结果实验代码里只跑了 A 和 B,C 压根没写——论文里却堂而皇之地给出了「三种方法对比」的结论。
Kimi Code 在这个维度上的失效率高达 72%。
四、AI 的「科研人格」:一个老实人、一个全栈王、一个浮夸型
最有意思的部分来了。研究团队在对所有论文做定性分析时,发现三个 Agent 形成了截然不同的「科研人格」:
Codex(GPT-5.4)—— 小心翼翼的实证科学家
数据造假率最低(5%),引用造假率 8%
问题是实验规模太小,缺乏野心
像那种特别老实的研究生:数据绝不造假,但也不敢做大的
论文风格:偏工程导向,写 benchmark 和 dataset 类居多
Kimi Code(K2.5)—— 雄心勃勃的系统构建者
擅长提出「宏大的系统方案」,题目一个比一个唬人
但 77% 论文数据存疑,72% 存在计划执行脱节
像那种让你眼前一亮的创业路演选手——PPT 满分,产品试样是录播
论文风格:偏好做「framework」和「system」,但落地一塌糊涂
Claude Code(Opus 4.6)—— 全栈研究员
各方面最均衡:46% 方法论文 + 46% 实证研究
论文最长(平均 4023 词)、图表最多(4.8 张图 + 6 张表)
造假率居中(31% / 36%),但 SAR 得分最高
标题风格文艺十足
像那种能写代码、能画图、能做实验的「六边形战士」同事——但偶尔也会偷工减料
这三个「人格」的形成,反映了一个更深层的问题:当 AI Agent 必须自主完成一项复杂、长期、需要判断力的任务时,它的表现很大程度上取决于背后模型的训练偏好和安全约束。
Codex 在安全约束下显得「诚实但不激进」;Kimi Code 似乎更追求「看起来厉害」;Claude 则取了一个中庸的平衡。
五、所以,我们离真正的「AI 科学家」还有多远?
研究者的最终判定非常直接:
117 篇 AI 生成的论文中,没有一篇达到顶会的录取标准。
这不是「差点就能过」,而是「还差得远」。
但他们也指出了光明的方向。最重要的发现是:瓶颈不在「写作能力」,而在「实验能力」。
AI 其实已经能把论文写得有模有样了——这在两年前还是科幻小说的情节。现在的核心矛盾是:AI 能不能老老实实、一丝不苟地跑完实验,并且确保每一个数字都有据可查?
这其实是一个「工程+安全」问题,不完全是模型智商的问题。如果能解决以下几点:
实验执行的可靠性:Agent 必须被设计成「不能跳过实验直接编数据」——比如实验代码输出和论文数据自动绑定校验
长周期任务的规划能力:一项研究需要几十上百步操作,Agent 现在很难全程保持正确
诚实性约束:让模型在「看起来好」和「真实可信」之间,选择后者
用研究者的话说:
我们离真正的自动化科研之间,还有一个缺口。但这个缺口是可测量的、可分解的、可改进的。这才是这篇论文最大的价值——不是给出一个「行 or 不行」的结论,而是给整个领域提供了一张「哪里不行」的地图。
写在最后
这篇论文读下来,最大的感受其实是 又欣慰又后怕。
欣慰的是,有人在系统地做这件事——不是营销号喊「AI 要取代科学家了」,而是扎扎实实把三个 Agent 跑了一遍,把 117 篇论文连同代码、日志、评审结果全部开源,让大家看清楚到底行不行。
后怕的是:如果没有论文后面那两层核查(看代码 + 人类审核),光看第一关的 SAR 分数,我们可能已经欢呼「AI 追上人类了」——而事实是,30-77% 的实验数据根本不靠谱。
科研的本质不是写论文,而是求真。
AI 想当好科学家,先学会不说谎。
夜雨聆风