OS:AI灌水学术发表-夜雨聆风

OS:AI灌水学术发表

终于有期刊对于 AI 参与学术研究、审稿和发表过程的方式以及对结果的影响进行了一个实证研究。Organization Science 的主编、一位副主编和两位高级主编形成了一个 Task Force，追踪从 2021 年 1 月之后这五年间，Org Science 对于 AI 参与的写作和 AI 参与的审稿的文档进行研究，发现了一些基本问题。

最基本的结论是，因为 AI 的参与，投稿量增多了，但质量并没有变好，甚至可能更差。这是一个基本的结论，它体现在两方面。

写作方面：大家用了 AI，从 2022 年 11 月 ChatGPT 出来之后，审稿量就直接增加了大概 40%。写作变得容易，大家投稿也就容易了。投稿量·激增也与 Publish or Perish 的激励压力极其相关，尤其是对 UTD 和 FT50 比较在乎的学校。这些学校的人发表的东西就更多，查数对他们非常重要。数量本身就是一个很在意的指标，所以投稿量也在激增。

核心问题在于稿件本身的质量是下降的。你用 AI，它分成几档：

15% 以下的 AI 使用。30%。。。50%。。。

70% 以上的 AI 使用，基本上都是垃圾。审稿的拒绝率很高，第一轮大部分都被拒了。这可以非常清楚地 Stratified Data，AI 用得过高，被拒的概率就很大。这意味着，很多根本就不应该送出来的稿件现在也送出来了。

但另一方面，审稿人也开始用 AI 来审稿。审稿人的审稿意见可能也过于简单，比人工审稿过于简单。过于强调理论，忽视了实证和数据的一些细节。

所以，整个 AI 并没有 Refine the Process，只是 Increased the Scale，增加了大家灌水的概率。最后发表出来的东西质量并没有提升。它有几个指标专门研究稿件的质量，比如它的易读性、特定性。审稿也有它的一些指标，反正就是说，所有这些质量指标基本上都在下降，而数量指标在增长。

这说明一个什么问题？它跟一般的 Population 不一样。比如你研究身高，研究一般群体，它与你的营养、作息和环境等有什么关系。你再去研究 NBA 球员，看同样的问题，那可能跟一般人的关系不是特别一样，因为那些人已经是一个 Extreme Sized Sample，那个群体本身就是一个经过挑选的。

我们经常讲 Compression Effect，说 AI 的应用可以提高平均水平，但对于学术发表来讲，平均水平是不够的，只有最高水平才能被发表。也就是说，不是说惊天动地的最高水平，而是常规 Population 里的最高水平，比如前 10%、前 5%。AI 并没有 Compress，并没有把下面的平均水平提高到这样一个程度。你用 AI 还是在低水平上重复，没有增加你的 Novelty，没有增加你的 Contribution。

所以，对于思想工作者的精英群体而言，应用 AI 并没有提升这个群体中能够发表的人的平均水准。下面这些 Would Be，Wannabe，Aspire to Be 的疑似者、想充当者，这些想在 UTD 或 FT 发表的人，大部分人也没有被提升到能够进入发表圈的水准。所以这些人基本上也是在灌水，最后被拒绝了。那时候你发现你只是一个分母。你应用了 AI，应用 AI 也没有提高你到前 10% 的水准。

它专门有一个指标，是说非英文母语国家的学术机构投稿量虽然在增加，但并没有提高它们的接受率。

总之，大概的意思就是说，顶刊中能发表的人还是这些人，话题还是这些话题。其他人应用了 AI 并没有能够进入这个 League。进入这个 League 里边的人，用不用 AI 都不是大问题，因为用它也会用得非常巧妙，知道怎么用，用到什么程度。这是大家应该能够清醒的。你完全凭一个 AI 做出一个别人意想不到的、非常 Novel、非常 Innovative 的东西，然后发表出来，这个概率不是特别大。

除非你本身就是一个专家，你知道某个研究领域内所有专家的喜好，把他们的喜好都搁到一块儿，写一篇组团表扬他们这个集体的文章。就像你去参加肖邦钢琴大赛，你把历届冠军或者本次所有评委的这些偏好综合起来，然后取最容易接受的演奏方法，那你可能对你进前三名会有所贡献。但前提是：

1. 你是专家。

2. 你能够知道专家想什么。

3. 你还能够把它呈现出来。

那这个本身就说明 You’re Already in the League，跟你这个 AI 本身，或者技法本身，或者你的 Strategy 本身关系不是特别大。

本文是Organization Science期刊 AI 特别工作组基于 2021 年 1 月 —2026 年 2 月的6,957 篇首次投稿与10,389 份文本格式评审意见完成的实证研究，是学界首个完整追踪生成式 AI 对学术期刊全流程影响的大样本分析，核心结论：AI 叠加 “发表即生存” 激励，正把学术系统推向 “重数量、轻质量” 的危险均衡。

一、数据与方法（Data & Measures）

1. 研究样本

覆盖 ChatGPT 发布（2022 年 11 月）前后 5 年数据，前两年为安慰剂期（Placebo Period）
投稿：以摘要为主要检测对象，验证全文一致性；评审：仅纳入系统直接输入的文本格式（占 79%）
检测工具：Pangram（v3.1），当前准确率最高的 AI 文本检测模型，假阳性极低（人类文本误判为 AI＜0.001）

2. 核心指标定义

AI Score（0–1）：文本 AI 生成程度，0 = 纯人工，1 = 纯 AI

0%–15%：几乎无 AI
15%–30%：人机协作（人主导）
30%–70%：AI 深度参与
70%+：AI 主导生成

写作质量

Flesch Reading Ease、Fog Index、SMOG、被动语态、术语滥用等
评审焦点

理论（Theory）、贡献（Contribution）、清晰度（Clarity）、数据（Data）、实证（Empirics）
机构激励

UTD Responder Schools（对 UTD 期刊列表发表计数激励反应强烈的院校）

二、AI 对投稿端的影响（AI in Submission Process）

1. 投稿量爆炸式增长

ChatGPT 后，期刊总投稿量暴涨 42%，远超疫情期间 20% 的增幅
纯人工投稿（0–15% AI）占比断崖式下跌，70%+ AI投稿占比持续飙升
到 2026 年 2 月，超半数投稿含 AI 写作

2. 写作质量全面下滑

可读性（Flesch Reading Ease）较 2021 年下降 1.28 个标准差
AI 得分越高，文本越晦涩：更长难词、更多名词化、更重术语、逻辑更空洞
仅少量指标改善（更少被动语态、更少模糊措辞），但整体更难读懂、更缺乏学术质感

3. 录用结果极度不利

AI＞30%是关键分水岭：

70%+ AI 稿件初审拒稿率 69.6%，送外审比例仅 30.4%
最终返修录用（R&R）仅3.2%，远低于低 AI 组的 11.9%

非英语母语机构作者使用 AI未获得任何优势，录用概率未提升
编辑并非刻意识别 AI，而是基于内容质量直接淘汰低质 AI 稿

4. 发表激励是核心推手

对UTD 列表等发表计数激励敏感的院校，AI 投稿增长显著更高
学者理性应对制度压力：用 AI 快速量产论文，满足数量指标，而非深耕质量
该趋势在全球多学科期刊普遍存在，并非管理学特例

三、AI 对评审端的影响（AI in Review Process）

1. AI 评审快速普及

当前超30% 评审含 AI 生成内容，30%–70% AI 组增长最快
审稿人用 AI 压缩时间，从数小时缩短至几分钟

2. 评审质量显著退化

写作质量同步下滑：可读性差、术语堆砌、表达僵硬
内容更单一、视角更狭窄

显著偏重理论（Theory）
明显忽视数据（Data）与实证（Empirics）

同一稿件的 AI 评审与人类评审相比，议题多样性大幅降低，缺乏深度批判

3. 对编辑决策的影响

AI 评审未显著改变录用 / 拒稿结果
编辑被迫投入更多精力甄别、过滤低质 AI 评审，人力成本剧增
期刊编委规模大幅扩张以应对负荷：副主编从 6 人扩至 11 人，资深主编从约 30 人扩至 60 人

四、发表端现状（Published Papers）

最终发表论文仍以纯人工 / 低 AI 为主（AI＜15% 占绝对主体）
70%+ AI 稿件几乎无法进入顶刊 / 优质期刊
高 AI 拒稿稿更易在普通期刊 / 预印本发表，形成 “质量分层”

五、深层机制解释（Underlying Mechanisms）

认知投降（Cognitive Surrender）

作者 / 审稿人过度依赖 AI 输出，放弃深度思考、修改与校验，导致内容空洞、逻辑薄弱。
策略性灌水（Strategic Submission）

低质稿件作者用 AI “包装” 文本，试图用流畅度掩盖研究缺陷，但被编辑快速识别。
制度激励扭曲（Incentive Distortion）

高校以发表数量、期刊列表、奖金驱动科研，AI 恰好降低 “量产” 成本，放大扭曲。

六、未来走向与对策（Future Scenarios & Solutions）

1. 三种可能情景

情景一（过渡态）

劣质 AI 稿持续被拒，作者逐渐收敛
情景二（恶化）

审稿人 burnout 退出，AI 审 AI 稿，学术共同体空心化
情景三（优质均衡）

制度改革 + 技术进步，AI 成为创新工具

2. 走向 “Better Equilibrium” 的关键路径

期刊层面

用 AI 检测工具做初审分流，而非一刀切拒稿
可采用阶梯式投稿费抑制批量灌水
明确奖励创新性、前沿性，而非格式完美度

高校层面

放弃数量化考核，回归质量评价
终身教职评审真正读论文、看贡献，而非数篇数
停止对期刊列表发表的现金奖励

学者层面

把 AI 作为协作工具（提纲、数据分析、润色），而非代笔
拒绝 “认知投降”，保持学术创作的深度思考

七、核心贡献与重要启示

首次用大样本数据证明：AI 并未提升学术写作质量，反而拉低整体水平
破除误区：AI没有抹平语言壁垒，非英语母语作者未获益
指出根源：问题不在 AI，而在学术激励制度
警示风险：放任数量激励，将导致科研创新能力退化、同行评审体系崩溃