乐于分享
好东西不私藏

OS:AI灌水学术发表

OS:AI灌水学术发表

终于有期刊对于 AI 参与学术研究、审稿和发表过程的方式以及对结果的影响进行了一个实证研究。Organization Science 的主编、一位副主编和两位高级主编形成了一个 Task Force,追踪从 2021 年 1 月之后这五年间,Org Science 对于 AI 参与的写作和 AI 参与的审稿的文档进行研究,发现了一些基本问题。

最基本的结论是,因为 AI 的参与,投稿量增多了,但质量并没有变好,甚至可能更差。这是一个基本的结论,它体现在两方面。

写作方面:大家用了 AI,从 2022 年 11 月 ChatGPT 出来之后,审稿量就直接增加了大概 40%。写作变得容易,大家投稿也就容易了。投稿量·激增也与 Publish or Perish 的激励压力极其相关,尤其是对 UTD 和 FT50 比较在乎的学校。这些学校的人发表的东西就更多,查数对他们非常重要。数量本身就是一个很在意的指标,所以投稿量也在激增。

核心问题在于稿件本身的质量是下降的。你用 AI,它分成几档:

 15% 以下的 AI 使用。30%。。。50%。。。

 70% 以上的 AI 使用,基本上都是垃圾。审稿的拒绝率很高,第一轮大部分都被拒了。这可以非常清楚地 Stratified Data,AI 用得过高,被拒的概率就很大。这意味着,很多根本就不应该送出来的稿件现在也送出来了。

但另一方面,审稿人也开始用 AI 来审稿。审稿人的审稿意见可能也过于简单,比人工审稿过于简单。过于强调理论,忽视了实证和数据的一些细节。

所以,整个 AI 并没有 Refine the Process,只是 Increased the Scale,增加了大家灌水的概率。最后发表出来的东西质量并没有提升。它有几个指标专门研究稿件的质量,比如它的易读性、特定性。审稿也有它的一些指标,反正就是说,所有这些质量指标基本上都在下降,而数量指标在增长。

这说明一个什么问题?它跟一般的 Population 不一样。比如你研究身高,研究一般群体,它与你的营养、作息和环境等有什么关系。你再去研究 NBA 球员,看同样的问题,那可能跟一般人的关系不是特别一样,因为那些人已经是一个 Extreme Sized Sample,那个群体本身就是一个经过挑选的。

我们经常讲 Compression Effect,说 AI 的应用可以提高平均水平,但对于学术发表来讲,平均水平是不够的,只有最高水平才能被发表。也就是说,不是说惊天动地的最高水平,而是常规 Population 里的最高水平,比如前 10%、前 5%。AI 并没有 Compress,并没有把下面的平均水平提高到这样一个程度。你用 AI 还是在低水平上重复,没有增加你的 Novelty,没有增加你的 Contribution。

所以,对于思想工作者的精英群体而言,应用 AI 并没有提升这个群体中能够发表的人的平均水准。下面这些 Would Be,Wannabe,Aspire to Be 的疑似者、想充当者,这些想在 UTD 或 FT 发表的人,大部分人也没有被提升到能够进入发表圈的水准。所以这些人基本上也是在灌水,最后被拒绝了。那时候你发现你只是一个分母。你应用了 AI,应用 AI 也没有提高你到前 10% 的水准。

它专门有一个指标,是说非英文母语国家的学术机构投稿量虽然在增加,但并没有提高它们的接受率。

总之,大概的意思就是说,顶刊中能发表的人还是这些人,话题还是这些话题。其他人应用了 AI 并没有能够进入这个 League。进入这个 League 里边的人,用不用 AI 都不是大问题,因为用它也会用得非常巧妙,知道怎么用,用到什么程度。这是大家应该能够清醒的。你完全凭一个 AI 做出一个别人意想不到的、非常 Novel、非常 Innovative 的东西,然后发表出来,这个概率不是特别大。

除非你本身就是一个专家,你知道某个研究领域内所有专家的喜好,把他们的喜好都搁到一块儿,写一篇组团表扬他们这个集体的文章。就像你去参加肖邦钢琴大赛,你把历届冠军或者本次所有评委的这些偏好综合起来,然后取最容易接受的演奏方法,那你可能对你进前三名会有所贡献。但前提是:

1.  你是专家。

2.  你能够知道专家想什么。

3.  你还能够把它呈现出来。

那这个本身就说明 You’re Already in the League,跟你这个 AI 本身,或者技法本身,或者你的 Strategy 本身关系不是特别大。

本文是Organization Science期刊 AI 特别工作组基于 2021 年 1 月 —2026 年 2 月的6,957 篇首次投稿10,389 份文本格式评审意见完成的实证研究,是学界首个完整追踪生成式 AI 对学术期刊全流程影响的大样本分析,核心结论:AI 叠加 “发表即生存” 激励,正把学术系统推向 “重数量、轻质量” 的危险均衡


一、数据与方法(Data & Measures)

1. 研究样本

  • 覆盖 ChatGPT 发布(2022 年 11 月)前后 5 年数据,前两年为安慰剂期(Placebo Period)
  • 投稿:以摘要为主要检测对象,验证全文一致性;评审:仅纳入系统直接输入的文本格式(占 79%)
  • 检测工具:Pangram(v3.1),当前准确率最高的 AI 文本检测模型,假阳性极低(人类文本误判为 AI<0.001)

2. 核心指标定义

  • AI Score(0–1):文本 AI 生成程度,0 = 纯人工,1 = 纯 AI
    • 0%–15%:几乎无 AI
    • 15%–30%:人机协作(人主导)
    • 30%–70%:AI 深度参与
    • 70%+:AI 主导生成
  • 写作质量
    Flesch Reading Ease、Fog Index、SMOG、被动语态、术语滥用等
  • 评审焦点
    理论(Theory)、贡献(Contribution)、清晰度(Clarity)、数据(Data)、实证(Empirics)
  • 机构激励
UTD Responder Schools(对 UTD 期刊列表发表计数激励反应强烈的院校)

二、AI 对投稿端的影响(AI in Submission Process)

1. 投稿量爆炸式增长

  • ChatGPT 后,期刊总投稿量暴涨 42%,远超疫情期间 20% 的增幅
  • 纯人工投稿(0–15% AI)占比断崖式下跌,70%+ AI投稿占比持续飙升
  • 到 2026 年 2 月,超半数投稿含 AI 写作

2. 写作质量全面下滑

  • 可读性(Flesch Reading Ease)较 2021 年下降 1.28 个标准差
  • AI 得分越高,文本越晦涩:更长难词、更多名词化、更重术语、逻辑更空洞
  • 仅少量指标改善(更少被动语态、更少模糊措辞),但整体更难读懂、更缺乏学术质感

3. 录用结果极度不利

  • AI>30%是关键分水岭:
    • 70%+ AI 稿件初审拒稿率 69.6%,送外审比例仅 30.4%
    • 最终返修录用(R&R)仅3.2%,远低于低 AI 组的 11.9%
  • 非英语母语机构作者使用 AI未获得任何优势,录用概率未提升
  • 编辑并非刻意识别 AI,而是基于内容质量直接淘汰低质 AI 稿

4. 发表激励是核心推手

  • UTD 列表等发表计数激励敏感的院校,AI 投稿增长显著更高
  • 学者理性应对制度压力:用 AI 快速量产论文,满足数量指标,而非深耕质量
  • 该趋势在全球多学科期刊普遍存在,并非管理学特例

三、AI 对评审端的影响(AI in Review Process)

1. AI 评审快速普及

  • 当前超30% 评审含 AI 生成内容,30%–70% AI 组增长最快
  • 审稿人用 AI 压缩时间,从数小时缩短至几分钟

2. 评审质量显著退化

  • 写作质量同步下滑:可读性差、术语堆砌、表达僵硬
  • 内容更单一、视角更狭窄
    • 显著偏重理论(Theory)
    • 明显忽视数据(Data)与实证(Empirics)
  • 同一稿件的 AI 评审与人类评审相比,议题多样性大幅降低,缺乏深度批判

3. 对编辑决策的影响

  • AI 评审未显著改变录用 / 拒稿结果
  • 编辑被迫投入更多精力甄别、过滤低质 AI 评审,人力成本剧增
  • 期刊编委规模大幅扩张以应对负荷:副主编从 6 人扩至 11 人,资深主编从约 30 人扩至 60 人

四、发表端现状(Published Papers)

  • 最终发表论文仍以纯人工 / 低 AI 为主(AI<15% 占绝对主体)
  • 70%+ AI 稿件几乎无法进入顶刊 / 优质期刊
  • 高 AI 拒稿稿更易在普通期刊 / 预印本发表,形成 “质量分层”

五、深层机制解释(Underlying Mechanisms)

  1. 认知投降(Cognitive Surrender)
    作者 / 审稿人过度依赖 AI 输出,放弃深度思考、修改与校验,导致内容空洞、逻辑薄弱。
  2. 策略性灌水(Strategic Submission)
    低质稿件作者用 AI “包装” 文本,试图用流畅度掩盖研究缺陷,但被编辑快速识别。
  3. 制度激励扭曲(Incentive Distortion)
    高校以发表数量、期刊列表、奖金驱动科研,AI 恰好降低 “量产” 成本,放大扭曲。

六、未来走向与对策(Future Scenarios & Solutions)

1. 三种可能情景

  • 情景一(过渡态)
    劣质 AI 稿持续被拒,作者逐渐收敛
  • 情景二(恶化)
    审稿人 burnout 退出,AI 审 AI 稿,学术共同体空心化
  • 情景三(优质均衡)
    制度改革 + 技术进步,AI 成为创新工具

2. 走向 “Better Equilibrium” 的关键路径

  • 期刊层面
    • 用 AI 检测工具做初审分流,而非一刀切拒稿
    • 可采用阶梯式投稿费抑制批量灌水
    • 明确奖励创新性、前沿性,而非格式完美度
  • 高校层面
    • 放弃数量化考核,回归质量评价
    • 终身教职评审真正读论文、看贡献,而非数篇数
    • 停止对期刊列表发表的现金奖励
  • 学者层面
    • 把 AI 作为协作工具(提纲、数据分析、润色),而非代笔
    • 拒绝 “认知投降”,保持学术创作的深度思考

七、核心贡献与重要启示

  1. 首次用大样本数据证明:AI 并未提升学术写作质量,反而拉低整体水平
  2. 破除误区:AI没有抹平语言壁垒,非英语母语作者未获益
  3. 指出根源:问题不在 AI,而在学术激励制度
  4. 警示风险:放任数量激励,将导致科研创新能力退化、同行评审体系崩溃