
今日分享文献

OpenClaw的风还没有散去,同事.skill的热潮便席卷而来,AI的世界日新月异,普通人像个跑轮上的仓鼠,离不开自己的道路,也跑不到无止境的焦虑前面去。
这样的焦虑从来都不是空穴来风——在此之前,谁又能想到当科幻片里的赛博永生“成真”之时,第一个倒霉的居然是普通打工人呢?

图片来源:新周刊
然而聪明的当然不止有隔壁工位的同事,哈佛物理学大牛教授Matthew Schwartz,训练自己的“AI博士”,在短短两周之内就写出了一篇可以发表的高难度论文。

图片来源:36氪
论文地址:https://arxiv.org/abs/2601.02484
不过学术圈对于AI可能并没有普通人的那种过分焦虑。毕竟这样好用的科研搭子,哪个硕博不想自己也来一个——

图片来源:小红书
甚至非常离不开它——

图片来源:小红书
但另一边,高校对于AI使用的规范建设正在加快。
去年10月,香港大学社会科学学院副院长作为通讯作者的博士生论文被发现存在24篇AI虚拟文献,最终导致该副院长卸任、博士生将按纪律程序处理的结果。
在AI重度使用的学术圈里,还有多少借助AI发表的文章没有被发现呢?
论文里的AI踪影
管理学顶级期刊《组织科学》的人工智能任务组,在近期研究了生成式人工智能(AI)如何影响该期刊的运作。
该小组由多位来自宾夕法尼亚大学沃顿商学院、杜克大学等顶尖高校的学者组成。
他们把最新结果发表成了一篇文章《更多与更好:人工智能、激励因素与同行评审新兴危机/More Versus Better: Artificial Intelligence, Incentives, and the Emerging Crisis in Peer Review》。该研究深入统计和探讨了AI对学术期刊投稿和审稿过程的影响,特别是ChatGPT发布以来的变化。

该问题的难点在于,如何准确检测和量化AI在稿件和审稿中的应用和影响。
对此,研究使用了一款广泛使用且经过验证的人工智能检测工具Pangram。
文章中指出,Pangram模型通过深度学习训练,能够以高准确性(99.84%)区分人类和AI生成的文本。
研究团队为每个提交的内容计算一个AI写作分数。评分范围为0到1,0表示完全由人类撰写,1表示完全由AI生成。
研究通过对比ChatGPT发布前后的数据,评估AI使用对提交量和评审质量的影响。
具体来说,分析了《组织科学》期刊自2021年以来的所有初始提交和评审,重点关注2022年11月ChatGPT发布前后的变化。
并评估了AI使用与写作质量(如Flesch阅读易读性、FOG指数等)和评审质量(如理论、贡献、清晰度、数据和实证等主题的强调)之间的关系。
是谁在制造“学术泡沫”
尽管AI的飞速发展已为人所共知,但研究显示其对科研效率的提升之显著,仍令人咋舌。
自2022年底ChatGPT发布以来,期刊收到的投稿量飙升了42%。要知道,在特殊时期(COVID-19),投稿量的增长也才20%。
并且AI生成的投稿占比显著上升:截至2026年2月,超过50%的投稿摘要被检测到AI参与写作(Pangram评分≥15%),其中“重度AI生成”(≥70%)的投稿比例持续攀升。

或许有人会问,使用AI并不等同于文章质量就下降了,AI润色难道不是一种好工具吗?然而数据却给出了完全相反的答案。
研究发现,AI生成的投稿(尤其是评分≥30%的稿件)在可读性指标(如Flesch阅读易读性指数)上显著低于人类撰写的稿件(标准化得分低1.28个标准差)。
具体表现为使用更多复杂词汇、名词化倾向(如“conceptualization”)、行话使用增加,但被动语态减少、表述更直接。


既然AI写出的文章并不好读,那么期刊编辑这一关能过吗?
统计显示,当文章中AI生成的比例超过30%时,被编辑直接拒稿的概率会大幅增加,比纯人类撰写的文章高出近30个百分点。
“重度AI生成”(≥70%)的投稿中,69.6%在初审阶段(Desk Rejection)被拒,远高于低AI投稿(43.7%)。
此外,仅3.2%的重度AI投稿获得“修改后重投”(R&R),而低AI投稿这一比例则为11.9%。
值得注意的是,很多母语非英语的研究团队本想借助AI来弥补语言劣势,期望能提高文章的录用率。

但结果表明,非英语母语作者团队使用AI并未改善录用率,反而可能因写作质量问题加剧拒稿风险。
为了产出更多的科研成果,许多投稿人无法拒绝AI的诱惑,那面对数量如此激增的稿件,审稿人又会怎么办呢?
研究给出的答案是——打不过就加入。
实际上,大部分审稿人本身也是做科研的学者,他们只能利用业余时间进行义务审稿。
面对数不胜数且质量堪忧的稿件,人类审稿人也想要用AI来个“解脱”。
研究发现,约30%的评审报告检测到AI参与(Pangram评分≥15%),其中“中度AI生成”(30%—70%)的比例增长最快。
有趣的是,和AI生成的稿件一样,AI生成的审稿意见同样可读性更低(Flesch得分更低)。
并且更关注理论层面,较少讨论数据和方法(回归分析显示,AI评分每增加1单位,理论关注度上升0.251,数据关注度下降0.279),且主题多样性降低。


好在AI生成的评审未显著改变最终决策。
研究团队认为,这可能因为编辑更依赖人类审稿人的判断。
令人欣慰的是,绝大多数已发表论文的摘要仍为人类撰写(Pangram评分<15%),仅少数(约15%—30%区间)显示轻度AI协作痕迹。
高AI评分(≥70%)的被拒稿件更可能出现在非顶级期刊或会议中,但整体发表率仍较低(1.9% vs. 低AI稿件的0.8%)。


那么到底是什么在推动这场急功近利的竞争?
研究指出,正是机构激励驱动了学术界的AI滥用。
对“UTD Responder”学校(即对期刊排名激励反应强烈的机构)的分析显示,这类学校在ChatGPT发布后提交的AI生成投稿增幅显著高于其他学校。
此外,“发表或消亡”(publish-or-perish)的考核压力也同样促使研究者利用AI批量生产低质量论文。
简单来说,当整个评价体系都在单纯地奖励数量时,必然会有人利用最新的技术工具来疯狂提升产量,哪怕牺牲了研究的真正价值。
结语
科技的进步无疑为人类提供了强大的工具。
研究认为,如果合理运用,人工智能完全有能力帮助学者处理海量数据、发现前人未曾注意到的知识盲区,从而推动科学走向真正有价值的创新边界。
然而,在当前的学术生态下,AI并没有为作者们提供更高质量的写作,反而被异化成了一台制造廉价论文的流水线机器。
但是,正如本文开头提到的例子,这并不意味着AI在正确的人手中或随着技术的进一步进步不能做得更好。

尽管研究报告了许多AI使用的弊端,但作者仍强调,AI检测工具无法作为拒稿的“守门员”。
他们认为,学术界目前正面临着一个岔路口。要跳出盲目追求数量的怪圈,单靠抵制AI工具或者呼吁个人自律是远远不够的。
高校和研究机构应当抛弃简单粗暴的计数式考核方式,回归到对研究成果真实质量的评价上去。
作者在最后说,他们“对这种潜力感到鼓舞,但对当前领域的轨迹感到担忧”——或许,这场由科技推动的变革,才刚刚开始。
文献来源:Gartenberg, C., Hasan, S., Murray, A., & Pierce, L. (2026). More Versus Better: Artificial Intelligence, Incentives, and the Emerging Crisis in Peer Review. Organization Science, Articles in Advance, 1-18.
其他参考来源:
[1] Anthropic开始抢科学家了?周薪2.7万驻场,专治Claude专家级错误. [EB/OL]. 新智元. 2026-04-22.
[2] “同事.skill”刷屏,“AI蒸馏员工”背后的真问题. [EB/OL]. 新周刊. 2026-04-24.
[3] 一名“全球前2%科学家”,栽在AI手里. [EB/OL]. 凤凰网. 2025-12-25.
作者 |陈家宜
学术顾问 | WGZ
排版 | lihan/ yuanyuan
图源 | 网络
往期推荐 
【文献分享解读 | AI犯错谁来承担?房产巨头曾靠AI狂赚百亿,却因算法失误全打水漂】

【文献分享解读|SMJ 赚了钱就飘?顶刊研究揭秘CEO心理】

【文献分享解读 | AMJ Netflix百万用户退订!公司改革的成功与失败只在一念间?】
夜雨聆风