从“低级造假”到AI审稿:最近几位顶尖高校学者事件背后,更大的问题是什么?

最近几位中国顶尖高校学者的论文造假事件，让很多人愤怒。但在我看来，真正可怕的，其实不是造假本身，而是这些造假居然“低级”到这种程度——很多痕迹甚至非专家都能发现。这背后暴露的，可能不是几个人的问题，而是整个经验科学、同行评审与学术评价体系的深层漏洞。更重要的是，我反而认为，AI最终可能不是科研最大的威胁，而会成为几百年来最严格、最有效的审稿人和把关者。

【注】

本文属于我“后天思维”（The Day After Tomorrow Mindset）系列的一部分，尝试从更长时间尺度审视当下问题。

文中所有观点均由我提出，经由 ChatGPT 协助润色与整理，并生成图片。所有观点为我个人判断，并由我本人负责,用于激发讨论，而非结论。

对应的发在我的视频号【无宙白丁】上的视频是由NotebookLM 根据这篇文章生成。

最近中国学术界连续爆出几起顶尖高校学者论文数据造假事件。很多人愤怒、失望、震惊，甚至开始怀疑整个学术体系。但坦率地说，真正让我震惊的，并不是“居然有人造假”。

而是这些造假，居然低级到这种程度。

有些论文里的实验图片，连标尺数字都不是连续的；有些数据，大量出现整齐得不自然的整数与“50的倍数”；还有一些图像重复拼接、局部复制，肉眼仔细看都能发现明显痕迹。换句话说，这不是那种“滴水不漏”的高智商犯罪，而更像一种“careless faking”——一种甚至懒得认真掩饰的低级造假。

而这，恰恰才是最值得警惕的地方。

因为这意味着两种可能。第一，这些人的学术能力，可能远没有他们的头衔与履历看起来那么高。第二，更可怕：他们长期相信，即使自己不够小心，大概率也不会被发现。

如果一个体系里，连“粗糙的造假”都能长期通过，那么真正值得担心的，就不是已经被抓住的人，而是那些更专业、更谨慎、更懂得“如何不留下痕迹”的人。

这里我想说一句很多普通人可能并不了解、但在经验科学领域里其实非常重要的话：经验科学，本质上是一套建立在“信任”之上的系统。

数学不一样。数学理论原则上任何人都可以一步一步推导。如果证明错了，别人最终可以检查出来。但绝大多数经验科学不是这样。无论是生物学、医学、心理学、社会科学、商业研究，还是今天大量AI论文，读者几乎都无法真正重新获取原始数据、重新搭建实验环境、重新完整复现实验过程。读者只能默认：作者提供的数据是真实的。

而这一点，恰恰是经验科学最脆弱、也最危险的地方。

我自己早年接受的是生物学训练，后来长期在商学院做经验研究。坦率地说，如果一个研究者真的有意愿去“伪造”经验结果，而且又足够谨慎，在多数情况下，外部读者其实很难仅靠论文本身发现问题。这不是因为大家愚蠢，而是因为经验科学本身就存在一个根本限制：现实世界的数据，不像数学一样，可以让每个读者独立推导。

所以很多时候，学术共同体真正依赖的，其实不是“完全验证”，而是一种制度性的默认信任。

这也是为什么过去十几年，全球学术界越来越重视“可重复性危机”（replication crisis）。大量研究结果后来无法被其他团队重复出来。当然，不可重复并不等于造假。现实世界本来就复杂，实验条件、样本、环境差异，都可能导致结果波动。

但不可重复，也意味着一个非常不舒服的事实：很多经验研究，其实长期处于一种“无法真正被外部验证”的状态。

在科学史上，一个结果真正获得尊重，从来不是因为它发表在某本顶刊，而是因为它最终能够被别人稳定重复。换句话说：发表，不等于真理；顶刊，也不等于真实。

而最近这些“低级造假”事件，更暴露了另一个很多人不愿承认的问题：今天的同行评审（peer review）体系，其实远没有公众想象中那么可靠。

很多普通人以为，顶级期刊的论文，在发表前一定经历了极其严密、近乎“法庭审判”式的验证。但真实情况往往不是这样。

大部分审稿人没有报酬。很多人工作极其繁忙。多数情况下，他们拿不到原始数据，也不会真正重复实验，更不可能系统检查所有图像、统计模式、数据生成逻辑。很多审稿，本质上更像是：几个领域专家，在有限时间里，根据经验判断——这篇文章“像不像一篇顶刊论文”。

如果连这种“careless faking”都能通过，那么我们不得不面对一个问题：同行评审真正筛选的，很多时候也许不是“真实性”，而是“像不像”。

而这又进一步带来另一个后果：今天大量学者，把“发顶刊”当作学术生涯最核心的目标；高校、政府、机构，也围绕这些期刊建立了庞大的评价体系。但与此同时，大量真正优秀、有原创性的工作，也可能因为不符合主流偏好、审稿人主观意见、领域政治、运气，甚至审稿人自身水平，而被拒绝。

换句话说，学术发表的结果，本身就带有很强的随机性与路径依赖。

这一点，其实很多真正做过研究的人，心里都知道，只是平时很少有人公开说而已。

而最近这些事件，只是让这种长期存在的问题，以一种极其尴尬的方式暴露了出来。

但真正让我感兴趣的，其实不是“学术界完了”。

恰恰相反。

我反而认为，AI很可能会成为过去几百年里，学术体系最大的纠错力量之一。

今天很多大学和期刊，最担心的是：AI会不会帮学生写论文？AI会不会帮教授写论文？于是大量学校开始用AI检测工具，去判断一篇文章是不是AI生成的。很多顶级期刊，甚至禁止审稿人使用AI辅助评审。

但在我看来，这个方向很可能完全反了。

未来最重要的，不是“检测是不是AI写的”，而是：利用AI，去判断一项研究是否真实、是否可信、是否真正有价值。

因为人类审稿体系有一个天然限制：任何一个人类专家，都只能是“局部知识专家”。

一个审稿人，也许熟悉某个极其狭窄的问题。但他不可能真正读完一个学科所有论文，不可能记住所有统计模式，不可能同时比较数万篇类似研究，也不可能长期监测整个领域的异常结构。

但AI第一次有可能做到。

AI最大的优势，从来不只是“会写”。

而是它第一次让我们拥有一种可能：一个能够同时阅读整个学科、比较整个学科、并在全局层面发现异常模式的“数字智慧审稿系统”。

它可以识别异常统计分布；发现重复图像与隐藏拼接；比较不同论文之间的高度相似结构；检测“不自然”的数据生成模式；分析结果与整个领域既有知识之间的偏离程度；甚至追踪一个研究团队长期的模式异常。

换句话说，人类审稿人，本质上是“局部知识专家”；而未来的AI审稿人，第一次有可能成为“全局知识审稿人”。

更重要的是，人类审稿还有大量非学术因素。

偏见、人情、圈子、学派、名气、机构背景、同行竞争、意识形态倾向，甚至情绪状态，都可能影响一个审稿决定。很多时候，一个论文是否被接受，并不只是“内容本身”决定的。

而AI至少有可能大幅降低其中一部分问题。

当然，这并不意味着AI一定客观，也不意味着AI不会带来新的偏差。训练AI的人，本身也会有偏见；模型也可能被操纵；不同机构训练出来的AI，也可能有不同价值取向。

但至少，AI第一次让我们有机会，把学术评价从“少数人的局部经验判断”，部分转向一种更大规模、更系统、更可验证的分析体系。