最近几位中国顶尖高校学者的论文造假事件,让很多人愤怒。但在我看来,真正可怕的,其实不是造假本身,而是这些造假居然“低级”到这种程度——很多痕迹甚至非专家都能发现。这背后暴露的,可能不是几个人的问题,而是整个经验科学、同行评审与学术评价体系的深层漏洞。更重要的是,我反而认为,AI最终可能不是科研最大的威胁,而会成为几百年来最严格、最有效的审稿人和把关者。
【注】
本文属于我“后天思维”(The Day After Tomorrow Mindset)系列的一部分,尝试从更长时间尺度审视当下问题。
文中所有观点均由我提出,经由 ChatGPT 协助润色与整理,并生成图片。所有观点为我个人判断,并由我本人负责,用于激发讨论,而非结论。
对应的发在我的视频号【无宙白丁】上的视频是由NotebookLM 根据这篇文章生成。
最近中国学术界连续爆出几起顶尖高校学者论文数据造假事件。很多人愤怒、失望、震惊,甚至开始怀疑整个学术体系。但坦率地说,真正让我震惊的,并不是“居然有人造假”。
而是这些造假,居然低级到这种程度。

有些论文里的实验图片,连标尺数字都不是连续的;有些数据,大量出现整齐得不自然的整数与“50的倍数”;还有一些图像重复拼接、局部复制,肉眼仔细看都能发现明显痕迹。换句话说,这不是那种“滴水不漏”的高智商犯罪,而更像一种“careless faking”——一种甚至懒得认真掩饰的低级造假。
而这,恰恰才是最值得警惕的地方。
因为这意味着两种可能。第一,这些人的学术能力,可能远没有他们的头衔与履历看起来那么高。第二,更可怕:他们长期相信,即使自己不够小心,大概率也不会被发现。
如果一个体系里,连“粗糙的造假”都能长期通过,那么真正值得担心的,就不是已经被抓住的人,而是那些更专业、更谨慎、更懂得“如何不留下痕迹”的人。
这里我想说一句很多普通人可能并不了解、但在经验科学领域里其实非常重要的话:经验科学,本质上是一套建立在“信任”之上的系统。
数学不一样。数学理论原则上任何人都可以一步一步推导。如果证明错了,别人最终可以检查出来。但绝大多数经验科学不是这样。无论是生物学、医学、心理学、社会科学、商业研究,还是今天大量AI论文,读者几乎都无法真正重新获取原始数据、重新搭建实验环境、重新完整复现实验过程。读者只能默认:作者提供的数据是真实的。
而这一点,恰恰是经验科学最脆弱、也最危险的地方。
我自己早年接受的是生物学训练,后来长期在商学院做经验研究。坦率地说,如果一个研究者真的有意愿去“伪造”经验结果,而且又足够谨慎,在多数情况下,外部读者其实很难仅靠论文本身发现问题。这不是因为大家愚蠢,而是因为经验科学本身就存在一个根本限制:现实世界的数据,不像数学一样,可以让每个读者独立推导。
所以很多时候,学术共同体真正依赖的,其实不是“完全验证”,而是一种制度性的默认信任。
这也是为什么过去十几年,全球学术界越来越重视“可重复性危机”(replication crisis)。大量研究结果后来无法被其他团队重复出来。当然,不可重复并不等于造假。现实世界本来就复杂,实验条件、样本、环境差异,都可能导致结果波动。
但不可重复,也意味着一个非常不舒服的事实:很多经验研究,其实长期处于一种“无法真正被外部验证”的状态。
在科学史上,一个结果真正获得尊重,从来不是因为它发表在某本顶刊,而是因为它最终能够被别人稳定重复。换句话说:发表,不等于真理;顶刊,也不等于真实。
而最近这些“低级造假”事件,更暴露了另一个很多人不愿承认的问题:今天的同行评审(peer review)体系,其实远没有公众想象中那么可靠。
很多普通人以为,顶级期刊的论文,在发表前一定经历了极其严密、近乎“法庭审判”式的验证。但真实情况往往不是这样。
大部分审稿人没有报酬。很多人工作极其繁忙。多数情况下,他们拿不到原始数据,也不会真正重复实验,更不可能系统检查所有图像、统计模式、数据生成逻辑。很多审稿,本质上更像是:几个领域专家,在有限时间里,根据经验判断——这篇文章“像不像一篇顶刊论文”。
如果连这种“careless faking”都能通过,那么我们不得不面对一个问题:同行评审真正筛选的,很多时候也许不是“真实性”,而是“像不像”。
而这又进一步带来另一个后果:今天大量学者,把“发顶刊”当作学术生涯最核心的目标;高校、政府、机构,也围绕这些期刊建立了庞大的评价体系。但与此同时,大量真正优秀、有原创性的工作,也可能因为不符合主流偏好、审稿人主观意见、领域政治、运气,甚至审稿人自身水平,而被拒绝。
换句话说,学术发表的结果,本身就带有很强的随机性与路径依赖。
这一点,其实很多真正做过研究的人,心里都知道,只是平时很少有人公开说而已。
而最近这些事件,只是让这种长期存在的问题,以一种极其尴尬的方式暴露了出来。
但真正让我感兴趣的,其实不是“学术界完了”。
恰恰相反。
我反而认为,AI很可能会成为过去几百年里,学术体系最大的纠错力量之一。
今天很多大学和期刊,最担心的是:AI会不会帮学生写论文?AI会不会帮教授写论文?于是大量学校开始用AI检测工具,去判断一篇文章是不是AI生成的。很多顶级期刊,甚至禁止审稿人使用AI辅助评审。
但在我看来,这个方向很可能完全反了。
未来最重要的,不是“检测是不是AI写的”,而是:利用AI,去判断一项研究是否真实、是否可信、是否真正有价值。
因为人类审稿体系有一个天然限制:任何一个人类专家,都只能是“局部知识专家”。
一个审稿人,也许熟悉某个极其狭窄的问题。但他不可能真正读完一个学科所有论文,不可能记住所有统计模式,不可能同时比较数万篇类似研究,也不可能长期监测整个领域的异常结构。
但AI第一次有可能做到。
AI最大的优势,从来不只是“会写”。
而是它第一次让我们拥有一种可能:一个能够同时阅读整个学科、比较整个学科、并在全局层面发现异常模式的“数字智慧审稿系统”。
它可以识别异常统计分布;发现重复图像与隐藏拼接;比较不同论文之间的高度相似结构;检测“不自然”的数据生成模式;分析结果与整个领域既有知识之间的偏离程度;甚至追踪一个研究团队长期的模式异常。
换句话说,人类审稿人,本质上是“局部知识专家”;而未来的AI审稿人,第一次有可能成为“全局知识审稿人”。
更重要的是,人类审稿还有大量非学术因素。
偏见、人情、圈子、学派、名气、机构背景、同行竞争、意识形态倾向,甚至情绪状态,都可能影响一个审稿决定。很多时候,一个论文是否被接受,并不只是“内容本身”决定的。
而AI至少有可能大幅降低其中一部分问题。
当然,这并不意味着AI一定客观,也不意味着AI不会带来新的偏差。训练AI的人,本身也会有偏见;模型也可能被操纵;不同机构训练出来的AI,也可能有不同价值取向。
但至少,AI第一次让我们有机会,把学术评价从“少数人的局部经验判断”,部分转向一种更大规模、更系统、更可验证的分析体系。
夜雨聆风