
英国老牌文学杂志Granta,今年干了件狠事。
它宣布:不再出版英联邦短篇小说奖的获奖作品。
不是因为没钱,不是因为没人看。是因为它分不清获奖作品是人写的,还是AI写的。
事情是这样的。今年英联邦短篇小说奖的加勒比地区获奖者,特立尼达作家Jamir Nazir,被AI检测工具Pangram Labs标记为"100% AI生成"。随后Pangram把2012年以来的所有获奖作品扫了一遍,宣布又发现了三篇"AI生成"作品——2026年五位获奖者中占了两篇,外加2025年总冠军(据Pangram官方博客披露,该作品在多个检测维度上得分异常)。
Pangram官方宣称其检测准确率99.8%、假阳性率仅万分之一,并引用芝加哥大学布斯商学院的研究作为背书。但问题在于:被它标记为"AI生成"的,包括2012年的获奖作品——那时候ChatGPT还没出生。
文学界炸了锅。
Granta的反应很聪明。它没有站队,没有指控任何作者"你作弊了",而是直接退出。
Granta的声明很明确:今后不再参与任何"没有编辑控制权的外部出版合作"。翻译过来就是:你们评出来的奖,我不敢信了。
这不是Granta过度反应。就在今年早些时候,Hachette出版集团下架了一本恐怖小说《Shy Girl》。作者Mia Ballard,书已经在英国上市,美国版也排好了档期。结果Goodreads上读者炸了——1700多条评论里大量读者说"这文字像是AI写的"。Hachette查了,取消了出版。
AI对文学界的冲击,已经从"未来某天"变成了"就是现在"。
但真正黑色幽默的地方在这里。
一个检测工具,说十年前的获奖作品是AI写的。然后文学界用这个工具当证据,来审判当下的作者。
这就好比用一把不准的秤,去判定谁缺斤少两。
先把话说清楚:AI检测工具到底怎么工作的?它们本质上在算两件事——"困惑度"(perplexity)和"句式变化"(burstiness)。AI生成的文字倾向于高度可预测、句式均匀,而人类写作通常更跳跃、更不规则。问题是,获奖级别的文学作品,恰恰因为经过了反复打磨,往往呈现出高度精炼、风格统一的特点——这恰好是AI检测模型眼中的"AI特征"。
中文互联网上流传一个案例:有人把《红楼梦》的前几回扔进AI检测器,结果被判定为"高度疑似AI生成"。不是曹雪芹用了ChatGPT,是检测工具根本分不清"写得好"和"AI写的"。
更讽刺的是,不同检测系统对同一篇文本的判断也互相矛盾。斯坦福大学2024年一项研究测试了7款主流AI检测器,发现它们在非英语母语写作者的文章上误判率高达61.3%。所谓"检测",本质上就是猜。
夜雨聆风