一个AI检测工具,把文学奖的脸打肿了

英国老牌文学杂志Granta，今年干了件狠事。

它宣布：不再出版英联邦短篇小说奖的获奖作品。

不是因为没钱，不是因为没人看。是因为它分不清获奖作品是人写的，还是AI写的。

事情是这样的。今年英联邦短篇小说奖的加勒比地区获奖者，特立尼达作家Jamir Nazir，被AI检测工具Pangram Labs标记为"100% AI生成"。随后Pangram把2012年以来的所有获奖作品扫了一遍，宣布又发现了三篇"AI生成"作品——2026年五位获奖者中占了两篇，外加2025年总冠军（据Pangram官方博客披露，该作品在多个检测维度上得分异常）。

Pangram官方宣称其检测准确率99.8%、假阳性率仅万分之一，并引用芝加哥大学布斯商学院的研究作为背书。但问题在于：被它标记为"AI生成"的，包括2012年的获奖作品——那时候ChatGPT还没出生。

文学界炸了锅。

Granta的反应很聪明。它没有站队，没有指控任何作者"你作弊了"，而是直接退出。

Granta的声明很明确：今后不再参与任何"没有编辑控制权的外部出版合作"。翻译过来就是：你们评出来的奖，我不敢信了。

这不是Granta过度反应。就在今年早些时候，Hachette出版集团下架了一本恐怖小说《Shy Girl》。作者Mia Ballard，书已经在英国上市，美国版也排好了档期。结果Goodreads上读者炸了——1700多条评论里大量读者说"这文字像是AI写的"。Hachette查了，取消了出版。

AI对文学界的冲击，已经从"未来某天"变成了"就是现在"。

但真正黑色幽默的地方在这里。

一个检测工具，说十年前的获奖作品是AI写的。然后文学界用这个工具当证据，来审判当下的作者。

这就好比用一把不准的秤，去判定谁缺斤少两。

先把话说清楚：AI检测工具到底怎么工作的？它们本质上在算两件事——"困惑度"（perplexity）和"句式变化"（burstiness）。AI生成的文字倾向于高度可预测、句式均匀，而人类写作通常更跳跃、更不规则。问题是，获奖级别的文学作品，恰恰因为经过了反复打磨，往往呈现出高度精炼、风格统一的特点——这恰好是AI检测模型眼中的"AI特征"。

中文互联网上流传一个案例：有人把《红楼梦》的前几回扔进AI检测器，结果被判定为"高度疑似AI生成"。不是曹雪芹用了ChatGPT，是检测工具根本分不清"写得好"和"AI写的"。

更讽刺的是，不同检测系统对同一篇文本的判断也互相矛盾。斯坦福大学2024年一项研究测试了7款主流AI检测器，发现它们在非英语母语写作者的文章上误判率高达61.3%。所谓"检测"，本质上就是猜。