网上报道,有人把朱自清1927年写的《荷塘月色》拿去做 AI 检测,其检测结果为 AI率高达62.88%,这结果使网络炸锅了!
这个62.88%的AI率,如果朱自清老先生泉下有知,大概会端着茶杯愣住:“我1927年顶着荷塘月色、冒着暑气写下的散文,怎么就成了AI代笔?”幽默点说,这结果只有两种可能:要么朱自清是穿越回去的AI——代号“荷塘GPT”,1927年就开始偷偷训练数据;要么现在的AI实在是学得太好了,好到把自己老师的作业当成了抄袭对象。
科学解释其实很简单:AI大模型的训练数据里,大概率收录了《荷塘月色》全文。朱自清的用词习惯、句式节奏、修辞手法——比如“曲曲折折的荷塘上面,弥望的是田田的叶子”——这些语言特征早就被模型学了个透。当检测工具回头去比对这篇原文时,发现它和模型生成的文本在统计特征上高度重合,于是理直气壮地报告:“这很像AI写的!”这就像拿学生的作文去比对优秀范文库,发现一模一样,就说学生抄了范文——殊不知范文就是学生本人写的。
这件事的真正笑点在于:我们发明了一套检测工具,然后发现它把经典文学判为机器创作。这到底是工具太蠢,还是我们太急着给一切贴标签?如果哪天《红楼梦》也被检出高AI率,曹雪芹是不是得从坟里爬出来申请算法复议?
说到底,AI检测器不是在读文章,是在读统计概率。而朱自清的文字之所以美,恰恰是因为它不是概率的产物——是那个夜晚、那片荷塘、那一缕无法被量化的惆怅!
夜雨聆风