最近,Assessing Writing 期刊发表了一篇题为 “GPTZero and the challenges of AI detection in assessing writing” 的论文,对GPTZero进行了系统性的批判评估。今天我们就来聊聊这篇论文说了什么,以及对L2写作教学意味着什么。
一、GPTZero是什么?它怎么工作的?
GPTZero是目前最流行的AI检测工具之一,由普林斯顿大学学生开发,全球已有超过1000万用户。它主要通过两个指标来判断文本是“人写的”还是“AI写的”. 听起来挺科学的,对吧?但问题就在于:这两个指标并不是中立的。
二、论文的核心观点:GPTZero不适合做高 stakes 评估
这篇论文的结论很明确:
GPTZero不适合作为写作评估中的决定性工具,尤其是在涉及L2写作者的情境中。
为什么?论文从三个层面给出了答案。
1. 可靠性问题:误报率很高
某些受控条件下,GPTZero的准确率可以达到95-99%
但假阴性率高达35%——大量AI生成的文本被误判为“人类写的”
文本只要经过QuillBot等工具改写,准确率就会显著下降
这意味着:你无法放心地用它来判断一篇论文是不是AI写的。
2. 对L2写作者极不公平
这是论文最核心的批判。
GPTZero的训练数据以标准的、单语的学术英语为主。它默认的“人类写作”模板,是一个以英语为母语、风格自然起伏、句子长短交错的写作者。
但L2写作者是什么情况?为了达到学术英语的“清晰、规范、正式”,L2写作者往往会:
使用更一致的句法结构
避免过大的风格起伏
控制语言的“意外程度”
——而这恰恰会被GPTZero判为“可疑”。
论文中有一句话非常尖锐:“GPTZero并不是在检测AI,而是在惩罚那些成功内化了正式学术规范的语言学习者。”
更令人震惊的是,Chaka(2023) 的一项研究发现:当把AI生成的文本翻译成德语、法语、西班牙语、祖鲁语等语言后,GPTZero把所有翻译文本都误判为“人类写的”。这意味着,如果你用非英语思考、再翻译成英语,你的文本更容易被标记为“可疑”;而直接复制AI输出的英语原文,反而可能逃过检测。
3. 它测量的东西,并不是写作能力
写作评估真正关心的是:论点是否有力?结构是否清晰?读者意识如何?是否符合学科规范?
但GPTZero测量的是:困惑度和突发性。
论文指出:GPTZero把“语言一致性”和“机器生成”混为一谈。一位L2学生通过努力使自己的论文变得清晰、规范、正式——这恰恰会被工具判为“像AI写的”。
这是典型的构造效度问题:工具测量的,根本不是你想测量的东西。
三、为什么这件事在L2情境中尤其严重?
论文特别关注全球南方(Global South)的情境,比如南非和菲律宾。
在这些国家,英语通常是第二或第三语言。学生写作时:
经常需要进行转码(translanguaging)和翻译
大量使用数字工具辅助写作
努力适应国际期刊的学术规范
然而,GPTZero把所有这些“合法的语言劳动”都当成了“可疑信号”。
论文直言:“检测工具并不会‘漏掉’AI使用——它们会主动误读合法的语言劳动。”
更令人担忧的是,已经有案例显示,学生因为GPTZero的误判而被指控学术不端,随后成功上诉(Havergal, 2025)。这说明:检测工具的“证据”在法律和制度层面也是脆弱的。
四、那L2写作教师应该怎么办?
论文并没有完全否定GPTZero的价值,而是建议重新定位它的用途。
❌ 不应该做的
把GPTZero作为高 stakes 评估中的决定性证据
设定硬性阈值(比如“AI比例不能超过20%”)
用检测工具替代教学判断
✅ 应该做的
1. 采用过程导向评估
不要只看最终稿。让学生提交:
阶段性草稿
修改说明(改了哪里、为什么改)
AI使用声明(用了什么工具、怎么用的、学到了什么)
2. 把GPTZero作为教学资源,而不是监视工具
当你看到一个句子被GPTZero标记为“疑似AI”时,可以问学生:
“你觉得这个句子为什么会被标记?”
“它的词汇选择和句法结构有什么特点?”
“如果让你重写一遍,你会怎么改?”
——这就把“检测”变成了培养语言意识和AI素养的教学活动。
3. 采用“后-plagiarism”框架
Eaton(2023)提出的这个概念的核心意思是:在AI时代,问题不再是“学生用没用AI”,而是“学生如何负责任地使用AI”。
把透明度、反思、伦理使用纳入评估标准,而不是把AI工具一禁了之。
聊几句
读完这篇论文,我一直在想几个问题。
第一,GPTZero到底在检测什么? 它检测的也许不是“AI内容”,而是一种特定风格的英语——标准的、可预测的、没有太多起伏的英语。而这恰恰是很多L2学习者费了很大力气才学会的。学生写清楚了,工具说你像AI。这很荒诞。
第二,如果被误判的是我呢? 熬夜写的论文,被标记为“高概率AI生成”,还要自证清白。论文里提到,有学生因为GPTZero的误判被指控,后来上诉成功。这意味着有人经历了一场本不该发生的噩梦。
第三,偏见从哪来? GPTZero的训练数据以标准学术英语为主。World Englishes占多少?L2作文占多少?如果没有,那它不是在检测AI,而是在惩罚“不像标准英语”的写法。论文里有一句话很直接:“偏见不是技术错误,而是设计的结果。”
第四,我们是不是太依赖“抓”了? 查重、检测、监考——我们越来越擅长“抓”,但抓到之后呢?论文提出的“后-plagiarism”框架给了我一个不同的方向:与其纠结用没用AI,不如让学生写清楚怎么用的、学到了什么。这不一定能抓住更多人,但可能能教好更多人。
语言本身就是模仿和重组。AI写一个句子花0.1秒,L2学习者写出同样的句子,背后可能是十次错误、一百次练习。GPTZero看不到这个区别。而我们要看到。
参考文献
Giray, L., Sevnarayan, K., & Maphoto, K. B. (2026). GPTZero and the challenges of AI detection in assessing writing. Assessing Writing, 69, 101078.
夜雨聆风