AI检测工具真的公平吗?

最近，Assessing Writing 期刊发表了一篇题为 “GPTZero and the challenges of AI detection in assessing writing” 的论文，对GPTZero进行了系统性的批判评估。今天我们就来聊聊这篇论文说了什么，以及对L2写作教学意味着什么。

一、GPTZero是什么？它怎么工作的？

GPTZero是目前最流行的AI检测工具之一，由普林斯顿大学学生开发，全球已有超过1000万用户。它主要通过两个指标来判断文本是“人写的”还是“AI写的”. 听起来挺科学的，对吧？但问题就在于：这两个指标并不是中立的。

二、论文的核心观点：GPTZero不适合做高 stakes 评估

这篇论文的结论很明确：

GPTZero不适合作为写作评估中的决定性工具，尤其是在涉及L2写作者的情境中。

为什么？论文从三个层面给出了答案。

1. 可靠性问题：误报率很高

某些受控条件下，GPTZero的准确率可以达到95-99%
但假阴性率高达35%——大量AI生成的文本被误判为“人类写的”
文本只要经过QuillBot等工具改写，准确率就会显著下降

这意味着：你无法放心地用它来判断一篇论文是不是AI写的。

2. 对L2写作者极不公平

这是论文最核心的批判。

GPTZero的训练数据以标准的、单语的学术英语为主。它默认的“人类写作”模板，是一个以英语为母语、风格自然起伏、句子长短交错的写作者。

但L2写作者是什么情况？为了达到学术英语的“清晰、规范、正式”，L2写作者往往会：

使用更一致的句法结构
避免过大的风格起伏
控制语言的“意外程度”

——而这恰恰会被GPTZero判为“可疑”。

论文中有一句话非常尖锐：“GPTZero并不是在检测AI，而是在惩罚那些成功内化了正式学术规范的语言学习者。”

更令人震惊的是，Chaka（2023） 的一项研究发现：当把AI生成的文本翻译成德语、法语、西班牙语、祖鲁语等语言后，GPTZero把所有翻译文本都误判为“人类写的”。这意味着，如果你用非英语思考、再翻译成英语，你的文本更容易被标记为“可疑”；而直接复制AI输出的英语原文，反而可能逃过检测。

3. 它测量的东西，并不是写作能力

写作评估真正关心的是：论点是否有力？结构是否清晰？读者意识如何？是否符合学科规范？

但GPTZero测量的是：困惑度和突发性。

论文指出：GPTZero把“语言一致性”和“机器生成”混为一谈。一位L2学生通过努力使自己的论文变得清晰、规范、正式——这恰恰会被工具判为“像AI写的”。

这是典型的构造效度问题：工具测量的，根本不是你想测量的东西。

三、为什么这件事在L2情境中尤其严重？

论文特别关注全球南方（Global South）的情境，比如南非和菲律宾。

在这些国家，英语通常是第二或第三语言。学生写作时：

经常需要进行转码（translanguaging）和翻译
大量使用数字工具辅助写作
努力适应国际期刊的学术规范

然而，GPTZero把所有这些“合法的语言劳动”都当成了“可疑信号”。

论文直言：“检测工具并不会‘漏掉’AI使用——它们会主动误读合法的语言劳动。”

更令人担忧的是，已经有案例显示，学生因为GPTZero的误判而被指控学术不端，随后成功上诉（Havergal, 2025）。这说明：检测工具的“证据”在法律和制度层面也是脆弱的。

四、那L2写作教师应该怎么办？

论文并没有完全否定GPTZero的价值，而是建议重新定位它的用途。

❌ 不应该做的

把GPTZero作为高 stakes 评估中的决定性证据
设定硬性阈值（比如“AI比例不能超过20%”）
用检测工具替代教学判断

✅ 应该做的

1. 采用过程导向评估

不要只看最终稿。让学生提交：

阶段性草稿
修改说明（改了哪里、为什么改）
AI使用声明（用了什么工具、怎么用的、学到了什么）

2. 把GPTZero作为教学资源，而不是监视工具

当你看到一个句子被GPTZero标记为“疑似AI”时，可以问学生：

“你觉得这个句子为什么会被标记？”
“它的词汇选择和句法结构有什么特点？”
“如果让你重写一遍，你会怎么改？”

——这就把“检测”变成了培养语言意识和AI素养的教学活动。

3. 采用“后-plagiarism”框架

Eaton（2023）提出的这个概念的核心意思是：在AI时代，问题不再是“学生用没用AI”，而是“学生如何负责任地使用AI”。

把透明度、反思、伦理使用纳入评估标准，而不是把AI工具一禁了之。

聊几句

读完这篇论文，我一直在想几个问题。

第一，GPTZero到底在检测什么？ 它检测的也许不是“AI内容”，而是一种特定风格的英语——标准的、可预测的、没有太多起伏的英语。而这恰恰是很多L2学习者费了很大力气才学会的。学生写清楚了，工具说你像AI。这很荒诞。

第二，如果被误判的是我呢？ 熬夜写的论文，被标记为“高概率AI生成”，还要自证清白。论文里提到，有学生因为GPTZero的误判被指控，后来上诉成功。这意味着有人经历了一场本不该发生的噩梦。

第三，偏见从哪来？ GPTZero的训练数据以标准学术英语为主。World Englishes占多少？L2作文占多少？如果没有，那它不是在检测AI，而是在惩罚“不像标准英语”的写法。论文里有一句话很直接：“偏见不是技术错误，而是设计的结果。”

第四，我们是不是太依赖“抓”了？ 查重、检测、监考——我们越来越擅长“抓”，但抓到之后呢？论文提出的“后-plagiarism”框架给了我一个不同的方向：与其纠结用没用AI，不如让学生写清楚怎么用的、学到了什么。这不一定能抓住更多人，但可能能教好更多人。

语言本身就是模仿和重组。AI写一个句子花0.1秒，L2学习者写出同样的句子，背后可能是十次错误、一百次练习。GPTZero看不到这个区别。而我们要看到。

参考文献

Giray, L., Sevnarayan, K., & Maphoto, K. B. (2026). GPTZero and the challenges of AI detection in assessing writing. Assessing Writing, 69, 101078.