AI写作越来越普遍,但它仍然留下了可辨识的痕迹。
以下是AI生成中文文章时最常出现的症状,每条附有实例,帮助你快速判断。
不过先提醒一句:任何单一特征都不能直接定性为AI写作。 以下每一条在人类文本中也可能出现,真正值得警惕的,是多项特征同时、密集地出现。
速览:10个核心特征
空洞大词多 — 赋能、重塑、深度融合一堆,却说不出谁在做什么事。 套话和连接词堆积 — "首先其次最后""值得注意的是"密集出现,只是在填充气氛。 修辞泛滥但信息量低 — 排比、对偶气势很足,实际上三句话说的是同一个意思。 标点符号异常 — 破折号、冒号、分号、括号的使用频率不自然。 句子长度太均匀 — 每句都是20字上下,缺少人类写作中长短交错的节奏感。 翻译腔和公文腔混在一起 — 一句话里既有"在某种意义上说",又有"切实推动"。 结构模板化,整体不推进 — 每段都像同一个模子,局部通顺但全文没有真正往前走。 论点很完整,但证据不足 — "大量实践证明""相关研究表明"——到底是哪些?没说。 细节造假 — 引文格式正确但内容虚构,定义听着周全但套谁都行。 缺少真人痕迹 — 像客服不像作者。
1. 空洞大词多
一批听起来很厉害、其实什么都没说的词,是AI中文写作最显眼的标记。
与此相伴的是另一个问题:句子里的动词全是"推进""实现""建构"这种万能词,到底是谁在做什么事,看不出来。
看一组对比:
AI写法:
"数字人文深度赋能古典文献研究,助力学术界打造全新的跨学科生态闭环,实现多维度的知识体系重塑。"
人话:
"用数据库检索代替手工翻书,找一条材料从三天变成三分钟。"
一个判断技巧:如果一段话删掉一半名词之后意思几乎没损失,就要提高警惕。
2. 修辞泛滥但信息量低
AI中文文本中对偶句的出现频率很高。排比、对偶、"不是……而是……"句式一个接一个,读起来好像有文采,实际上常常是在重复同一个意思。
例子:
"不是简单的文本还原,而是深层的意义重构;不是被动的知识接受,而是主动的思想对话;不是孤立的个案分析,而是整体的文明审视。"
三组排下来,说的都是"要深入研究"。
换一个比喻的例子也一样——"镜子""纽带""种子"这类老套比喻换成任何主题都能用。人类作者如果真要用修辞,往往只用一处,但会用得更具体、更出人意料。
3. 标点符号异常
除了最常被提到的破折号滥用(中文日常写作中本来就少见),AI在冒号、分号、括号、引号的使用上也有明显的模式化倾向。
破折号翻译腔:
"《史记》——作为中国历史叙事传统中最具开创性的著作之一——深刻塑造了后世的史学书写范式。"
直接写"《史记》开创了中国的纪传体史学传统,影响深远"就好。
冒号+分号过于整齐:
"经学研究的转型体现在三个层面:一是文献整理的数字化;二是研究方法的跨学科化;三是学术视野的国际化。"
括号+"如"字密集出现:
"学者应关注文本的多层面信息(如版本异文、避讳用字、刻工姓名),并结合多种辅助手段(如碳十四测定、纸张纤维分析、墨迹光谱检测)进行综合判定。"
引号过多,爱造新"组合"词:
"这种'文本考古学式'的阅读策略体现了'历史-语言双轨互证'的'深层方法论自觉'。"
这些标点模式单独看不算问题,但如果在一篇文章中密集出现,就值得留意了。
4. 句子长度太均匀
人写文章,有时一句话拉得很长,有时几个字就收住,节奏自然起伏。AI的句子长度却像用尺子量过一样整齐。
AI风格:
"魏晋时期的文学创作呈现出鲜明的时代特征。士人阶层的自我意识在动荡的社会环境中不断觉醒。文学逐渐摆脱了经学附庸的地位而走向独立。个体生命体验成为文学表达的核心主题。"
四句话,每句都是20字上下。
人类风格:
"魏晋文学为什么好?一个字:真。汉儒写文章是为了载道,魏晋人不一样——阮籍喝醉了能写出《咏怀》,嵇康临刑还惦记着一首《广陵散》。命都快没了,还在乎一首曲子。这种东西你装不出来。"
长短交错,有口语、有转折、有情绪。
5. 翻译腔和公文腔混在一起
中文AI写作有一个很有辨识度的状态:一边像翻译文,一边又像机关材料。
例子:
"在某种意义上说,敦煌文献的整理工作切实推动了中古史研究的纵深拓展,有效赋能了丝绸之路文明交流互鉴的学术话语建构。"
"在某种意义上说"是翻译腔,"切实推动""有效赋能""话语建构"是公文腔。
一个可能的原因是,训练数据中翻译文本和公文材料都占了不小的比例,AI分不清它们的使用场景,在概率层面把两种特征混在一起输出了。
6. 结构模板化,整体不推进
这一条可能是所有特征中最重要、也最难洗掉的。
AI文章每一段单看都挺通顺,但连起来读会发现全文没有真正向前推进——第二段只是换个说法重复第一段,结尾不是水到渠成而是套用模板。
更明显的是,段落首句往往高度同质("从更深层次来看……""值得进一步思考的是……"),过渡句也承担了过多功能——既像总结又像铺垫,听起来什么都涉及了,拿掉却不影响上下文。
一个测试方法:把文章的段落顺序打乱,如果读起来几乎没有违和感,说明段落之间缺少真正的逻辑递进。
7. 论点很完整,证据却总是慢半拍
观点一上来就说得很圆满,但支撑它的事实、例子、出处却明显跟不上。
例子:
"跨学科方法已成为古典文学研究的必然趋势。大量实践证明,引入社会学视角的文学研究往往能获得更深刻的洞见。相关研究也表明,方法论的更新与研究质量之间存在显著正相关。"
三句话,每句都像结论。"大量实践""相关研究"——到底是哪些实践?哪些研究?全都没说。
8. 细节造假
新一代AI不再明显胡说,而是更常见"伪具体化"——给出看似精确的引文、卷次、数字,但查不到来源。
例子:
"据《四库全书总目提要》卷一三七所载,该书共有宋刻本三种、元刻本两种,其中南宋绍兴年间刊本被认为最善。"
格式很权威,但翻到对应卷次——可能根本没有这段话。AI编造的引文往往"格式正确、内容虚构"。
类似的问题也出现在定义句上。AI很擅长写"所谓X,是指在特定背景下,通过多种方法手段而形成的一种综合性实践"——这个定义把"X"换成任何学科都成立,因为它根本没有划出边界。
为什么AI会这样写
人类写文章,是先有想法,再找词来表达。
AI写文章则是统计性思维,在这个位置,哪个词出现的概率最高?它是在"预测下一个最可能的词",倾向选最安全、最高频的词和结构。
这也解释了为什么AI的中文写作总带着"公文味"和"百科味":训练数据中正式文本的比例很可能远高于日常口语,AI不知道人类其实不这样说话,只是在复现数据里的高频模式。
夜雨聆风