AI写的文章你能分辨出来吗?实验结果让人意外

TECHNOLOGY · AI

AI写的文章你能分辨出来吗实验结果让人意外

文 | 亿树

你现在读的这篇文章——是人写的还是AI写的？

先别急着回答。2023年的多项实验给出了一个让人不安的数据：普通人区分AI生成文本和人类写作的准确率只有约50%——和随机猜一样。

即使是受过训练的专业编辑和记者，准确率也只有约55%-65%——比瞎猜好一点，但远谈不上可靠。

我们正在进入一个你无法确定自己读到的任何文字是谁写的的时代——而大多数人还没意识到这意味着什么。

—— 01 ——

人类的识别能力有多差？

2023年，多个研究团队独立做了类似的实验：给受试者混合展示AI生成和人类写作的文本片段，让他们判断来源。

宾夕法尼亚大学实验： 受试者区分GPT-4文本和人类写作的准确率为50.6%——几乎等于随机。

斯坦福大学实验： 受试者判断AI生成新闻报道的准确率为53%。当文章被故意设置了一些"AI特征"（如过于工整的结构）时，准确率提升到约58%——但仍然很低。

《自然》杂志实验： 让科学评审人员判断AI生成的科学摘要真假——约32%的AI摘要被认为是人写的——意味着约三分之一的假摘要骗过了专家。

人类为什么判断不出来？因为最新一代的语言模型（GPT-4、Claude等）已经学会了模仿人类写作中的不完美——偶尔的口语化表达、不那么工整的句式、个人化的比喻——这些曾经是区分AI文本的"线索"，现在AI也会了。

HUMAN AI DETECTION ACCURACY

~50%

普通人区分AI文本和人类写作的准确率，与随机无异

—— 02 ——

AI检测工具靠谱吗？

既然人眼不行，那用AI来检测AI总行了吧？

目前市面上主要的AI检测工具包括GPTZero、Turnitin的AI Detection、OpenAI的Text Classifier等。它们的原理通常基于困惑度（perplexity）和突发性（burstiness）分析——AI生成的文本倾向于"太流畅""太均匀"，而人类写作的节奏更不规则。

实际表现如何？

准确率： 在理想测试条件下（明确的AI生成 vs 明确的人类写作），准确率约70%-85%。

误报率： 这是最大的问题——将人类写作错误标记为AI生成的比例约5%-9%。这意味着每100篇真正由学生写的论文中，有5-9篇会被冤枉为AI代写。

对非英语文本效果差： 大多数检测工具主要针对英语训练——对中文、日文等语言的检测准确率显著更低。

容易被绕过： 只要对AI生成的文本做轻微的人工编辑（增加一些口语表达、调整句式、加入个人经历）——检测工具的准确率会骤降到50%以下。

2023年7月，OpenAI关闭了自己的AI Text Classifier——官方理由是"准确率太低"。连AI的创造者自己都检测不出来。

—— 03 ——

已经在发生的影响

AI生成内容的泛滥不是未来的威胁——它正在发生。

学术界： 2024年的一项分析估计，约10%-15%的学术论文中可能部分使用了AI生成的文本——包括方法描述、文献综述甚至结果解读。一些期刊已经发现了完全由AI"伪造"的论文——包括编造的数据和不存在的参考文献。

新闻业： 多家媒体被发现使用AI批量生成低质量新闻文章——CNET在2023年被曝光用AI生成了数十篇财经文章，其中多篇包含事实错误。

电商评论： 亚马逊2023年报告称AI生成的虚假评论数量急剧增加——传统的"刷好评"已经升级为AI批量生成各种风格的"真实评论"。

社交媒体： AI生成的图片和文字被用于制造虚假的新闻账号——在选举期间传播误导信息。

求职： AI代写简历和求职信已经是常态——但同时HR也在用AI筛选简历——形成了"AI写 vs AI读"的荒诞循环。

—— 04 ——

不只是文字：图片和视频

文字只是AI生成内容的一部分。AI生成图片（Midjourney、DALL-E、Stable Diffusion）和深度伪造视频（Deepfake）带来的识别挑战更大。

2023年，一张AI生成的"教皇穿白色羽绒服"的图片在社交媒体上疯传——数百万人信以为真——直到有人指出这是AI生成的。

2024年，一段用AI伪造的某企业CEO视频通话被用于诈骗——骗取了约2亿港元——受害公司的员工全程以为自己在和真人对话。

AI生成的图片现在已经精细到普通人完全无法辨别——手指数量错误、文字乱码这些早期的"马脚"已经被最新模型修复了。

一个你需要接受的现实：你在网上看到的任何图片、文字甚至视频——都可能是AI生成的。 反过来也成立：你写的任何真实文字——都可能被别人怀疑是AI写的。

DEEPFAKE FRAUD CASE

~2亿港元

2024年利用AI伪造视频通话实施的单笔最大诈骗金额

—— 05 ——

我们还能怎么办？

技术手段： 数字水印（在AI生成内容中嵌入不可见的标记）——Google和OpenAI都在开发。但水印可以被去除——攻防会持续。内容溯源系统（C2PA/Content Credentials）——记录图片和视频的来源和编辑历史——Adobe和微软在推动。区块链验证原创内容——概念验证阶段。

制度手段： 欧盟AI法案要求AI生成内容必须标注来源。中国2023年的生成式AI管理办法要求AI生成内容添加标识。但执行难度很大——尤其是跨境内容。

个人手段： 培养批判性思维——不轻信单一来源的信息。交叉验证——重要信息至少用2-3个独立来源确认。关注信息的来源而非内容本身——一个可靠的信源比一篇"看起来很专业"的文章更值得信任。

—— 06 ——

你读完了

你读到这里了。

这篇文章是人写的还是AI写的？你能确定吗？

坦白说——在2025年，对于任何一篇网络上的文章——你不能100%确定。你只能基于来源的可信度、内容的深度和一致性、以及你自己的判断来做出"大概率"的评估。

这不是一个技术问题——这是一个信任问题。当AI写的东西和人写的一样好（甚至更好），"谁写的"这个问题就变得不那么重要了——重要的是内容是否准确、是否有价值、是否对你有帮助。

在真假难辨的内容时代——你最需要的不是一个AI检测器——而是一个更好的信息素养。

学会质疑。学会验证。学会在不确定中做判断。

这是AI时代给每一个人的必修课。

关注亿树

用科学的眼光，看见生活的真相

亿树 · 用数据说话的科普号