AI替你读过,但你真的读过吗?

你今天都读了哪些文章？

这些文章是你读的，还是 AI 替你读的？

看完 AI 摘要后，你有在回头去读原文吗？

AI 写的，AI 读

周一早上，老板在工作群里甩来一篇行业分析。三千多字，配图精致，论点清晰，每段都有个加粗的小标题。看上去像那么回事。

你顺手让 AI 帮你总结。一分钟后摘要出来了。三个要点，每个一句话。你扫了一遍：原来如此。在群里回了个"挺有启发"的表情。

中午吃饭时，老板顺口问你早上那篇文章怎么看。

你想了三秒钟。

"嗯，挺有启发的，讲了几个新趋势。"

哪几个？没想起来。那几个趋势之间有什么关系？也说不清。

你今天早上没读那篇文章。AI 读了。

AI 写的，AI 评

AI 帮你写文章已经是常态。AI 帮你读文章也是常态。摘要工具、翻译工具、浏览器插件，你身边的人都在用。

这两件事之外，最近又多了一件：AI 给 AI 把关。

教育圈最热闹。学生用 AI 写作业，老师用 AI 改作业，平台用 AI 给作业查重。夸张点的话，整套流程从头到尾，作业不用经过一个人。

技术圈也一样。工程师用 AI 写代码，再让另一个 AI 来评好坏。AI 行业内部有个词叫"大模型当裁判"（LLM-as-a-judge），让一个 AI 来评另一个 AI 写的东西好不好，省下人工评分的钱。

听上去很高效。但这里头有个问题。

AI 的评价准确吗？

2025 年 5 月，有人把朱自清的《荷塘月色》原文丢进某常用论文检测系统，结果出来：AI 生成内容疑似度 **62.88%**。同一个系统检测刘慈欣《流浪地球》的片段，AI 率 **52.88%**。《滕王阁序》直接拉到 **100%**。朱自清写《荷塘月色》是在1927 年。在 AI 检测器眼里，他抄了 AI。

2023 年斯坦福的研究让 7 款主流的 AI 检测工具去判 TOEFL 考生写的真实作文：非母语考生的真作文，平均 61.3%被判为 AI 写的；母语考生只有 **5.1%**。差了 12 倍。这篇论文发在《模式》（Patterns），是《细胞》（Cell）的子刊。

中国学生申请留学要交的英文短文、国内学生交的英文作业，都是这套工具的覆盖范围。你认真写的东西，被 AI 判成是 AI 写的。

全在 AI 手里

把这三件事摆在一起看：

内容供给：AI 生产
内容消化：AI 帮你摘要、翻译、总结
质量判断：AI 给 AI 把关

你今晚刷视频号。推给你的视频是 AI 选的，标题是 AI 起的，文案是 AI 写的，评论区互相吹捧的大概率是 AI 僵尸号在刷量，点赞的也未必是真人。明天你打开一个新闻 App，AI 推荐 AI 写的稿子，AI 给你做摘要，AI 在末尾给这篇稿子打了个"优质好评"的标签。有道是：乱哄哄你方唱罢我登场，更无一个是真人。

你读到的文章可能是 AI 写的； AI 还帮你读文章；文章好不好、能不能在你手机上出现，也是 AI 在控制。

写、读、评，三件事从人类手里让出去之后，AI 能自己跑这套东西，还可以一直跑下去。

写、读、评，是 AI 自己在跟自己玩击鼓传花。

但这个环路里，人去哪了？

哪件事 AI 做不了

你读了一篇关于成年后朋友关系的文章。文章里有一句话：

"成年后的朋友，都是从不联系开始的。"

你愣了三秒钟。

你突然想起了大学里最好的那个朋友。当年毕业去了国外，你们说好每周打一次视频。三个月后变成每月一次，半年后变成节日发个表情包，再后来连表情包都没了。上一次说话是五年前。

这三秒钟发生了什么？这篇文章里的一句话，勾起了你脑子里一段五年的空白。从此后，你看朋友关系、看自己手机里那些没回过的微信、看朋友圈里很久不出现的头像，心里会多一层东西。

又或者你读到另一篇，讲到孩子上大学与妈妈分别。你心里微微一颤，想起了那个沙尘暴的早上，你从副驾车窗望出去，那个背着大大书包的小小身影，独自走进学校大门。

这些 AI 都不知道。AI 替你读，替你总结，替你推理，它能给你的是这篇文章说了什么，而不是这些文字对你意味着什么。

这事儿心理学上研究过。2014 年普林斯顿的研究让两组学生听同一场讲座，一组手写笔记，一组电脑打字。事实性问题两组差不多，但概念性问题手写组显著高出。手写慢，逼着大脑做"重述"：把听到的话翻译成自己的话。打字快，逐字转录，反而记不住。这篇论文发在《心理科学》（Psychological Science），被引超过 3000 次。

你愣的那三秒钟，就是大脑在做"重述"。把这句话翻译成你的版本，挂进你自己的记忆。AI 替你读，相当于逐字转录，连重述的机会都没了。

那三秒钟只能你来愣。

AI 能帮你什么呢

那 AI 在阅读这件事上还有用武之地吗？

有。但用法变了。

你读到"成年后的朋友都是从不联系开始"那句话的时候，你的反应通常是合上手机，或者继续往下划。"想起那个朋友"这个念头，半分钟后就散了。下次再看到类似的话，你可能又会愣三秒钟，但已经接不到上次那条线了。

现在你可以多花十秒，告诉 AI：

"这一段让我想起大学最好的那个朋友，五年没说过话了。"

什么 AI 都行。你常用的那个聊天工具、手机里随便一个能记事的笔记 App 配上 AI 整理，都成。要紧的是你愿意花十秒，把那三秒钟说出来。

AI 把这条记下来，标好时间，跟这篇文章绑在一起。

三个月后，你再读到关于朋友关系的文章，AI 能把这条翻出来。再过半年，朋友圈里他突然给你点了个赞，AI 能告诉你：上次你读一篇文章想到的就是他，你当时记的是什么。

读，还得你自己来。AI 可以帮你留住感受。

你读文章，工具帮你记下感想。

上一篇《AI 批量生产文章的年代，谁来帮你阅读？》讲过一个方向：让 AI 把你的划线和批注整理成笔记。这篇更进一步：不仅仅要整理你写下的批注，还要保留你读时愣的那三秒钟。批注是你已经整理成文字的东西，那三秒钟，是你心中的灵光一现。

这些条目攒起来，得放在一个合适的地方。至于放哪，咱们下回单开一篇。

回到周一早上

回到周一早上那篇行业分析。

你扫了一眼 AI 给的摘要，回了个"挺有启发"。中午老板问起来，说不上来读了什么。

但那篇文章里，也许会有一句话，能够让你愣三秒钟。在这三秒钟里，你可能突然记起去年那个让你后悔的决定，你可能回忆起某年某月某一天遇见的那个人，你也可能回想起马尔克斯提过的那个父亲带你去见识冰块的下午。

但这三秒钟没有发生，你没读到那些文字，是 AI 替你读完。

AI 替你跑完了整个环路，它还可以一直跑下去。环路里的事它包了。

让 AI 写、让 AI 读、让 AI 评价…… 这些事你愿意继续都行。但你愣的那三秒钟，得你自己愣。

真正的阅读，还得你自己来。

谢谢高鹏的鼓励，因为个人原因停更了一段时间，下面继续更新。

延展阅读

1. AI 给 AI 改作业，已经在很多学校了

教育领域有个词叫 AI 自动作文评分（Automated Essay Scoring）。最早可以追到 1960 年代的 PEG 系统。2010 年之后，托福、雅思、GRE 的写作部分大量采用 AI 评分作为人工评分的辅助。2023 年开始，GPT 类工具进入实际课堂。AI 写作业 + AI 改作业这套流程，最早是从托福、雅思的写作评分进来的，现在中小学课堂也有了。整个过程里，"作业是不是表达了什么"这件事，没有人在判断。

2. AI 检测 AI 写的，准确率不太行

知网 AIGC 检测、PaperPass、GPTZero 这些 AI 内容检测工具，准确率在 60% 到 80% 之间晃。这是个矛盾：AI 写得越像人，AI 检测器越测不出来。用 AI 检测 AI，本质上是同一个环路在转。除了正文里讲的朱自清和非母语者偏见，还有更荒诞的。OpenAI 自己 2023 年 7 月下架了他们的 AI 内容检测工具，理由是"准确率太低"。开发 AI 的公司，做出来的检测 AI 写的东西的工具，自己都用不下去。

3. 大模型当裁判（LLM-as-a-judge）

2024 年开始在 AI 行业内部普及的做法。训练新模型的时候，让一个更强的 AI 来评判它的输出好不好。理论上节省人工评估成本，实际上 AI 评判 AI 的偏见已经被研究确认（郑等，NeurIPS 2023）：位置偏见（先看到的回答倾向得高分）、冗长偏见（更长的回答倾向得高分）、自我偏见（同款模型偏爱自己的输出）。这意味着如果你用 GPT-4 评 GPT-4 写的文章，分数会虚高。

4. 认知科学里的"精细加工"

这是普林斯顿那个研究背后的理论。心理学叫"加工层次理论"（levels of processing），1972 年由克雷克（Craik）和洛克哈特（Lockhart）提出。信息和你已有的知识发生联系越深，记得越牢。被动接收摘要是"浅加工"，自己读 + 反应是"深加工"。两者的记忆留存可以差 3 到 5 倍。这是为什么读完摘要记不住、自己读 + 多想十秒能记三个月的原因。

5. 法尔扎（Farza）和卡帕西（Andrej Karpathy）的做法里都有这一层

法尔扎说"这个 wiki 不是给我看的，是给我的 Agent 看的"。卡帕西的 raw 目录里塞的有文章，也有他读文章时的批注和想法。他们都把"读时想到的东西"作为最重要的输入。原始材料 + 你的反应 = 你的知识。少了任何一边都不成。

6. 马尔克斯和那个"见识冰块的下午"

加西亚·马尔克斯（Gabriel García Márquez，1927–2014），哥伦比亚作家，1982 年诺贝尔文学奖得主。代表作《百年孤独》开篇是 20 世纪最著名的小说开头之一：

"多年以后，面对行刑队，奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。"

参考资料

[1] Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779

[2] Mueller, P. A., & Oppenheimer, D. M. (2014). The Pen Is Mightier Than the Keyboard: Advantages of Longhand Over Laptop Note Taking. Psychological Science, 25(6), 1159–1168. https://doi.org/10.1177/0956797614524581

[3] Zheng, L., Chiang, W. L., Sheng, Y., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023. https://arxiv.org/abs/2306.05685

[4] Craik, F. I. M., & Lockhart, R. S. (1972). Levels of processing: A framework for memory research. Journal of Verbal Learning and Verbal Behavior, 11(6), 671–684.