你今天都读了哪些文章?
这些文章是你读的,还是 AI 替你读的?
看完 AI 摘要后,你有在回头去读原文吗?
AI 写的,AI 读

周一早上,老板在工作群里甩来一篇行业分析。三千多字,配图精致,论点清晰,每段都有个加粗的小标题。看上去像那么回事。
你顺手让 AI 帮你总结。一分钟后摘要出来了。三个要点,每个一句话。你扫了一遍:原来如此。在群里回了个"挺有启发"的表情。
中午吃饭时,老板顺口问你早上那篇文章怎么看。
你想了三秒钟。
"嗯,挺有启发的,讲了几个新趋势。"
哪几个?没想起来。那几个趋势之间有什么关系?也说不清。
你今天早上没读那篇文章。AI 读了。
AI 写的,AI 评

AI 帮你写文章已经是常态。AI 帮你读文章也是常态。摘要工具、翻译工具、浏览器插件,你身边的人都在用。
这两件事之外,最近又多了一件:AI 给 AI 把关。
教育圈最热闹。学生用 AI 写作业,老师用 AI 改作业,平台用 AI 给作业查重。夸张点的话,整套流程从头到尾,作业不用经过一个人。
技术圈也一样。工程师用 AI 写代码,再让另一个 AI 来评好坏。AI 行业内部有个词叫"大模型当裁判"(LLM-as-a-judge),让一个 AI 来评另一个 AI 写的东西好不好,省下人工评分的钱。
听上去很高效。但这里头有个问题。
AI 的评价准确吗?

2025 年 5 月,有人把朱自清的《荷塘月色》原文丢进某常用论文检测系统,结果出来:AI 生成内容疑似度 **62.88%**。同一个系统检测刘慈欣《流浪地球》的片段,AI 率 **52.88%**。《滕王阁序》直接拉到 **100%**。朱自清写《荷塘月色》是 在1927 年。在 AI 检测器眼里,他抄了 AI。
2023 年斯坦福的研究让 7 款主流的 AI 检测工具去判 TOEFL 考生写的真实作文:非母语考生的真作文,平均 61.3%被判为 AI 写的;母语考生只有 **5.1%**。差了 12 倍。这篇论文发在《模式》(Patterns),是《细胞》(Cell)的子刊。
中国学生申请留学要交的英文短文、国内学生交的英文作业,都是这套工具的覆盖范围。你认真写的东西,被 AI 判成是 AI 写的。
全在 AI 手里

把这三件事摆在一起看:
内容供给:AI 生产 内容消化:AI 帮你摘要、翻译、总结 质量判断:AI 给 AI 把关
你今晚刷视频号。推给你的视频是 AI 选的,标题是 AI 起的,文案是 AI 写的,评论区互相吹捧的大概率是 AI 僵尸号在刷量,点赞的也未必是真人。明天你打开一个新闻 App,AI 推荐 AI 写的稿子,AI 给你做摘要,AI 在末尾给这篇稿子打了个"优质好评"的标签。有道是:乱哄哄你方唱罢我登场,更无一个是真人。
你读到的文章可能是 AI 写的; AI 还帮你读文章;文章好不好、能不能在你手机上出现,也是 AI 在控制。
写、读、评,三件事从人类手里让出去之后,AI 能自己跑这套东西,还可以一直跑下去。
写、读、评,是 AI 自己在跟自己玩击鼓传花。
但这个环路里,人去哪了?
哪件事 AI 做不了

你读了一篇关于成年后朋友关系的文章。文章里有一句话:
"成年后的朋友,都是从不联系开始的。"
你愣了三秒钟。
你突然想起了大学里最好的那个朋友。当年毕业去了国外,你们说好每周打一次视频。三个月后变成每月一次,半年后变成节日发个表情包,再后来连表情包都没了。上一次说话是五年前。
这三秒钟发生了什么?这篇文章里的一句话,勾起了你脑子里一段五年的空白。从此后,你看朋友关系、看自己手机里那些没回过的微信、看朋友圈里很久不出现的头像,心里会多一层东西。
又或者你读到另一篇,讲到孩子上大学与妈妈分别。你心里微微一颤,想起了那个沙尘暴的早上,你从副驾车窗望出去,那个背着大大书包的小小身影,独自走进学校大门。
这些 AI 都不知道。AI 替你读,替你总结,替你推理,它能给你的是这篇文章说了什么,而不是这些文字对你意味着什么。
这事儿心理学上研究过。2014 年普林斯顿的研究让两组学生听同一场讲座,一组手写笔记,一组电脑打字。事实性问题两组差不多,但概念性问题手写组显著高出。手写慢,逼着大脑做"重述":把听到的话翻译成自己的话。打字快,逐字转录,反而记不住。这篇论文发在《心理科学》(Psychological Science),被引超过 3000 次。
你愣的那三秒钟,就是大脑在做"重述"。把这句话翻译成你的版本,挂进你自己的记忆。AI 替你读,相当于逐字转录,连重述的机会都没了。
那三秒钟只能你来愣。
AI 能帮你什么呢

那 AI 在阅读这件事上还有用武之地吗?
有。但用法变了。
你读到"成年后的朋友都是从不联系开始"那句话的时候,你的反应通常是合上手机,或者继续往下划。"想起那个朋友"这个念头,半分钟后就散了。下次再看到类似的话,你可能又会愣三秒钟,但已经接不到上次那条线了。
现在你可以多花十秒,告诉 AI:
"这一段让我想起大学最好的那个朋友,五年没说过话了。"
什么 AI 都行。你常用的那个聊天工具、手机里随便一个能记事的笔记 App 配上 AI 整理,都成。要紧的是你愿意花十秒,把那三秒钟说出来。
AI 把这条记下来,标好时间,跟这篇文章绑在一起。
三个月后,你再读到关于朋友关系的文章,AI 能把这条翻出来。再过半年,朋友圈里他突然给你点了个赞,AI 能告诉你:上次你读一篇文章想到的就是他,你当时记的是什么。
读,还得你自己来。AI 可以帮你留住感受。
你读文章,工具帮你记下感想。
上一篇《AI 批量生产文章的年代,谁来帮你阅读?》讲过一个方向:让 AI 把你的划线和批注整理成笔记。这篇更进一步:不仅仅要整理你写下的批注,还要保留你读时愣的那三秒钟。批注是你已经整理成文字的东西,那三秒钟,是你心中的灵光一现。
这些条目攒起来,得放在一个合适的地方。至于放哪,咱们下回单开一篇。
回到周一早上

回到周一早上那篇行业分析。
你扫了一眼 AI 给的摘要,回了个"挺有启发"。中午老板问起来,说不上来读了什么。
但那篇文章里,也许会有一句话,能够让你愣三秒钟。在这三秒钟里,你可能突然记起去年那个让你后悔的决定,你可能回忆起某年某月某一天遇见的那个人,你也可能回想起马尔克斯提过的那个父亲带你去见识冰块的下午。
但这三秒钟没有发生,你没读到那些文字,是 AI 替你读完。
AI 替你跑完了整个环路,它还可以一直跑下去。环路里的事它包了。
让 AI 写、让 AI 读、让 AI 评价…… 这些事你愿意继续都行。但你愣的那三秒钟,得你自己愣。
真正的阅读,还得你自己来。
谢谢高鹏的鼓励,因为个人原因停更了一段时间,下面继续更新。
延展阅读
1. AI 给 AI 改作业,已经在很多学校了
教育领域有个词叫 AI 自动作文评分(Automated Essay Scoring)。最早可以追到 1960 年代的 PEG 系统。2010 年之后,托福、雅思、GRE 的写作部分大量采用 AI 评分作为人工评分的辅助。2023 年开始,GPT 类工具进入实际课堂。AI 写作业 + AI 改作业这套流程,最早是从托福、雅思的写作评分进来的,现在中小学课堂也有了。整个过程里,"作业是不是表达了什么"这件事,没有人在判断。
2. AI 检测 AI 写的,准确率不太行
知网 AIGC 检测、PaperPass、GPTZero 这些 AI 内容检测工具,准确率在 60% 到 80% 之间晃。这是个矛盾:AI 写得越像人,AI 检测器越测不出来。用 AI 检测 AI,本质上是同一个环路在转。除了正文里讲的朱自清和非母语者偏见,还有更荒诞的。OpenAI 自己 2023 年 7 月下架了他们的 AI 内容检测工具,理由是"准确率太低"。开发 AI 的公司,做出来的检测 AI 写的东西的工具,自己都用不下去。
3. 大模型当裁判(LLM-as-a-judge)
2024 年开始在 AI 行业内部普及的做法。训练新模型的时候,让一个更强的 AI 来评判它的输出好不好。理论上节省人工评估成本,实际上 AI 评判 AI 的偏见已经被研究确认(郑等,NeurIPS 2023):位置偏见(先看到的回答倾向得高分)、冗长偏见(更长的回答倾向得高分)、自我偏见(同款模型偏爱自己的输出)。这意味着如果你用 GPT-4 评 GPT-4 写的文章,分数会虚高。
4. 认知科学里的"精细加工"
这是普林斯顿那个研究背后的理论。心理学叫"加工层次理论"(levels of processing),1972 年由克雷克(Craik)和洛克哈特(Lockhart)提出。信息和你已有的知识发生联系越深,记得越牢。被动接收摘要是"浅加工",自己读 + 反应是"深加工"。两者的记忆留存可以差 3 到 5 倍。这是为什么读完摘要记不住、自己读 + 多想十秒能记三个月的原因。
5. 法尔扎(Farza)和卡帕西(Andrej Karpathy)的做法里都有这一层
法尔扎说"这个 wiki 不是给我看的,是给我的 Agent 看的"。卡帕西的 raw 目录里塞的有文章,也有他读文章时的批注和想法。他们都把"读时想到的东西"作为最重要的输入。原始材料 + 你的反应 = 你的知识。少了任何一边都不成。
6. 马尔克斯和那个"见识冰块的下午"
加西亚·马尔克斯(Gabriel García Márquez,1927–2014),哥伦比亚作家,1982 年诺贝尔文学奖得主。代表作《百年孤独》开篇是 20 世纪最著名的小说开头之一:
"多年以后,面对行刑队,奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。"
参考资料
[1] Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779
[2] Mueller, P. A., & Oppenheimer, D. M. (2014). The Pen Is Mightier Than the Keyboard: Advantages of Longhand Over Laptop Note Taking. Psychological Science, 25(6), 1159–1168. https://doi.org/10.1177/0956797614524581
[3] Zheng, L., Chiang, W. L., Sheng, Y., et al. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023. https://arxiv.org/abs/2306.05685
[4] Craik, F. I. M., & Lockhart, R. S. (1972). Levels of processing: A framework for memory research. Journal of Verbal Learning and Verbal Behavior, 11(6), 671–684.
夜雨聆风