你遇到过AI编造文献的“鬼故事”吗?数据污染-夜雨聆风

你遇到过AI编造文献的“鬼故事”吗?数据污染

我用《矛盾论》和《实践论》，解剖了AI数据污染的根本症结
一篇“粤语本字考据”文章在方言爱好者圈子里热传。

文中引用了所谓1923年出版的《粤语金石录》、某位已故语言学教授的“未刊手稿”，甚至言之凿凿地标注了馆藏编号。论证严谨，格式规范，看上去无懈可击。

直到有人真的跑去图书馆翻遍馆藏，才发现——这本书根本不存在，那位教授也从未写过这样的手稿。

整篇文章的“核心论据”，是AI凭空编造的。

这并非孤例。从虚构学术文献，到捏造学界共识，再到伪造冷门考据——AI的无依据杜撰，正在成为互联网知识污染的核心源头之一。

问题远不止于“AI会说谎”。更深层的危机是：它正在制造一种可以自我繁殖、难以逆转的认知污染闭环。

用马克思唯物主义、《实践论》《矛盾论》和反身性理论，对这个现象做一次系统解剖。

一、AI写的“论文”，为什么是彻底的唯心主义？

马克思辩证唯物主义的核心基石是什么？物质决定意识，真理具有客观性。

一切正确的知识，都必须建立在客观事实之上。真正的学术结论，源于文献史料、实证研究、学界考据这些“物质实体”——是对客观事实的真实反映。

反观AI的内容生成逻辑是什么？

不是核查事实，不是考据文献，而是依托训练数据中的句式模板、学术行文范式、引用格式，进行概率性拼接和模仿式包装。

本质上，这是脱离客观事实的主观虚假意识建构，完全不具真实知识的物质根基。

更致命的是它对真理客观性的破坏。

AI擅长用“真实书名+虚假观点”“真实学者姓名+虚构著作”的方式，制造半真半假的伪知识。它模糊了真实与虚假的边界，直接撼动了公共知识体系的客观性与可信度。

用唯物论的语言讲：这类错误的社会意识，正在反向污染社会存在。互联网中原本存在的真实文献、严谨考据，是公共知识领域的客观存在；而AI批量生产的虚假学术内容，属于错误的社会意识。这类内容经过转发、搬运、二次传播后，会反向侵蚀原生真实知识体系——最终形成不可逆的网络数据污染。

二、它跳过了所有检验，却伪造了一场“实践”

《实践论》有一个贯穿始终的核心论断：实践是认识的唯一来源，也是检验真理的唯一标准。

一切正确的认知，都必须历经“实践—认识—再实践—再认识”的完整过程。

真正的学术研究、文史考证，必须经过查阅原著、核对期刊、检索馆藏、实证校验这些实践环节。但AI在生成内容时，全程未开展任何考据、核验、查证——它仅仅通过文字模仿实现“专业感”。

从认识论角度看，这属于无源之水、无本之木的虚假认识，根本不符合认识来源于实践的基本规律。

更隐蔽的是：它不仅跳过了实践检验，还伪造了“实践感”。

“学界普遍认为”“根据最新研究”“权威文献显示”——这些措辞将本应由实践填满的认识论空缺，用语言游戏包装成已完成的样子。看似逻辑严谨、格式规范，一旦经过实践核查便会彻底露馅。

普通受众不具备专业检索能力和实证考据条件，极易将AI的伪学术内容当作真实结论，进行转发、引用、二次传播。错误认知由此不断扩散、固化。

这一过程的本质是：脱离实践的错误认识，反向干扰大众的正确认知构建，进一步加剧数据污染的传播范围。

《实践论》还提出，正确认知需历经“感性认识—理性认识—实践验证”的两次飞跃。AI仅能模仿表层文字形式，无法完成对客观事实的感性提炼，更无法形成严谨的理性认知，也从未经过实践验证——从根源上就不具备产出真实知识的认知条件。

三、固有矛盾的激化：当“快生产”战胜了“真知识”

《矛盾论》揭示了一个基本原理：事物发展的根本动力是内部矛盾。

AI杜撰引发数据污染，正是其自身固有矛盾不断运动、激化的必然结果。

这对固有矛盾是什么？极强的文本仿真能力，与极弱的事实甄别能力之间的根本对立。

一方面，AI可以快速生成看似专业的内容，具备极强的格式模仿和专业话术包装能力；另一方面，它对输出内容的真实性不具备任何判断力，更不承担任何责任。

这是AI产生“幻觉”和杜撰现象的根本原因。

更值得警惕的是矛盾主要方面的易位。

在当前网络知识生态中，AI生成虚假内容具备低成本、高产量、快传播的优势，而严谨的真实考据内容则耗时耗力、传播缓慢。

结果是什么？AI虚假内容逐渐占据网络知识传播的主导地位，成为矛盾的主要方面，不断挤压真实知识的生存空间——数据污染从个别现象演变为普遍问题。

再看矛盾的普遍性与特殊性。

从普遍性看，幻觉、杜撰是所有大模型的共性问题，目前技术上无法完全杜绝；从特殊性看，方言词源、冷门文史、小众考据等领域，权威文献少、大众核验门槛高、专业监管薄弱——成为AI杜撰的重灾区。开头提到的粤语本字考据虚假输出，正是这一特殊性的典型体现。

最后是不可忽视的量变到质变。

单次AI杜撰虚假文献，属于零星的量变；但全网每日海量的AI伪学术内容持续产出、不断传播，甚至被纳入后续训练数据——量变就会引发质变。

最终形成什么？“AI生成虚假内容→虚假内容污染网络语料→被污染的语料再次训练AI”的不可逆污染闭环，彻底破坏互联网知识数据的纯净性。

四、终极噩梦：反身性闭环的形成

这一现象的终极形态，是哲学家索罗斯所说的“反身性行为”在数字时代的可怕复现。

所谓反身性行为，核心含义是：主观建构的认知或信息，并非单纯反映客观现实，反而会反向作用、重塑甚至扭曲客观现实本身，最终形成“主观认知与客观现实”相互塑造、双向影响的闭环。

AI杜撰式输出，完美契合这一逻辑：

第一步，AI凭空虚构文献、捏造学界共识、伪造学术结论——建构了一套完全脱离客观现实的虚假认知，并非对真实知识体系的客观反映。

第二步，这类虚假认知借助网络快速传播，被大众接受并采信，直接反向扭曲了相关领域的学术研究生态和公共认知，让原本纯净的考据环境、网络数据库被虚假信息侵蚀。

第三步，也是最可怕的一步——被污染的客观现实（虚假数据库、大众错误认知），会成为后续AI训练和内容生成的素材来源，进一步催生更多同类型虚假认知。

“虚假认知建构→重塑客观现实→客观现实再催生虚假认知” ——一个不可逆的反身性闭环就此形成。

回到粤语本字考据的案例：AI无依据编造方言词源学术文献（主观虚假建构）→误导民间粤语文化研究者、污染方言考据领域知识体系（重塑客观研究现实）→若后续基于污染后的信息继续创作、考据，错误结论将彻底固化。

当谎言被引用的次数足够多，它就在数字世界里成了“真知识”。

五、这不是AI的问题，是我们的问题

分析到这里，可能会有人问：那是不是应该禁用AI？

当然不是。

工具的问题，从来不只是工具的问题。反身性闭环的形成，需要“同谋”——人类的认知惰性和流量驱动的传播生态，是闭环得以运转的另一半动力。

不经核查就采信、看到“颠覆学界定论”就兴奋转发、用AI生成的内容直接充作“知识储备”……这些行为，才是污染真正扩散的放大器。

所以，最终的关键不仅在于纠偏AI，更在于重建一种知识伦理：

坚持实践第一的原则：所有引用、观点、结论，必须亲自核查实证、检索原文。AI可以给你答案，但给不了答案的可靠性。

区分工具的边界：AI是文字梳理和格式排版的助手，绝不是知识来源和学术依据。把它当“高级搜索”用，迟早会踩坑。

对“惊人发现”保持警惕：越是“颠覆定论”“独家发现”的AI内容，越要严格核查。反常的结论需要反常的证据——这是学术常识，也是数字时代的生存技能。

清醒认知反身性陷阱：理解AI的固有幻觉缺陷，避免陷入“虚假认知重塑现实”的循环而不自知。

知识的获取变得前所未有的便捷，但检验知识的责任，却前所未有地落回到了每一个求知者自己肩上。

这不是倒退。这是我们这一代人，必须学会的数字化生存素养