乐于分享
好东西不私藏

你遇到过AI编造文献的“鬼故事”吗?数据污染

你遇到过AI编造文献的“鬼故事”吗?数据污染

我用《矛盾论》和《实践论》,解剖了AI数据污染的根本症结
一篇“粤语本字考据”文章在方言爱好者圈子里热传。

文中引用了所谓1923年出版的《粤语金石录》、某位已故语言学教授的“未刊手稿”,甚至言之凿凿地标注了馆藏编号。论证严谨,格式规范,看上去无懈可击。

直到有人真的跑去图书馆翻遍馆藏,才发现——这本书根本不存在,那位教授也从未写过这样的手稿。

整篇文章的“核心论据”,是AI凭空编造的。

这并非孤例。从虚构学术文献,到捏造学界共识,再到伪造冷门考据——AI的无依据杜撰,正在成为互联网知识污染的核心源头之一。

问题远不止于“AI会说谎”。更深层的危机是:它正在制造一种可以自我繁殖、难以逆转的认知污染闭环。

用马克思唯物主义、《实践论》《矛盾论》和反身性理论,对这个现象做一次系统解剖。

一、AI写的“论文”,为什么是彻底的唯心主义?

马克思辩证唯物主义的核心基石是什么?物质决定意识,真理具有客观性。

一切正确的知识,都必须建立在客观事实之上。真正的学术结论,源于文献史料、实证研究、学界考据这些“物质实体”——是对客观事实的真实反映。

反观AI的内容生成逻辑是什么?

不是核查事实,不是考据文献,而是依托训练数据中的句式模板、学术行文范式、引用格式,进行概率性拼接和模仿式包装。

本质上,这是脱离客观事实的主观虚假意识建构,完全不具真实知识的物质根基。

更致命的是它对真理客观性的破坏。

AI擅长用“真实书名+虚假观点”“真实学者姓名+虚构著作”的方式,制造半真半假的伪知识。它模糊了真实与虚假的边界,直接撼动了公共知识体系的客观性与可信度。

用唯物论的语言讲:这类错误的社会意识,正在反向污染社会存在。互联网中原本存在的真实文献、严谨考据,是公共知识领域的客观存在;而AI批量生产的虚假学术内容,属于错误的社会意识。这类内容经过转发、搬运、二次传播后,会反向侵蚀原生真实知识体系——最终形成不可逆的网络数据污染。

二、它跳过了所有检验,却伪造了一场“实践”

《实践论》有一个贯穿始终的核心论断:实践是认识的唯一来源,也是检验真理的唯一标准。

一切正确的认知,都必须历经“实践—认识—再实践—再认识”的完整过程。

真正的学术研究、文史考证,必须经过查阅原著、核对期刊、检索馆藏、实证校验这些实践环节。但AI在生成内容时,全程未开展任何考据、核验、查证——它仅仅通过文字模仿实现“专业感”。

从认识论角度看,这属于无源之水、无本之木的虚假认识,根本不符合认识来源于实践的基本规律。

更隐蔽的是:它不仅跳过了实践检验,还伪造了“实践感”。

“学界普遍认为”“根据最新研究”“权威文献显示”——这些措辞将本应由实践填满的认识论空缺,用语言游戏包装成已完成的样子。看似逻辑严谨、格式规范,一旦经过实践核查便会彻底露馅。

普通受众不具备专业检索能力和实证考据条件,极易将AI的伪学术内容当作真实结论,进行转发、引用、二次传播。错误认知由此不断扩散、固化。

这一过程的本质是:脱离实践的错误认识,反向干扰大众的正确认知构建,进一步加剧数据污染的传播范围。

《实践论》还提出,正确认知需历经“感性认识—理性认识—实践验证”的两次飞跃。AI仅能模仿表层文字形式,无法完成对客观事实的感性提炼,更无法形成严谨的理性认知,也从未经过实践验证——从根源上就不具备产出真实知识的认知条件。

三、固有矛盾的激化:当“快生产”战胜了“真知识”

《矛盾论》揭示了一个基本原理:事物发展的根本动力是内部矛盾。

AI杜撰引发数据污染,正是其自身固有矛盾不断运动、激化的必然结果。

这对固有矛盾是什么?极强的文本仿真能力,与极弱的事实甄别能力之间的根本对立。

一方面,AI可以快速生成看似专业的内容,具备极强的格式模仿和专业话术包装能力;另一方面,它对输出内容的真实性不具备任何判断力,更不承担任何责任。

这是AI产生“幻觉”和杜撰现象的根本原因。

更值得警惕的是矛盾主要方面的易位。

在当前网络知识生态中,AI生成虚假内容具备低成本、高产量、快传播的优势,而严谨的真实考据内容则耗时耗力、传播缓慢。

结果是什么?AI虚假内容逐渐占据网络知识传播的主导地位,成为矛盾的主要方面,不断挤压真实知识的生存空间——数据污染从个别现象演变为普遍问题。

再看矛盾的普遍性与特殊性。

从普遍性看,幻觉、杜撰是所有大模型的共性问题,目前技术上无法完全杜绝;从特殊性看,方言词源、冷门文史、小众考据等领域,权威文献少、大众核验门槛高、专业监管薄弱——成为AI杜撰的重灾区。开头提到的粤语本字考据虚假输出,正是这一特殊性的典型体现。

最后是不可忽视的量变到质变。

单次AI杜撰虚假文献,属于零星的量变;但全网每日海量的AI伪学术内容持续产出、不断传播,甚至被纳入后续训练数据——量变就会引发质变。

最终形成什么?“AI生成虚假内容→虚假内容污染网络语料→被污染的语料再次训练AI”的不可逆污染闭环,彻底破坏互联网知识数据的纯净性。

四、终极噩梦:反身性闭环的形成

这一现象的终极形态,是哲学家索罗斯所说的“反身性行为”在数字时代的可怕复现。

所谓反身性行为,核心含义是:主观建构的认知或信息,并非单纯反映客观现实,反而会反向作用、重塑甚至扭曲客观现实本身,最终形成“主观认知与客观现实”相互塑造、双向影响的闭环。

AI杜撰式输出,完美契合这一逻辑:

第一步,AI凭空虚构文献、捏造学界共识、伪造学术结论——建构了一套完全脱离客观现实的虚假认知,并非对真实知识体系的客观反映。

第二步,这类虚假认知借助网络快速传播,被大众接受并采信,直接反向扭曲了相关领域的学术研究生态和公共认知,让原本纯净的考据环境、网络数据库被虚假信息侵蚀。

第三步,也是最可怕的一步——被污染的客观现实(虚假数据库、大众错误认知),会成为后续AI训练和内容生成的素材来源,进一步催生更多同类型虚假认知。

“虚假认知建构→重塑客观现实→客观现实再催生虚假认知” ——一个不可逆的反身性闭环就此形成。

回到粤语本字考据的案例:AI无依据编造方言词源学术文献(主观虚假建构)→误导民间粤语文化研究者、污染方言考据领域知识体系(重塑客观研究现实)→若后续基于污染后的信息继续创作、考据,错误结论将彻底固化。

当谎言被引用的次数足够多,它就在数字世界里成了“真知识”。

五、这不是AI的问题,是我们的问题

分析到这里,可能会有人问:那是不是应该禁用AI?

当然不是。

工具的问题,从来不只是工具的问题。反身性闭环的形成,需要“同谋”——人类的认知惰性和流量驱动的传播生态,是闭环得以运转的另一半动力。

不经核查就采信、看到“颠覆学界定论”就兴奋转发、用AI生成的内容直接充作“知识储备”……这些行为,才是污染真正扩散的放大器。

所以,最终的关键不仅在于纠偏AI,更在于重建一种知识伦理:

坚持实践第一的原则:所有引用、观点、结论,必须亲自核查实证、检索原文。AI可以给你答案,但给不了答案的可靠性。

区分工具的边界:AI是文字梳理和格式排版的助手,绝不是知识来源和学术依据。把它当“高级搜索”用,迟早会踩坑。

对“惊人发现”保持警惕:越是“颠覆定论”“独家发现”的AI内容,越要严格核查。反常的结论需要反常的证据——这是学术常识,也是数字时代的生存技能。

清醒认知反身性陷阱:理解AI的固有幻觉缺陷,避免陷入“虚假认知重塑现实”的循环而不自知。

知识的获取变得前所未有的便捷,但检验知识的责任,却前所未有地落回到了每一个求知者自己肩上。

这不是倒退。这是我们这一代人,必须学会的数字化生存素养