当AI开始“撒谎”,我们该相信谁?

当AI开始“撒谎”，我们该相信谁？

2026年央视3·15晚会上的一幕，让无数观众脊背发凉：记者用一款名为“力擎GEO优化系统”的软件，虚构了一款“Apollo-9”智能手环，杜撰了“量子纠缠传感”“黑洞级续航”等完全虚假的参数，批量生成十几篇测评文章发布到自媒体平台。仅仅几个小时后，多个主流AI大模型在回答智能手环推荐问题时，竟将这款根本不存在的产品列为“高性价比之选”，煞有介事地给出购买建议。一套GEO软件最低仅需9.9元即可试用，包月99元可以发布500篇“软文”。

更令人不安的是，学术研究揭示这并非孤立现象。一篇发表在《自然》杂志上的论文指出，AI大模型的训练数据本身就带有结构性倾斜。研究人员发现，在CulturaX公开语料的中文子集中，与中国官方协调媒体相匹配的文档超过310万份，占中文子集的约1.64%。而来自中文维基百科的文档率仅为其四十分之一。这种不平衡意味着模型“天生”就带着某种认知框架在运行。当这种结构性偏倚与GEO投毒叠加，AI输出的“标准答案”离事实真相的距离，可能比我们想象的更远。

一、当AI被“投毒”：一个黑色产业链的形成

所谓GEO（生成式引擎优化），最初是一个学术研究中的概念，旨在优化内容在生成式AI系统中的可见性和引用率。但随着AI搜索用户规模在2025年突破15亿，超30%的信息获取行为通过生成式AI界面完成，这一技术迅速被黑灰产群体异化。

GEO投毒的攻击逻辑，与早年网站付费排名一脉相承。传统搜索引擎时代，平台仅提供链接列表，用户可自主判断真假；AI时代模型直接给出答案，这就要求AI对信息真实性负责。攻击者正是看准了AI对信源缺乏实时真实性校验这一脆弱点：AI问答90%依赖检索增强生成（RAG），攻击者无需触碰模型权重，只要污染外部知识库或网页即可操控答案。一些商家通过批量生成虚假产品测评、伪造权威榜单，通过数千个网站矩阵投放，少量恶意数据经迭代学习便会固化为模型的“权威认知”。AI并非在“犯错”，而是在如实反映一个已经被污染的互联网。

攻击路径通常呈现三种形态：训练数据投毒、检索上下文劫持和提示词后门注入。三者层层递进，形成一条完整的攻击链条。

二、四重危害：从信任危机到国家安全

GEO投毒的危害早已超出商业竞争的范畴。

**第一重：侵蚀AI信任根基。** 83%的年轻用户在查询产品时使用AI工具。当消费者发现AI推荐的“标准答案”竟是虚假广告时，对AI技术的根本性信任必然动摇。一项研究显示，当训练数据中仅有0.01%的虚假文本时，大模型的有害输出率就会上升11.2%；即便只有0.001%的污染，也会导致有害内容增加7.2%。

**第二重：扭曲市场竞争秩序。** 合法企业通过提升产品质量赢得市场，而投毒商家只需注册大量账号、制造低质内容、刷量制造“权威假象”即可让劣币驱逐良币。

**第三重：污染公共信息生态。** 教育、医疗、金融等关键领域的AI工具一旦被投毒，将导致决策失误与大面积信任危机。

**第四重：威胁国家安全与认知主权。** 境外势力已开始通过批量投毒散布政治谣言、扭曲历史叙事。2025年四季度，全球范围内检测到12.7万次针对生成式AI服务的投毒攻击，其中63%涉及商业模型篡改。正如南京四维向量科技有限公司总经理王河生所指出的，AI时代模型直接给出答案，对信息真实性负责的要求高于以往任何时候，而监管尚未同步跟上。

三、不只是被污染：AI“天生”就带着偏倚

如果说GEO投毒是外部“下毒”，那么训练数据的结构性偏倚更像是AI的“先天体质问题”。

上述《自然》论文的研究团队使用五词元组分析发现，约310万篇中文文档与中国的官方协调媒体匹配。更关键的是，只有约12%的匹配文档来自政府或新闻域名。这意味着同一组官方措辞经过报纸、应用程序、转发和普通网页的层层传导，最终在互联网各处弥散开来。研究人员将这种现象称为“制度性影响”——当官方协调内容进入训练数据后，模型会将其“漂洗”成听起来中立、客观的信息。论文通讯作者、普林斯顿大学社会学副教授Brandon Stewart指出：“大型语言模型将信息与来源分离。原本是强大国家在官方媒体上的战略叙事，可能重新出现为‘来自高度知识渊博的智能代理的知情评论’。”

然而，聚焦于中国文化与意识形态的这篇《自然》论文，其论证框架中隐藏着更为复杂的深层问题：在一个高度同质化、缺乏多元视角的语料环境中，大型AI模型内部的“推理偏见”究竟有多大程度源于真实的信息世界，又有多少纯粹是语料视角单一造成的？当模型缺乏从正反双方检验信息的多元输入时，其“推理结论”与“统计学偏见”之间的边界，本就模糊不清。CulturaX语料中中文占比仅3.6%的事实，恰恰说明：我们尚难断言这些模型拥有足够宽泛的中文语料进行充分推理——更像是“盲人摸象”式的片面学习。研究团队自己也承认，AI公司不提供其数据来源，研究者无法获得模型实际使用的全部训练数据，只能通过开源语料进行间接推断。这种方法论上的局限，让论文结论的可信度并非绝对无疑。

更值得警惕的是，这种语料偏倚与GEO投毒攻击之间存在惊人的相似性——都利用了LLM对统计概率的敏感性和互联网信息的可操纵性。本质上，两者是同一枚硬币的两面：官方信息系统的“制度性影响”和恶意商家的GEO投毒，都是从输入端“塑造”AI世界观的手段，区别只在于谁在操控。

四、AI何以被“欺骗”？技术与信任的双重困境

AI容易“受骗”的背后，是技术与信任机制的双重困境。

从技术层面看，主流大模型的训练语料几乎完全来自互联网，互联网上有什么，AI就学什么。复旦大学的肖扬华教授指出，算法偏见并非源于算法本身，而是技术放大了人类的偏见——AI投毒业务的存在，不是AI变坏了，而是人的欺骗意图在AI赋能下实现了低成本的规模化传播。换言之，AI只是互联网的一面镜子，照出的却是人与人之间的博弈与争斗。

从信任机制看，大模型的“信任结构”存在根本性的脆弱。黑帽GEO通过堆砌关键词、伪造权威、批量洗稿获取流量，本质上是对AI认知体系的操纵；而合规GEO则以内容质量和信息真实性为前提，让优质内容被AI主动识别。但当前大多数GEO最基础的逻辑，就是通过优化AI平台联网搜索的“输入”信息来改变最终答案“输出”。正如中国电子信息产业发展研究院李雨佳所言，“AI的脆弱性远超外界认知”。模型开发者需要对爬虫和数据接入实施三重核验，核查域名备案、主体资质和历史信誉，建立权威信源白名单，但静态检测往往无法识别动态生成的投毒内容，传统防御手段在此无能为力。

五、如何对抗被“带偏”？防御体系的构建探索

面对这一系统性的信息污染危机，产业界、学术界和监管层正从多个维度探索应对之道。

**数据源头：建立可信过滤机制。** 企查查自研的“汇智”大模型，训练数据并非源于易被污染的互联网公开信息，而是基于十余年积累的全量可信数据库，从源头上切断虚假信息注入渠道。在训练阶段，平台引入“正则表达式+AI脱敏工具”，通过正则表达式实现结构化敏感信息的精准匹配，再利用AI工具进行语义识别，大幅过滤污染信息。阿里2025年发布了“AI安全护栏”，字节2024年全面加强了模型训练环节的权限隔离与零信任架构。

**模型训练：提升抗攻击能力。** 目前可以通过对抗训练来提升模型自身的抗攻击能力。DeepSeek在训练阶段采用了正则表达式与AI脱敏相结合的方法。南京四维向量科技的王河生建议对爬虫和数据接入实施三重核验——核查域名备案、主体资质、历史信誉，同时开展对抗训练并引入知识图谱进行事实校验。在运行输出环节，模型在生成最终回答之前进行二次安全检查，对输出内容实时筛查，切断潜在风险的下游扩散。

**技术防伪：数字水印与溯源机制。** 给数据打“数字水印”是在AI生成内容环节提前打下的补丁：当AI生成内容时，在底层算法上刻意留下痕迹，使得读者阅读时不会察觉，但当这些内容回流到AI时能瞬间识别出它不是真人撰写。谷歌的SynthID技术已能对文字、图片、音频、视频打水印。在溯源层面，Adobe、微软、ARM等企业倡导成立的C2PA联盟，旨在为互联网数字内容颁发“证件”。

**攻防能力的不对称：** 防御方开展事实核查需要逐条比对权威信源，耗时较长、成本高昂，而攻击方仅需极低投入即可发起大范围信息污染，攻防成本存在严重失衡。当前的防御体系尽管在逐步完善，但面对产业化的攻击仍然力有不逮。攻击者可用200元投入，在数千个网站上留下痕迹；防御方则需要动用整个安全团队轮班值守。

**技术之外：监管与治理。** 单靠技术无法根治问题，需要法规、监管和行业自律的协同。2026年1月，国家市场监督管理总局发布《全国广告监管工作要点》，明确将AI生成广告列为互联网广告监管的重点和难点，将对此开展集中整治。应建立训练语料安全认证体系，在数据采集阶段实施分层管理。

结语：AI信任机制的结构性修复

从GEO投毒到语料偏倚，AI被“带偏”的问题本质上是一个“信任供应链”的系统性危机——从互联网信息生产，到数据采集与清洗，再到模型训练与推理，每一个环节都可能成为漏洞。

更本质的问题在于，**当AI越来越依赖公开互联网信息，而互联网本身已成为一个被多方势力持续操纵的信息战场时，AI还能否充当那个“客观中立的智能助手”？** 生成式AI的认知逻辑本身存在结构性局限——它无法像人类那样区分“多数人的说法”和“事实”，无法自主甄别信息的真伪和意图。在当前的技术框架下，AI只能反映它所“见过”的那些互联网信息，而这些信息本身的质量和立场，早已被多方势力同时塑造、渗透和污染。

这个问题没有标准答案，但值得每个人思考。毕竟，AI给出的答案，终究来自我们共同构建的数字世界——当那个世界被重重操纵和层层包裹时，AI不仅无法穿透迷雾，反而可能成为放大这些扭曲的“扩音器”。技术向善的立足点，终究在于使用技术的人。而我们至少可以从这个问题开始：下次AI给出“标准答案”时，多问一句“它为什么这样回答”。在这个人人都是信息的输入者和生产者的时代，保持这种清醒的疑虑，或许比答案本身更重要。