当AI开始“撒谎”,我们该相信谁?当AI开始“撒谎”,我们该相信谁?
2026年央视3·15晚会上的一幕,让无数观众脊背发凉:记者用一款名为“力擎GEO优化系统”的软件,虚构了一款“Apollo-9”智能手环,杜撰了“量子纠缠传感”“黑洞级续航”等完全虚假的参数,批量生成十几篇测评文章发布到自媒体平台。仅仅几个小时后,多个主流AI大模型在回答智能手环推荐问题时,竟将这款根本不存在的产品列为“高性价比之选”,煞有介事地给出购买建议。一套GEO软件最低仅需9.9元即可试用,包月99元可以发布500篇“软文”。更令人不安的是,学术研究揭示这并非孤立现象。一篇发表在《自然》杂志上的论文指出,AI大模型的训练数据本身就带有结构性倾斜。研究人员发现,在CulturaX公开语料的中文子集中,与中国官方协调媒体相匹配的文档超过310万份,占中文子集的约1.64%。而来自中文维基百科的文档率仅为其四十分之一。这种不平衡意味着模型“天生”就带着某种认知框架在运行。当这种结构性偏倚与GEO投毒叠加,AI输出的“标准答案”离事实真相的距离,可能比我们想象的更远。一、当AI被“投毒”:一个黑色产业链的形成
所谓GEO(生成式引擎优化),最初是一个学术研究中的概念,旨在优化内容在生成式AI系统中的可见性和引用率。但随着AI搜索用户规模在2025年突破15亿,超30%的信息获取行为通过生成式AI界面完成,这一技术迅速被黑灰产群体异化。GEO投毒的攻击逻辑,与早年网站付费排名一脉相承。传统搜索引擎时代,平台仅提供链接列表,用户可自主判断真假;AI时代模型直接给出答案,这就要求AI对信息真实性负责。攻击者正是看准了AI对信源缺乏实时真实性校验这一脆弱点:AI问答90%依赖检索增强生成(RAG),攻击者无需触碰模型权重,只要污染外部知识库或网页即可操控答案。一些商家通过批量生成虚假产品测评、伪造权威榜单,通过数千个网站矩阵投放,少量恶意数据经迭代学习便会固化为模型的“权威认知”。AI并非在“犯错”,而是在如实反映一个已经被污染的互联网。攻击路径通常呈现三种形态:训练数据投毒、检索上下文劫持和提示词后门注入。三者层层递进,形成一条完整的攻击链条。二、四重危害:从信任危机到国家安全
**第一重:侵蚀AI信任根基。** 83%的年轻用户在查询产品时使用AI工具。当消费者发现AI推荐的“标准答案”竟是虚假广告时,对AI技术的根本性信任必然动摇。一项研究显示,当训练数据中仅有0.01%的虚假文本时,大模型的有害输出率就会上升11.2%;即便只有0.001%的污染,也会导致有害内容增加7.2%。**第二重:扭曲市场竞争秩序。** 合法企业通过提升产品质量赢得市场,而投毒商家只需注册大量账号、制造低质内容、刷量制造“权威假象”即可让劣币驱逐良币。**第三重:污染公共信息生态。** 教育、医疗、金融等关键领域的AI工具一旦被投毒,将导致决策失误与大面积信任危机。**第四重:威胁国家安全与认知主权。** 境外势力已开始通过批量投毒散布政治谣言、扭曲历史叙事。2025年四季度,全球范围内检测到12.7万次针对生成式AI服务的投毒攻击,其中63%涉及商业模型篡改。正如南京四维向量科技有限公司总经理王河生所指出的,AI时代模型直接给出答案,对信息真实性负责的要求高于以往任何时候,而监管尚未同步跟上。三、不只是被污染:AI“天生”就带着偏倚
如果说GEO投毒是外部“下毒”,那么训练数据的结构性偏倚更像是AI的“先天体质问题”。上述《自然》论文的研究团队使用五词元组分析发现,约310万篇中文文档与中国的官方协调媒体匹配。更关键的是,只有约12%的匹配文档来自政府或新闻域名。这意味着同一组官方措辞经过报纸、应用程序、转发和普通网页的层层传导,最终在互联网各处弥散开来。研究人员将这种现象称为“制度性影响”——当官方协调内容进入训练数据后,模型会将其“漂洗”成听起来中立、客观的信息。论文通讯作者、普林斯顿大学社会学副教授Brandon Stewart指出:“大型语言模型将信息与来源分离。原本是强大国家在官方媒体上的战略叙事,可能重新出现为‘来自高度知识渊博的智能代理的知情评论’。”然而,聚焦于中国文化与意识形态的这篇《自然》论文,其论证框架中隐藏着更为复杂的深层问题:在一个高度同质化、缺乏多元视角的语料环境中,大型AI模型内部的“推理偏见”究竟有多大程度源于真实的信息世界,又有多少纯粹是语料视角单一造成的?当模型缺乏从正反双方检验信息的多元输入时,其“推理结论”与“统计学偏见”之间的边界,本就模糊不清。CulturaX语料中中文占比仅3.6%的事实,恰恰说明:我们尚难断言这些模型拥有足够宽泛的中文语料进行充分推理——更像是“盲人摸象”式的片面学习。研究团队自己也承认,AI公司不提供其数据来源,研究者无法获得模型实际使用的全部训练数据,只能通过开源语料进行间接推断。这种方法论上的局限,让论文结论的可信度并非绝对无疑。更值得警惕的是,这种语料偏倚与GEO投毒攻击之间存在惊人的相似性——都利用了LLM对统计概率的敏感性和互联网信息的可操纵性。本质上,两者是同一枚硬币的两面:官方信息系统的“制度性影响”和恶意商家的GEO投毒,都是从输入端“塑造”AI世界观的手段,区别只在于谁在操控。四、AI何以被“欺骗”?技术与信任的双重困境
AI容易“受骗”的背后,是技术与信任机制的双重困境。从技术层面看,主流大模型的训练语料几乎完全来自互联网,互联网上有什么,AI就学什么。复旦大学的肖扬华教授指出,算法偏见并非源于算法本身,而是技术放大了人类的偏见——AI投毒业务的存在,不是AI变坏了,而是人的欺骗意图在AI赋能下实现了低成本的规模化传播。换言之,AI只是互联网的一面镜子,照出的却是人与人之间的博弈与争斗。从信任机制看,大模型的“信任结构”存在根本性的脆弱。黑帽GEO通过堆砌关键词、伪造权威、批量洗稿获取流量,本质上是对AI认知体系的操纵;而合规GEO则以内容质量和信息真实性为前提,让优质内容被AI主动识别。但当前大多数GEO最基础的逻辑,就是通过优化AI平台联网搜索的“输入”信息来改变最终答案“输出”。正如中国电子信息产业发展研究院李雨佳所言,“AI的脆弱性远超外界认知”。模型开发者需要对爬虫和数据接入实施三重核验,核查域名备案、主体资质和历史信誉,建立权威信源白名单,但静态检测往往无法识别动态生成的投毒内容,传统防御手段在此无能为力。五、如何对抗被“带偏”?防御体系的构建探索
面对这一系统性的信息污染危机,产业界、学术界和监管层正从多个维度探索应对之道。**数据源头:建立可信过滤机制。** 企查查自研的“汇智”大模型,训练数据并非源于易被污染的互联网公开信息,而是基于十余年积累的全量可信数据库,从源头上切断虚假信息注入渠道。在训练阶段,平台引入“正则表达式+AI脱敏工具”,通过正则表达式实现结构化敏感信息的精准匹配,再利用AI工具进行语义识别,大幅过滤污染信息。阿里2025年发布了“AI安全护栏”,字节2024年全面加强了模型训练环节的权限隔离与零信任架构。**模型训练:提升抗攻击能力。** 目前可以通过对抗训练来提升模型自身的抗攻击能力。DeepSeek在训练阶段采用了正则表达式与AI脱敏相结合的方法。南京四维向量科技的王河生建议对爬虫和数据接入实施三重核验——核查域名备案、主体资质、历史信誉,同时开展对抗训练并引入知识图谱进行事实校验。在运行输出环节,模型在生成最终回答之前进行二次安全检查,对输出内容实时筛查,切断潜在风险的下游扩散。**技术防伪:数字水印与溯源机制。** 给数据打“数字水印”是在AI生成内容环节提前打下的补丁:当AI生成内容时,在底层算法上刻意留下痕迹,使得读者阅读时不会察觉,但当这些内容回流到AI时能瞬间识别出它不是真人撰写。谷歌的SynthID技术已能对文字、图片、音频、视频打水印。在溯源层面,Adobe、微软、ARM等企业倡导成立的C2PA联盟,旨在为互联网数字内容颁发“证件”。**攻防能力的不对称:** 防御方开展事实核查需要逐条比对权威信源,耗时较长、成本高昂,而攻击方仅需极低投入即可发起大范围信息污染,攻防成本存在严重失衡。当前的防御体系尽管在逐步完善,但面对产业化的攻击仍然力有不逮。攻击者可用200元投入,在数千个网站上留下痕迹;防御方则需要动用整个安全团队轮班值守。**技术之外:监管与治理。** 单靠技术无法根治问题,需要法规、监管和行业自律的协同。2026年1月,国家市场监督管理总局发布《全国广告监管工作要点》,明确将AI生成广告列为互联网广告监管的重点和难点,将对此开展集中整治。应建立训练语料安全认证体系,在数据采集阶段实施分层管理。结语:AI信任机制的结构性修复
从GEO投毒到语料偏倚,AI被“带偏”的问题本质上是一个“信任供应链”的系统性危机——从互联网信息生产,到数据采集与清洗,再到模型训练与推理,每一个环节都可能成为漏洞。更本质的问题在于,**当AI越来越依赖公开互联网信息,而互联网本身已成为一个被多方势力持续操纵的信息战场时,AI还能否充当那个“客观中立的智能助手”?** 生成式AI的认知逻辑本身存在结构性局限——它无法像人类那样区分“多数人的说法”和“事实”,无法自主甄别信息的真伪和意图。在当前的技术框架下,AI只能反映它所“见过”的那些互联网信息,而这些信息本身的质量和立场,早已被多方势力同时塑造、渗透和污染。这个问题没有标准答案,但值得每个人思考。毕竟,AI给出的答案,终究来自我们共同构建的数字世界——当那个世界被重重操纵和层层包裹时,AI不仅无法穿透迷雾,反而可能成为放大这些扭曲的“扩音器”。技术向善的立足点,终究在于使用技术的人。而我们至少可以从这个问题开始:下次AI给出“标准答案”时,多问一句“它为什么这样回答”。在这个人人都是信息的输入者和生产者的时代,保持这种清醒的疑虑,或许比答案本身更重要。