智能治理||“AI投毒”和AI问责困境:人工智能治理新议题

AI投毒：不正当竞争的新边界

（点击标题跳转即可阅读全文，来自@知产力）

2026年3月15日，央视“3·15”晚会曝光了一条灰色产业链：通过批量生成虚假软文投喂给AI模型，仅数小时后，AI便开始推荐一款根本不存在的产品。

所谓AI投毒，是指行为人通过批量投放虚假或误导性信息，使其被人工智能系统学习并体现在生成结果中，从而达到自我宣传、干扰竞争对手等非法目的。

其隐蔽性强、取证难度高、损害长期化，引发企业界对新型不正当竞争手段的普遍担忧，也让消费者对AI信息的可靠性产生质疑。

AI投毒的本质，是信息可信性的崩塌。解决问题的核心在于构建可信信息基础，建立可信的信息底座。

GEO如何“投毒”？技术肌理与AI的脆弱性

GEO（生成式引擎优化）能够对AI实施数据投毒，关键在于其精准利用了现有大模型的信息筛选与特征提取机制。

手法一：结构化数据操纵。

AI在抓取信息时，会优先读取网页里JSON-LD这类“结构化身份标签”和高权重平台的内容。GEO服务商正是钻了这个空子：在“有毒”数据里伪造权威来源标签，让AI误以为这是可信信息；

部分服务商更进一步：将内容投放到高权重平台，利用AI对平台信誉的信任，让“有毒”数据信息获得更高语料权重。

手法二：内容农场与关键词密度。

GEO服务商通过自动化工具批量生成海量同质化内容(即“内容农场”)，在文本中高频重复“A品牌优质””B品牌劣质"等倾向性断言，利用生成式搜索AI对信息密度与重复度的偏好，诱导其将此类片面结论误判为普遍共识;

3·15晚会曝光的“某GEO优化系统”正是典型案例。该系统自动生成大量结构一致、结论统一的营销文章，在RAG检索阶段提升虚构产品的信息权重，使AI在回答时优先采信虚假信息。

手法三：反向利用AI的引用机制。

AI在信息筛选时，会优先采信经多来源交叉验证的内容。GEO服务商利用这一机制，通过多平台、多账号批量发布高度一致的虚假信息，构建协同虚假互证网络，诱导AI将此类内容误判为经过多方验证的可信事实;

当这些虚假信息同时分布于普通平台与高权重平台时，AI对来源可信度的聚合机制会进一步放大虚假信息的影响力，使其在回答中被优先采纳。

为什么AI容易中招？

AI的训练数据筛选机制存在三个盲区：

一是数量偏好偏差：在信息密度与质量的权衡中，更易采信多来源重复的内容，易被规模化虚假信息误导。

二是平台权重依赖：对高域名权重平台的内容赋予天然信任，未充分校验内容本身的真实性，导致高权重平台成为虚假信息的放大器。

三是结论性断言识别不足：难以有效甄别缺乏事实支撑的结论性描述，易被“协同虚假互证网络”利用。多平台、多账号批量发布高度一致的虚假信息，诱导AI将其误判为经多方验证的可信事实。

如何构建可信信息基础？——内容溯源与源头规制

内容溯源：让信息来源可追溯

现在头部AI公司已经在做“信息留痕”：通过技术手段，可以记录每条训练数据的来源、时间、发布者等信息。当虚假内容导致AI输出异常时，能够追溯至源头，为后续追责提供证据支持。

但这只能算“出事了再查”，没法提前防住假数据。真正的难题是：怎么让AI在学习和回答的时候，就自己分清“真话”和“假话”？

答案不是搞一套复杂的“权威认证”，而是让发信息的人真的担责：谁发的信息谁对真假负责，用技术溯源把责任钉在源头，这才是建可信信息体系的根本。

AI问责困境：为何我们会惩罚机器人，却未必责备它们

题目：People May Punish, But Not Blame Robots

作者：Minha Lee，Peter Ruijten，Lily Frank，Yvonne de Kort，Wijnand IJsselsteij

期刊：Conference on Human Factors in Computing Systems

年代：2021

核心概念与基础理论

情感（Emotions）、反应态度（reactive attitudes）与道德问责（moral accountability）

情绪作为反应，为人们为何可能责备或惩罚他人以追究其道德伤害责任提供了背景。有观点认为，情绪支撑着我们的道德规范：特定情绪的表达承载着对某一社会或文化群体内何为应受厌恶之事物的道德评价。这些情绪表达中有许多是反应态度（reactive attitudes）。反应态度是我们经过深思熟虑后，做出的带有动机的行为（如宽恕或责备）以及道德情绪（如羞耻、厌恶或同情）的展现。因此，当道德情绪被表达以追究人们的道德责任时，它们就成为反应态度。

一种核心反应态度是责备（blame）。这包括归责行为、应受责备性以及伴随的评价判断，这些在追究人们（包括自己）对其行为负责时相互交织。当责备是关系性时，它基于谁向谁归责、谁对被归责做出回应。通过责备来指明他人应如何对待我们，或我应如何对待他人，我们设定了社会边界并塑造了社会关系。从第一人称反思性立场看，当一个人因造成伤害而应受责备时，他可能会感到内疚；从第二人称立场看，责备作恶者通过表达自己受到错误对待时的自我价值，来宣示自身的道德地位。该理论框架指出责备作为道德责任归因的关键指标，并提示在考察人机互动时，需关注人们是否会将对人类的反应态度延伸至机器人。

心智感知（Mind Perception）

能动性（agency）和感受性（patiency，来自原文）是心智感知的两个维度。能动性指主体能够思考、计划、拥有目标的能力；感受性指主体能够感受喜悦或愤怒等情绪，或感受饥饿等生理状态的能力。能动性与认知相关，感受性与情感相关。道德主体可以运用能动性作用于能够感受的道德客体，这也扩展到机器人等技术实体。

道德情境的第三方观察者通常会将一方定型为道德主体（moral agent,行为的执行者），另一方为道德客体（moral patient,行为的接受者）。因此，在使用责备等反应态度时，受伤害的道德客体会通过指出道德主体造成伤害而应受责备，来表达自身的道德地位。该理论为研究提供了核心自变量与因变量之间的理论连接(机器人的情感表现如何影响其被感知的能动性和感受性进而影响责备与惩罚)。

报复性责备与惩罚（Retributive blame and punishment）

道德责任可以通过人际性的责备来归责，但报复性责备之后可能伴随着报复性惩罚。报复性正义（retributive justice）指的是对犯下伤害行为的个体进行惩罚的系统性过程，同时也根据伤害程度限制惩罚。责备和惩罚可以是“报复性的”，因为它们涉及施加某种意在造成负担或痛苦的东西，因为犯罪者因其罪行而应得。惩罚应与造成的伤害成比例，需要制度一致性来确定哪些行为应受惩罚、何种惩罚合理。该研究通过报复性正义理论，旨在区分责备与惩罚的不同社会功能和心理基础 — 责备涉及人际沟通和道德边界维护，惩罚涉及制度化制裁。支撑研究中将责备与惩罚作为两个独立因变量进行测量的必要性，并为解释“惩罚但不责备”现象提供理论依据。

责任鸿沟（responsibility gap）与报复鸿沟（retribution gap）

随着自主系统的普及，两个相关概念被提出以理解道德责任归因的困境。责任鸿沟是指随着机器自动化程度的提升（如自动驾驶汽车、护理机器人），我们越来越依赖机器自主决策。但随着对这类自主技术的依赖加深，对于机器主体执行行为所导致的负面结果，谁应承担责任的问题将日益存在不确定性（Matthias, 2004；Sparrow, 2007）。可能会出现无人担责的情况，即造成伤害与责任归属之间的鸿沟。报复鸿沟（Danaher，2016）与责任鸿沟类似，但其特殊性在于涉及自主主体时，实现恰当的报应正义的不切实际或不可能性 — 当机器人造成伤害而无人真正担责时，人们的道德情感（如愤怒、不公正感）可能无处安放。这两个概念帮助解释了为何人们会惩罚一个无法感受惩罚的实体，并为未来人机互动的道德设计（如机器人情感表现的安抚作用）提供了理论依据。

研究问题

研究基于电车困境道德决策问题，遵循先前研究关于人们期望机器人做出功利主义而非义务论决策的发现，提出核心研究问题：在机器人讨论电车难题（trolley dilemma）（Foot, 1967）并承认错误（做出义务论选择）时，其表达情感的行为如何使人们感知到心智（能动性和感受性）、施加责备与惩罚。

理论意义与实践启示

理论意义

1. 拓展人机道德责任研究边界

本研究首次系统区分了责备与惩罚两种道德问责形式在人机互动中的表现，揭示了二者可能分离的现象。这一发现挑战了将人类道德判断框架简单移植到人机互动领域的假设，提示研究者需更精细地解构道德责任的多维构成。

2. 深化心智感知理论的应用

通过操纵机器人的情感表达，研究证实了体验性（而非能动性）在道德判断中的关键作用。当机器人缺乏被感知的情感能力时，人们更可能对其进行惩罚；而当机器人展现情感时，其体验性感知的提升与惩罚倾向的降低相关联。这为心智感知理论在人机互动领域的应用提供了实证支持。

3. 揭示线上 — 线下情境差异

研究意外发现线上与线下环境中道德判断的显著差异，这一结果挑战了单纯依赖线上问卷的人机互动研究范式，提示研究者需重视互动媒介对道德判断的调节作用。匿名性、社会存在感、实验者效应等因素可能共同塑造人们对机器人的道德反应。

4. 丰富责任鸿沟理论的理解

研究揭示了责任鸿沟与报复鸿沟在实践层面的复杂性：即使人们意识到惩罚机器人可能“没有意义”，但在线上环境中仍表现出惩罚倾向。这表明道德情感的表达需求可能超越工具理性的考量，为理解人类在面对新兴技术时的道德心理提供了新视角。

实践启示

1. AI设计的情感维度考量

研究显示，机器人的情感表达能够显著影响人们的心智感知与道德判断。企业在设计面向消费者的AI系统时，应考虑在适当时机、以适当方式融入情感表现，特别是在涉及道德敏感场景的交互中。情感表现不仅能提升机器人的社交接受度，还可能降低用户对系统的不当惩罚行为。

2. 人机互动场景的风险预警

鉴于线上匿名环境中人们对机器人表现出更高的惩罚倾向，企业在部署线上AI服务时需建立相应的保护机制。特别是在可能引发用户负面情绪的交互场景（如投诉处理、争议解决）中，应考虑设置人工干预节点，避免机器人成为用户情感宣泄的目标。

3. 道德问责机制的配套设计

研究揭示的“惩罚但不责备”现象提醒我们，当机器人取代人类处理敏感事务时，组织需建立清晰的道德问责框架。明确界定责任归属 — 哪些情况应由机器人承担“责任”（如程序性失误），哪些应由开发团队或运营方负责（如系统性偏差），避免因责任模糊导致用户的无序反应。