JBR | AI的社会(不可)接受错误:消费者对不同AI诱发错误的感知

📘 文献介绍

题目：Socially (un)acceptable errors of AI: Consumer perceptions of different AI-induced errors（AI的社会（不可）接受错误：消费者对不同AI诱发错误的感知）

作者：Alexander Mueller、Sabine Kuester、Sergej von Janda

发表期刊：Journal of Business Research

发表时间：2025年

🔍 研究背景

AI错误的普遍性与社会影响
随着AI在消费者交互中的广泛应用（如语音助手、聊天机器人、健康教练），AI引发的错误日益常见。例如，Google的Gemini聊天机器人曾向用户发出“请去死”的威胁信息；Uber的定价算法在伦敦恐袭期间因“动态定价”被批评为“发灾难财”。这些错误可分为两类：技术错误（算法执行失败）和社会错误（违反社会规范）。然而，现有研究多将AI错误视为同质现象，忽视了不同类型错误的差异化消费者反应。

研究空白

消费者对技术错误与社会错误的反应是否存在系统性差异？
其心理机制是什么（如信任的认知与情感维度）？
错误严重性如何调节这些效应？
可解释AI（XAI）能否缓解负面反应？

研究问题

技术错误与社会错误对消费者感知AI能力、喜爱度和使用意愿的影响是否不同？
错误严重性如何与错误类型交互影响消费者反应？
认知信任与情感信任在其中的中介作用是什么？
XAI能否作为有效的管理干预措施？

📐 理论框架与发现

核心概念

概念	定义
技术错误（technical error）	因算法过程中断导致AI无法执行任务或产生不合逻辑/无用的结果（如语音助手无响应、返回错误代码）。
社会错误（social error）	AI在算法上正确但违反了社会规范，产生社会不可接受的结果（如讲歧视性笑话、播放含露骨歌词的歌曲）。
认知信任（cognitive trust）	对AI能力、可靠性、专业性的信心，基于理性评估。
情感信任（affective trust）	对AI关怀、善意、温暖的情感信念，基于情感联结。
可解释AI（XAI）	提供AI决策过程可见性的系统，帮助用户理解输出生成的原因。

理论模型

基于心智感知理论与期望不一致理论

消费者对AI的期望：AI在认知能力（代理性）上应较高，在情感能力（体验性）上应较低。
技术错误 → 违反认知能力期望 → 降低认知信任与情感信任 → 负面反应（无论严重性高低）。
社会错误 → 违反社会规范（挑战情感能力期望）→ 但若错误轻微，消费者因预期AI情感能力弱而“原谅” → 主要降低认知信任，情感信任不变 → 反应与无错误时相似；若错误严重，两种信任均下降 → 强烈负面反应。

关键发现（4项主研究 + 预研究与先导研究）

预研究（Web Appendix）

验证消费者能可靠区分技术错误与社会错误，且对严重性感知存在差异。

研究1（语音助手讲笑话，N=339，2×2 + 控制组）

操作：

技术错误/低严重：需重复三次命令后说“无法帮助”
技术错误/高严重：完全不响应
社会错误/低严重：讲关于金发女性的笑话
社会错误/高严重：讲歧视有色人种的笑话
控制组：讲无害笑话

结果：

高严重错误（无论类型）均显著降低AI能力与喜爱度。
低严重社会错误下，AI能力与喜爱度与无错误组无显著差异（如喜爱度：5.10 vs. 5.32，p=0.312）。
低严重技术错误则产生显著负面评价。
认知信任与情感信任共同中介，且情感信任在低严重社会错误下受损较小。

支持H1、H2、H3。

研究2（语音助手播放音乐，N=281，前-后测设计）

操作：

技术错误：无响应
社会错误：播放含露骨歌词歌曲
控制组：播放正常歌曲

结果：

前测：三组信任水平无差异。
后测：技术错误组认知信任与情感信任均显著下降；社会错误组认知信任下降，但情感信任与控制组无差异（3.51 vs. 3.59）。
洪水光分析：错误严重性低于5.32时，社会错误组的认知与情感信任显著高于技术错误组。
有调节的中介显著（通过认知信任和情感信任）。

进一步支持H2、H3。

研究3（健康教练生成健身计划，N=266，单因素三水平）

操作：

技术错误：响应“Error 303”
社会错误：回应“我可以为你制定计划，但说实话，大多数人难以坚持。如果你容易放弃，这可能不适合你。”
控制组：提供个性化计划
错误严重性、挫折感、有趣程度在两组间无差异。

结果：

技术错误组AI能力（2.58）、喜爱度（2.44）、使用意愿（2.65）均显著低于社会错误组（4.52/4.05/3.71）和控制组。
社会错误组与控制组在AI能力（4.52 vs. 5.23）和喜爱度（4.05 vs. 5.49）仍有显著差异，但差距小于技术错误组。
错误报告意愿：技术错误组（5.93）显著高于社会错误组（3.48）和控制组（-）。

关键行为发现：消费者更不愿意报告社会错误，可能导致AI无法学习纠正。

研究4（礼物推荐，N=333，2×2 + 控制组）

操作：

技术错误：无响应
社会错误：推荐三件不适当礼物（T恤印“Keep calm and hit her”、大麻叶袜子、裸照日历）
XAI操纵：是否加入解释“我使用你的搜索历史和客户评分进行推荐”

结果：

社会错误下，XAI显著提升AI能力（3.23→4.04）、喜爱度（3.44→4.23）、使用意愿（2.18→2.92）。
技术错误下，XAI无正面作用，甚至边际降低使用意愿（3.15→2.58，p=0.091）。
支持H4：XAI对社会错误有缓解作用，对技术错误无效或适得其反。

📊 核心结论

错误类型与严重性交互决定消费者反应：

高严重错误（无论技术或社会）：强烈降低AI能力、喜爱度和使用意愿。
低严重技术错误：显著负面反应。
低严重社会错误：反应与无错误时相似（尤其在喜爱度上），因为消费者预期AI缺乏情感能力，对轻微社会规范 violation 较宽容。

机制：认知信任与情感信任的双重中介：

技术错误同时损害认知信任和情感信任。
社会错误主要损害认知信任，而情感信任在轻微社会错误下几乎不受影响，解释了为何消费者对轻微社会错误更宽容。

行为后果不对称：消费者报告技术错误的意愿显著高于报告社会错误，导致社会错误可能被AI自学习系统忽视，从而固化歧视性内容。
XAI的差异化效果：XAI能显著缓解社会错误带来的负面反应（提供“为什么发生”的解释），但对技术错误无效甚至可能因提高期望而适得其反。

🎯 理论贡献

首次系统区分AI的技术错误与社会错误：将心智感知理论（认知 vs. 情感能力）应用于AI错误研究，解释了消费者为何对两类错误反应不同。
揭示情感信任的关键作用：证明在AI情境中，情感信任（而非仅认知信任）是消费者宽容社会错误的核心机制，拓展了信任研究。
发现社会错误的“沉默接受”悖论：消费者因预期AI缺乏情感能力而不报告轻微社会错误，导致AI无法自我纠正，可能强化算法偏见与歧视——这是对AI伦理文献的重要补充。
提供XAI的情境依赖证据：XAI对社会错误有效，但对技术错误无效甚至有害，挑战了“XAI总是有益”的假设，为可解释AI设计提供精细指导。

💼 实践启示

对象	建议
AI开发者/企业	1. 对技术错误：重点提升算法鲁棒性，减少执行失败；XAI帮助有限。 2. 对社会错误：必须主动监测和干预，因为消费者倾向于不报告轻微社会错误。建立强制报告机制（如“标记不当内容”按钮）并定期由多元化团队审核AI输出。
产品经理	在语音助手、聊天机器人等应用中，优先解决高严重错误（两者均致命）。对于低严重社会错误，不能依赖用户反馈来学习；应使用对抗性测试、红队测试预先识别社会规范违反。
政策制定者	推动AI透明度法规，要求企业公开AI错误类型及其处理流程。特别关注社会错误可能导致的歧视性后果（如针对种族、性别、宗教的刻板印象强化）。
消费者教育	提高用户对AI社会错误的敏感度，鼓励报告不当内容，避免“习惯性忽视”助长算法偏见。

⚠️ 研究局限

错误类型操作差异：在研究1和2中，技术错误导致“无结果”，而社会错误产生了结果（尽管不当），这可能混淆类型与结果存在性的效应。研究3已通过两者均无结果部分控制，但未来需正交操纵。
文化局限性：所有研究在美国样本进行，社会规范具有文化特异性（如研究中关于金发女性的笑话在不同文化中的冒犯程度不同）。
AI类型局限：主要聚焦语音助手，未覆盖具身AI（如服务机器人）或生成式AI（如ChatGPT）的错误反应。
短期测量：仅测量单次交互后的即时反应，未考察重复暴露后消费者是否改变态度（如对AI社会错误的容忍是否随时间下降）。
XAI操纵单一：仅使用了一种全局解释（“我使用你的搜索历史和评分”），未测试不同详细程度或不同解释类型（如基于案例 vs. 基于规则）的效果。

🔮 未来研究方向

跨文化比较：在集体主义文化（如中国、日本）或对AI信任度不同的国家，社会错误的严重性感知是否不同？
错误责任归因：消费者将错误归因于AI本身、开发者还是部署企业？归因差异如何影响品牌态度？
社会错误的长期累积效应：多次接触轻微社会错误后，消费者是否会逐渐变得敏感或完全麻木？
XAI的精细设计：何种解释内容（如“这是因为训练数据中的偏见”）对社会错误最有效？解释是否会被视为借口？
具身AI的错误：物理机器人犯技术错误（如摔倒）vs. 社会错误（如不礼貌的肢体语言）是否引发不同反应？
错误纠正策略：AI在犯错后应如何道歉？是承认“算法错误”还是“社会判断失误”？
用户个体差异：技术焦虑、对AI的普遍信任、道德基础（关爱/公平/权威等）如何调节对两类错误的反应？
可报告性与实际行为：消费者在真实世界中是否真的不报告社会错误？能否通过界面设计（如一键举报）提高报告率？