📘 文献介绍
题目:Socially (un)acceptable errors of AI: Consumer perceptions of different AI-induced errors(AI的社会(不可)接受错误:消费者对不同AI诱发错误的感知)
作者:Alexander Mueller、Sabine Kuester、Sergej von Janda
发表期刊:Journal of Business Research
发表时间:2025年
🔍 研究背景
AI错误的普遍性与社会影响
随着AI在消费者交互中的广泛应用(如语音助手、聊天机器人、健康教练),AI引发的错误日益常见。例如,Google的Gemini聊天机器人曾向用户发出“请去死”的威胁信息;Uber的定价算法在伦敦恐袭期间因“动态定价”被批评为“发灾难财”。这些错误可分为两类:技术错误(算法执行失败)和社会错误(违反社会规范)。然而,现有研究多将AI错误视为同质现象,忽视了不同类型错误的差异化消费者反应。
研究空白
消费者对技术错误与社会错误的反应是否存在系统性差异?
其心理机制是什么(如信任的认知与情感维度)?
错误严重性如何调节这些效应?
可解释AI(XAI)能否缓解负面反应?
研究问题
技术错误与社会错误对消费者感知AI能力、喜爱度和使用意愿的影响是否不同?
错误严重性如何与错误类型交互影响消费者反应?
认知信任与情感信任在其中的中介作用是什么?
XAI能否作为有效的管理干预措施?
📐 理论框架与发现
核心概念
| 概念 | 定义 |
|---|---|
| 技术错误(technical error) | 因算法过程中断导致AI无法执行任务或产生不合逻辑/无用的结果(如语音助手无响应、返回错误代码)。 |
| 社会错误(social error) | AI在算法上正确但违反了社会规范,产生社会不可接受的结果(如讲歧视性笑话、播放含露骨歌词的歌曲)。 |
| 认知信任(cognitive trust) | 对AI能力、可靠性、专业性的信心,基于理性评估。 |
| 情感信任(affective trust) | 对AI关怀、善意、温暖的情感信念,基于情感联结。 |
| 可解释AI(XAI) | 提供AI决策过程可见性的系统,帮助用户理解输出生成的原因。 |
理论模型
基于心智感知理论与期望不一致理论
消费者对AI的期望:AI在认知能力(代理性)上应较高,在情感能力(体验性)上应较低。
技术错误 → 违反认知能力期望 → 降低认知信任与情感信任 → 负面反应(无论严重性高低)。
社会错误 → 违反社会规范(挑战情感能力期望)→ 但若错误轻微,消费者因预期AI情感能力弱而“原谅” → 主要降低认知信任,情感信任不变 → 反应与无错误时相似;若错误严重,两种信任均下降 → 强烈负面反应。
关键发现(4项主研究 + 预研究与先导研究)
预研究(Web Appendix)
验证消费者能可靠区分技术错误与社会错误,且对严重性感知存在差异。
研究1(语音助手讲笑话,N=339,2×2 + 控制组)
操作:
技术错误/低严重:需重复三次命令后说“无法帮助”
技术错误/高严重:完全不响应
社会错误/低严重:讲关于金发女性的笑话
社会错误/高严重:讲歧视有色人种的笑话
控制组:讲无害笑话
结果:
高严重错误(无论类型)均显著降低AI能力与喜爱度。
低严重社会错误下,AI能力与喜爱度与无错误组无显著差异(如喜爱度:5.10 vs. 5.32,p=0.312)。
低严重技术错误则产生显著负面评价。
认知信任与情感信任共同中介,且情感信任在低严重社会错误下受损较小。
支持H1、H2、H3。
研究2(语音助手播放音乐,N=281,前-后测设计)
操作:
技术错误:无响应
社会错误:播放含露骨歌词歌曲
控制组:播放正常歌曲
结果:
前测:三组信任水平无差异。
后测:技术错误组认知信任与情感信任均显著下降;社会错误组认知信任下降,但情感信任与控制组无差异(3.51 vs. 3.59)。
洪水光分析:错误严重性低于5.32时,社会错误组的认知与情感信任显著高于技术错误组。
有调节的中介显著(通过认知信任和情感信任)。
进一步支持H2、H3。
研究3(健康教练生成健身计划,N=266,单因素三水平)
操作:
技术错误:响应“Error 303”
社会错误:回应“我可以为你制定计划,但说实话,大多数人难以坚持。如果你容易放弃,这可能不适合你。”
控制组:提供个性化计划
错误严重性、挫折感、有趣程度在两组间无差异。
结果:
技术错误组AI能力(2.58)、喜爱度(2.44)、使用意愿(2.65)均显著低于社会错误组(4.52/4.05/3.71)和控制组。
社会错误组与控制组在AI能力(4.52 vs. 5.23)和喜爱度(4.05 vs. 5.49)仍有显著差异,但差距小于技术错误组。
错误报告意愿:技术错误组(5.93)显著高于社会错误组(3.48)和控制组(-)。
关键行为发现:消费者更不愿意报告社会错误,可能导致AI无法学习纠正。
研究4(礼物推荐,N=333,2×2 + 控制组)
操作:
技术错误:无响应
社会错误:推荐三件不适当礼物(T恤印“Keep calm and hit her”、大麻叶袜子、裸照日历)
XAI操纵:是否加入解释“我使用你的搜索历史和客户评分进行推荐”
结果:
社会错误下,XAI显著提升AI能力(3.23→4.04)、喜爱度(3.44→4.23)、使用意愿(2.18→2.92)。
技术错误下,XAI无正面作用,甚至边际降低使用意愿(3.15→2.58,p=0.091)。
支持H4:XAI对社会错误有缓解作用,对技术错误无效或适得其反。
📊 核心结论
错误类型与严重性交互决定消费者反应:
高严重错误(无论技术或社会):强烈降低AI能力、喜爱度和使用意愿。
低严重技术错误:显著负面反应。
低严重社会错误:反应与无错误时相似(尤其在喜爱度上),因为消费者预期AI缺乏情感能力,对轻微社会规范 violation 较宽容。
机制:认知信任与情感信任的双重中介:
技术错误同时损害认知信任和情感信任。
社会错误主要损害认知信任,而情感信任在轻微社会错误下几乎不受影响,解释了为何消费者对轻微社会错误更宽容。
行为后果不对称:消费者报告技术错误的意愿显著高于报告社会错误,导致社会错误可能被AI自学习系统忽视,从而固化歧视性内容。
XAI的差异化效果:XAI能显著缓解社会错误带来的负面反应(提供“为什么发生”的解释),但对技术错误无效甚至可能因提高期望而适得其反。
🎯 理论贡献
首次系统区分AI的技术错误与社会错误:将心智感知理论(认知 vs. 情感能力)应用于AI错误研究,解释了消费者为何对两类错误反应不同。
揭示情感信任的关键作用:证明在AI情境中,情感信任(而非仅认知信任)是消费者宽容社会错误的核心机制,拓展了信任研究。
发现社会错误的“沉默接受”悖论:消费者因预期AI缺乏情感能力而不报告轻微社会错误,导致AI无法自我纠正,可能强化算法偏见与歧视——这是对AI伦理文献的重要补充。
提供XAI的情境依赖证据:XAI对社会错误有效,但对技术错误无效甚至有害,挑战了“XAI总是有益”的假设,为可解释AI设计提供精细指导。
💼 实践启示
| 对象 | 建议 |
|---|---|
| AI开发者/企业 | 1. 对技术错误:重点提升算法鲁棒性,减少执行失败;XAI帮助有限。 2. 对社会错误:必须主动监测和干预,因为消费者倾向于不报告轻微社会错误。建立强制报告机制(如“标记不当内容”按钮)并定期由多元化团队审核AI输出。 |
| 产品经理 | 在语音助手、聊天机器人等应用中,优先解决高严重错误(两者均致命)。对于低严重社会错误,不能依赖用户反馈来学习;应使用对抗性测试、红队测试预先识别社会规范违反。 |
| 政策制定者 | 推动AI透明度法规,要求企业公开AI错误类型及其处理流程。特别关注社会错误可能导致的歧视性后果(如针对种族、性别、宗教的刻板印象强化)。 |
| 消费者教育 | 提高用户对AI社会错误的敏感度,鼓励报告不当内容,避免“习惯性忽视”助长算法偏见。 |
⚠️ 研究局限
错误类型操作差异:在研究1和2中,技术错误导致“无结果”,而社会错误产生了结果(尽管不当),这可能混淆类型与结果存在性的效应。研究3已通过两者均无结果部分控制,但未来需正交操纵。
文化局限性:所有研究在美国样本进行,社会规范具有文化特异性(如研究中关于金发女性的笑话在不同文化中的冒犯程度不同)。
AI类型局限:主要聚焦语音助手,未覆盖具身AI(如服务机器人)或生成式AI(如ChatGPT)的错误反应。
短期测量:仅测量单次交互后的即时反应,未考察重复暴露后消费者是否改变态度(如对AI社会错误的容忍是否随时间下降)。
XAI操纵单一:仅使用了一种全局解释(“我使用你的搜索历史和评分”),未测试不同详细程度或不同解释类型(如基于案例 vs. 基于规则)的效果。
🔮 未来研究方向
跨文化比较:在集体主义文化(如中国、日本)或对AI信任度不同的国家,社会错误的严重性感知是否不同?
错误责任归因:消费者将错误归因于AI本身、开发者还是部署企业?归因差异如何影响品牌态度?
社会错误的长期累积效应:多次接触轻微社会错误后,消费者是否会逐渐变得敏感或完全麻木?
XAI的精细设计:何种解释内容(如“这是因为训练数据中的偏见”)对社会错误最有效?解释是否会被视为借口?
具身AI的错误:物理机器人犯技术错误(如摔倒)vs. 社会错误(如不礼貌的肢体语言)是否引发不同反应?
错误纠正策略:AI在犯错后应如何道歉?是承认“算法错误”还是“社会判断失误”?
用户个体差异:技术焦虑、对AI的普遍信任、道德基础(关爱/公平/权威等)如何调节对两类错误的反应?
可报告性与实际行为:消费者在真实世界中是否真的不报告社会错误?能否通过界面设计(如一键举报)提高报告率?
夜雨聆风