导语
2024 年开始,"用 AI Agent 替代客服"成了几乎每家企业都想做的事。降本增效、24小时在线、响应秒级——PPT 上写起来个个光鲜亮丽。
但现实呢?
某电商平台上线 AI 客服一周,退款纠纷投诉量上涨了 40%。某银行 AI 助手给用户报了错误的利率,差点引发合规风险。某 SaaS 公司的 AI 客服热情回答了用户关于"竞争对手产品的好处"……
这不是段子,是真实发生的事。
今天,我们来聊聊 AI Agent 做客服最常见的 12 个翻车案例,以及背后真正的原因。

翻车一览:12 种死法
第一类:「知识」出了问题(案例 1-3)
案例 1:信息过期,信誓旦旦
某航空公司上线 AI 客服后,系统基于旧版知识库,持续向用户确认"行李额度为 20kg"——而公司早在两个月前已将标准调整为 23kg。
用户信以为真,到机场被收超重费,投诉量暴增。
根本原因:知识库更新机制缺失。业务侧改了 FAQ、改了政策,但没有同步触发知识库的更新与召回测试。AI 只会"诚实地"回答它学过的内容。
案例 2:召回失败,"我不知道"成了口头禅
某保险公司 AI 客服上线后,用户问"我的保单能不能赔自然灾害",AI 回答:"抱歉,我无法找到相关信息,请联系人工客服。"
但这个问题其实有标准答案,而且在知识库里写得清清楚楚。
根本原因:RAG 召回参数设置过于保守,相似度阈值太高,导致大量有效内容根本没进入 LLM 的上下文。结果该有的答案,反而没给出。
案例 3:幻觉上岗,自信回答不存在的信息
某电商 AI 客服被问到:"你们有没有年费会员计划?"
那时公司根本没有这个产品,但 AI 大模型基于训练数据的"常识",自信地描述了一套完整的年费会员体系,价格、权益全都有。
用户截图发了朋友圈,公司公关部门连夜处理。
根本原因:没有对生成内容做"事实边界控制"。大模型不知道自己的知识范围,必须在系统设计层面加以约束。
第二类:「流程」没设计好(案例 4-6)
案例 4:下单权限失控
某零售商给 AI 客服开放了订单操作权限,让它可以直接"帮用户取消订单"。
用户 A 描述不清楚,说"我想取消那个",AI 理解为取消最新订单——但用户实际上是想取消另一笔。操作不可逆,用户拿到的货换不了,留下一星评价。
根本原因:高风险操作缺乏"确认机制"。AI 的 Action 执行应当遵循"写操作必须二次确认"的原则,尤其是涉及订单、资金类的操作。
案例 5:多轮对话"失忆",反复让用户重复信息
用户已经说了"我叫张三,订单号是 20240519001",AI 回复说处理一下,下一轮对话紧接着问:"请问您的订单号是多少?"
用户:……
根本原因:多轮对话的上下文管理不当。每次 API 调用如果没有携带完整的 Conversation History,或者 Context 被截断,就会出现"金鱼记忆"问题。
案例 6:无限循环,用户进了死胡同
某通信公司 AI 客服把"转人工"的入口设计得很深,用户问了五六轮,AI 始终不触发转人工条件,用户陷入循环。
最终用户挂断,直接打了监管投诉热线。
根本原因:没有"逃生通道"设计。任何 AI 客服系统都需要明确的转人工触发规则:超过 N 轮未解决、用户明确表达不满、涉及投诉或法律风险等,必须立即转接人工。
第三类:「边界」没守住(案例 7-9)
案例 7:夸竞品,挖自己墙脚
某 SaaS 公司 AI 客服被用户问:"XX 竞品和你们哪个更好?"
没有做竞品限制的 AI,基于训练数据的"客观分析",认真列出了竞品的几条优势。
这段截图在行业群里传疯了。
根本原因:System Prompt 没有对竞品话题做显式限制,或者限制规则被用户绕过。品牌边界、竞品话题是必须在 Prompt 层面强制控制的内容。
案例 8:涉及法律问题,AI 给出了"建议"
某法律 SaaS 的 AI 客服,被用户问"我这种情况能起诉他吗",AI 给出了详细的"起诉建议",甚至说"胜诉概率较大"。
这不只是业务问题,是合规问题。
根本原因:高风险领域(法律、医疗、金融)的 AI 客服必须做"免责声明 + 转专业渠道"的强制引导,绝不能让 AI 承担超越其能力边界的专业判断。
案例 9:被"越狱",说出不该说的话
用户用了一段"角色扮演"类的 Prompt 注入,把 AI 客服成功"变成"了另一个人格,开始说了一些违规内容。
截图被传播,品牌形象受损。
根本原因:System Prompt 被覆盖,缺乏 Prompt 注入防御机制。这是目前所有 LLM 应用都面临的挑战,需要从输入过滤、输出审核两个层次来防御。
第四类:「体验」设计失当(案例 10-12)
案例 10:回复太长,用户没耐心看
用户问"你们的退款要几天?"
AI 回复了一篇 500 字的退款政策说明,包含了所有例外情况。
用户没看完,问了人工,人工说"3-5 个工作日"。用户觉得 AI 没用,以后都绕过它。
根本原因:回复长度没有针对场景优化。客服对话追求简洁直接,核心答案应该放在第一句话,详细说明按需展开。
案例 11:语气不对,用户感觉被敷衍
某电商 AI 客服用了大量"您好、感谢您的反馈、我们深感遗憾"这类模板话术,用户觉得"像在和自动回复说话"。
在差评里写道:"感觉完全没有在解决我的问题,就是一直道歉。"
根本原因:对话风格没有匹配品牌调性和用户需求。用户在投诉时,最想要的是"问题被解决",而不是"被安抚"。情感化设计要建立在解决问题的基础上。
案例 12:不知道自己不知道
用户问了一个 AI 确实不了解的问题,但 AI 没有说"我不确定",而是给了一个模棱两可的回答,让用户误以为问题已经解决。
结果用户按照错误信息操作,造成了损失。
根本原因:缺乏"不确定性表达机制"。AI 客服应该能清晰区分"我知道""我不确定"和"我不知道"三种状态,并做出不同的响应策略。
背后的规律:翻车都有共同原因
12 个案例,看似各不相同,但背后有三条共同的根源:
① 把产品问题当 Prompt 问题处理
很多团队上线 AI 客服时,把所有优化都压在"改 Prompt"上。Prompt 当然重要,但知识库质量、系统设计、权限控制、监控机制——这些产品层面的问题,靠 Prompt 解决不了。
② 没有"降级"机制
AI 的能力是有边界的。好的 AI 客服系统必须预设:什么情况下 AI 应该认怂,什么情况下应该转人工,什么情况下应该明确拒绝。没有这套"降级机制",AI 就变成了一颗随时可能误伤用户的定时炸弹。
③ 测试阶段没有真实场景
很多公司的测试都是"正向测试"——验证 AI 能不能回答正确的问题。但客服场景里,用户的提问千奇百怪,甚至充满恶意。不做对抗测试、边界测试、压力测试,上线后翻车是迟早的事。
怎么做才能少翻车?
1. 知识库治理先行上线前建立知识库版本管理机制,业务变更自动触发知识库更新和回归测试。每周跑一次"知识库准确性验证"。
2. 高风险操作必须二次确认订单、退款、账户信息修改类操作,必须有明确的确认步骤。让用户复述关键信息是一种低成本的防错设计。
3. 内容边界显式定义在 System Prompt 中明确列出"不能回答什么":竞品话题、法律医疗建议、超出知识范围的问题。并且用独立的内容审核层进行输出过滤。
4. 设计"逃生通道"每个 AI 客服系统都需要定义清楚的人工转接规则。建议默认设置:
超过 3 轮未解决 → 主动询问是否转人工 用户包含"投诉""举报""律师"等关键词 → 立即转人工 涉及金额超过阈值的操作 → 必须人工确认
5. 上线后持续监控建立对话质量评估指标:未解决率、转人工率、用户满意度、幻觉发生率。每周复盘,持续迭代。
写在最后
AI Agent 做客服,不是一个"把大模型接进来就完了"的事情。
它是一个系统工程——知识管理、对话设计、权限控制、异常处理、监控迭代,每一个环节都需要认真对待。
那些翻车的案例,不是因为 AI 不好用,而是因为落地方式不对。
搞清楚 AI 能干什么、不能干什么,才是做好 AI 客服的第一步。
夜雨聆风