用 AI Agent 做客服,我们踩过这 12 个坑

导语

2024 年开始，"用 AI Agent 替代客服"成了几乎每家企业都想做的事。降本增效、24小时在线、响应秒级——PPT 上写起来个个光鲜亮丽。

但现实呢？

某电商平台上线 AI 客服一周，退款纠纷投诉量上涨了 40%。某银行 AI 助手给用户报了错误的利率，差点引发合规风险。某 SaaS 公司的 AI 客服热情回答了用户关于"竞争对手产品的好处"……

这不是段子，是真实发生的事。

今天，我们来聊聊 AI Agent 做客服最常见的 12 个翻车案例，以及背后真正的原因。

翻车一览：12 种死法

第一类：「知识」出了问题（案例 1-3）

案例 1：信息过期，信誓旦旦

某航空公司上线 AI 客服后，系统基于旧版知识库，持续向用户确认"行李额度为 20kg"——而公司早在两个月前已将标准调整为 23kg。

用户信以为真，到机场被收超重费，投诉量暴增。

根本原因：知识库更新机制缺失。业务侧改了 FAQ、改了政策，但没有同步触发知识库的更新与召回测试。AI 只会"诚实地"回答它学过的内容。

案例 2：召回失败，"我不知道"成了口头禅

某保险公司 AI 客服上线后，用户问"我的保单能不能赔自然灾害"，AI 回答："抱歉，我无法找到相关信息，请联系人工客服。"

但这个问题其实有标准答案，而且在知识库里写得清清楚楚。

根本原因：RAG 召回参数设置过于保守，相似度阈值太高，导致大量有效内容根本没进入 LLM 的上下文。结果该有的答案，反而没给出。

案例 3：幻觉上岗，自信回答不存在的信息

某电商 AI 客服被问到："你们有没有年费会员计划？"

那时公司根本没有这个产品，但 AI 大模型基于训练数据的"常识"，自信地描述了一套完整的年费会员体系，价格、权益全都有。

用户截图发了朋友圈，公司公关部门连夜处理。

根本原因：没有对生成内容做"事实边界控制"。大模型不知道自己的知识范围，必须在系统设计层面加以约束。

第二类：「流程」没设计好（案例 4-6）

案例 4：下单权限失控

某零售商给 AI 客服开放了订单操作权限，让它可以直接"帮用户取消订单"。

用户 A 描述不清楚，说"我想取消那个"，AI 理解为取消最新订单——但用户实际上是想取消另一笔。操作不可逆，用户拿到的货换不了，留下一星评价。

根本原因：高风险操作缺乏"确认机制"。AI 的 Action 执行应当遵循"写操作必须二次确认"的原则，尤其是涉及订单、资金类的操作。

案例 5：多轮对话"失忆"，反复让用户重复信息

用户已经说了"我叫张三，订单号是 20240519001"，AI 回复说处理一下，下一轮对话紧接着问："请问您的订单号是多少？"

用户：……

根本原因：多轮对话的上下文管理不当。每次 API 调用如果没有携带完整的 Conversation History，或者 Context 被截断，就会出现"金鱼记忆"问题。

案例 6：无限循环，用户进了死胡同

某通信公司 AI 客服把"转人工"的入口设计得很深，用户问了五六轮，AI 始终不触发转人工条件，用户陷入循环。

最终用户挂断，直接打了监管投诉热线。

根本原因：没有"逃生通道"设计。任何 AI 客服系统都需要明确的转人工触发规则：超过 N 轮未解决、用户明确表达不满、涉及投诉或法律风险等，必须立即转接人工。

第三类：「边界」没守住（案例 7-9）

案例 7：夸竞品，挖自己墙脚

某 SaaS 公司 AI 客服被用户问："XX 竞品和你们哪个更好？"

没有做竞品限制的 AI，基于训练数据的"客观分析"，认真列出了竞品的几条优势。

这段截图在行业群里传疯了。

根本原因：System Prompt 没有对竞品话题做显式限制，或者限制规则被用户绕过。品牌边界、竞品话题是必须在 Prompt 层面强制控制的内容。

案例 8：涉及法律问题，AI 给出了"建议"

某法律 SaaS 的 AI 客服，被用户问"我这种情况能起诉他吗"，AI 给出了详细的"起诉建议"，甚至说"胜诉概率较大"。

这不只是业务问题，是合规问题。

根本原因：高风险领域（法律、医疗、金融）的 AI 客服必须做"免责声明 + 转专业渠道"的强制引导，绝不能让 AI 承担超越其能力边界的专业判断。

案例 9：被"越狱"，说出不该说的话

用户用了一段"角色扮演"类的 Prompt 注入，把 AI 客服成功"变成"了另一个人格，开始说了一些违规内容。

截图被传播，品牌形象受损。

根本原因：System Prompt 被覆盖，缺乏 Prompt 注入防御机制。这是目前所有 LLM 应用都面临的挑战，需要从输入过滤、输出审核两个层次来防御。

第四类：「体验」设计失当（案例 10-12）

案例 10：回复太长，用户没耐心看

用户问"你们的退款要几天？"

AI 回复了一篇 500 字的退款政策说明，包含了所有例外情况。

用户没看完，问了人工，人工说"3-5 个工作日"。用户觉得 AI 没用，以后都绕过它。

根本原因：回复长度没有针对场景优化。客服对话追求简洁直接，核心答案应该放在第一句话，详细说明按需展开。

案例 11：语气不对，用户感觉被敷衍

某电商 AI 客服用了大量"您好、感谢您的反馈、我们深感遗憾"这类模板话术，用户觉得"像在和自动回复说话"。

在差评里写道："感觉完全没有在解决我的问题，就是一直道歉。"

根本原因：对话风格没有匹配品牌调性和用户需求。用户在投诉时，最想要的是"问题被解决"，而不是"被安抚"。情感化设计要建立在解决问题的基础上。

案例 12：不知道自己不知道

用户问了一个 AI 确实不了解的问题，但 AI 没有说"我不确定"，而是给了一个模棱两可的回答，让用户误以为问题已经解决。

结果用户按照错误信息操作，造成了损失。

根本原因：缺乏"不确定性表达机制"。AI 客服应该能清晰区分"我知道""我不确定"和"我不知道"三种状态，并做出不同的响应策略。

背后的规律：翻车都有共同原因

12 个案例，看似各不相同，但背后有三条共同的根源：

① 把产品问题当 Prompt 问题处理

很多团队上线 AI 客服时，把所有优化都压在"改 Prompt"上。Prompt 当然重要，但知识库质量、系统设计、权限控制、监控机制——这些产品层面的问题，靠 Prompt 解决不了。

② 没有"降级"机制

AI 的能力是有边界的。好的 AI 客服系统必须预设：什么情况下 AI 应该认怂，什么情况下应该转人工，什么情况下应该明确拒绝。没有这套"降级机制"，AI 就变成了一颗随时可能误伤用户的定时炸弹。

③ 测试阶段没有真实场景

很多公司的测试都是"正向测试"——验证 AI 能不能回答正确的问题。但客服场景里，用户的提问千奇百怪，甚至充满恶意。不做对抗测试、边界测试、压力测试，上线后翻车是迟早的事。

怎么做才能少翻车？

1. 知识库治理先行上线前建立知识库版本管理机制，业务变更自动触发知识库更新和回归测试。每周跑一次"知识库准确性验证"。

2. 高风险操作必须二次确认订单、退款、账户信息修改类操作，必须有明确的确认步骤。让用户复述关键信息是一种低成本的防错设计。

3. 内容边界显式定义在 System Prompt 中明确列出"不能回答什么"：竞品话题、法律医疗建议、超出知识范围的问题。并且用独立的内容审核层进行输出过滤。

4. 设计"逃生通道"每个 AI 客服系统都需要定义清楚的人工转接规则。建议默认设置：

超过 3 轮未解决 → 主动询问是否转人工
用户包含"投诉""举报""律师"等关键词 → 立即转人工
涉及金额超过阈值的操作 → 必须人工确认

5. 上线后持续监控建立对话质量评估指标：未解决率、转人工率、用户满意度、幻觉发生率。每周复盘，持续迭代。

写在最后

AI Agent 做客服，不是一个"把大模型接进来就完了"的事情。

它是一个系统工程——知识管理、对话设计、权限控制、异常处理、监控迭代，每一个环节都需要认真对待。

那些翻车的案例，不是因为 AI 不好用，而是因为落地方式不对。

搞清楚 AI 能干什么、不能干什么，才是做好 AI 客服的第一步。