
一家头部电商的客服负责人,去年年底签了一个AI Agent项目,合同金额不小。半年后,被问到效果怎么样。她沉默了三秒,说"还在调优"。
"还在调优"这四个字,现在是行业里心照不宣的暗语。翻译过来就是:花了钱,没跑起来,但还没到承认失败的时候。项目组还在开会,厂商还在出方案,每周的进度报告还在发。只是没有人再主动提起当初签合同时PPT上的那个数字了。
这种沉默比任何批评都说明问题。批评意味着你还在乎这件事,沉默意味着你已经开始在心里为它划上了一个不太光彩的句号。
过去两年,AI Agent替代人工坐席的叙事被讲得极为完整:大模型理解语义,多轮对话替代人工,7×24无间断服务,成本降到原来的十分之一。
这套叙事的来源,几乎全部出自厂商的销售材料、发布会PPT和行业白皮书。真正在一线跑过项目的管理者,大多数到现在还没有公开发声。偶尔有人在私下场合说一句实话,也是在确认对方不会截图转发之后。
这不奇怪。承认买了个半成品,对谁都不体面。向上你汇报过AI转型,向下你拍板过这笔预算。项目没跑起来,不光是钱的问题,是你的判断力被质疑的问题。沉默,是代价最小的选择。
但沉默本身已经是一种信号。当一项技术真正有效,用户是喊不住的。没有人会压着"AI Agent帮我把人力成本砍了40%"这种消息不说。现在大家沉默,说明这件事没有发生在多数人身上。Gartner的数据是超过60%的AI项目从试点到规模化推进失败,这个数字放在AI客服这个细分领域,只会更高,不会更低。
问题出在哪里?
不在于AI本身不行,而在于替代坐席这件事,对AI的要求远比任何厂商在发布会上承认的都要高。
真实的客服场景是这样运作的:客户打进来,说的第一句话往往和他真正的问题不是同一件事。他说"我要退货",真正的问题可能是物流丢件,也可能是被发错货,也可能是他昨天刚和女朋友吵架心情不好随便找个出口。
经验丰富的坐席,在这句话说完之后的两秒里,已经在做大量的推断、确认和情绪校准。她会先确认订单,同时听对方说话的语气是不耐烦还是委屈,决定下一句是先道歉还是先问原因。这个过程没有标准流程,靠的是人对人的感知,是从几百个通话里磨出来的判断。
大模型在语义理解上确实取得了真实进展。它能读懂字面意思,它能在已知知识库里检索答案,它能按模板生成话术。但它不能在对话里读出那层没有被说出来的东西,也不能在客户语气变硬的时候判断下一步该顺还是该扛,更不能在客户沉默两秒之后知道这个沉默是在思考还是在压怒气。大模型处理的是词,坐席处理的是人。这个差距,不是靠多训练几轮就能消除的。
这是第一个前提没有被说清楚。

第二个没有被说清楚的,是知识库。AI Agent能答什么,取决于背后喂了什么。多数公司的知识库是多年积累下来的碎片:有的是坐席手写的FAQ,格式不统一,有些问题的答案已经过期但没人更新;有的是产品手册里复制过来的段落,官方语言和客户真实问法之间隔着十万八千里;有的是某次培训留下的PPT截图,内容模糊,连文字都提取不干净。
这些内容的结构化程度、准确程度和覆盖密度,离AI真正能用相差很远。一项研究显示,企业内部平均只有约3%的数据符合基本质量标准。厂商的演示是在精心清洗过的知识库上跑的,买家接过来的是自己公司那堆几年没动过的文件夹。
两套东西放在一起,演示效果和实测效果之间的落差,就是那四个字"还在调优"的来源。有些项目的调优,本质上是在补一件本来应该在签合同之前就说清楚的事:你的知识库,根本还没准备好接AI。
这不是某一家厂商的问题。整个行业的销售节奏和产品实际成熟度之间,存在一个系统性的错位。厂商需要融资节点、需要标杆客户、需要发布会上的数字;买家需要向上汇报说自己在做AI转型,需要在行业峰会上不落伍。两边在不同的动机下完成了一次签约,双方的KPI在签合同那一刻都完成了——厂商拿到了销售额,买家拿到了转型项目立项。
项目跑起来之后,双方才开始面对真正的问题。这个时候合同已经签了,预算已经打了,退出的代价远大于继续走下去。于是大家继续开会,继续调优。
这不是阴谋,这是结构性的对齐失败。
值得关注的是,这轮叙事崩塌之后,行业里正在形成一种更务实的做法。不是拿AI替换坐席,而是用AI切掉坐席工作里最耗时、最机械的那部分:通话结束后的会话摘要,平均每通要占坐席3到5分钟;工单填写,信息录入出错率高且重复性极强;满意度分析,每月人工抽样几百条,费时费力还有抽样偏差;质检抽样,人工只能覆盖5%到10%的通话,AI全量覆盖是真实的技术优势。这些任务对AI的要求低得多,知识库门槛也低,部署周期以周计而不是以月计。效果是看得见的,不需要"还在调优"。
有趣的是,这些应用场景,在最初的销售材料里往往只出现在末尾的附属功能列表里。主卖点永远是"智能接待替代人工",因为这个故事的数字最大,最能打动签预算的那层人。辅助功能的ROI也许更真实,但放在PPT里不够性感。
功能排列顺序的背后,是两套不同的商业逻辑。卖方排序依据是能不能成交,买方排序依据应该是能不能跑起来。这两件事,在大多数项目里,从一开始就没有对齐过。
夜雨聆风