我在企业做 AI Agent 后发现:90% 的公司卡住的不是模型
过去一年多,我见过很多企业 AI Agent 项目。
它们不是死在模型能力上,而是死在三个更现实的问题上:
账算不清。
老板不够狠。
数据闭环没有人负责。
最典型的例子,就是客服。
如果你是企业里的技术负责人、AI 项目负责人、数字化负责人,正在被老板问“我们什么时候能把 AI Agent 用起来”,这篇文章可能比模型选型更重要。
因为企业做 AI Agent,真正难的往往不是“模型够不够聪明”。
真正难的是:
你能不能找到一个账算得清楚的场景,有没有足够的组织决心把它推下去,以及能不能建立一个持续进化的数据闭环。
这三件事不解决,再强的模型也只是一个更贵的聊天机器人。
一、看起来最安全的 Copilot,可能是最难证明价值的坑
GPT-4 刚出来的时候,公司里很多人都很兴奋。
那种感觉很像突然打开了一扇门:大模型好像什么都能干。写文案、查知识、做客服、辅助销售、分析数据、生成代码,几乎每个业务部门都能想到一些场景。
但真正开始找业务场景时,问题很快暴露出来。
不是做不出来。
如果只是做一个 demo,技术团队总能想办法做出来。哪怕在 GPT-4 刚发布的时候,只要团队有足够经验,也能做出一些看起来很惊艳的东西。
真正的问题是:ROI 算不清楚。
大家聊得很兴奋,但场景很零碎,投入不小,最后很难回答一个朴素的问题:
这件事到底给公司创造了多少价值?
很多企业第一个想到的 AI 场景,通常都是客服、销售、知识库、运营这些岗位。
原因很简单。
这些岗位有大量文本,有标准流程,有重复问题,看起来天然适合大模型。
以客服为例,里面其实有两条路线:
第一条,是给客服坐席做 Copilot。AI 辅助人工,给坐席推荐答案、总结工单、提示下一步操作。
第二条,是直接做面向客户的智能客服。AI 直接和客户对话,解决问题,必要时再转人工。
直觉上,很多人会觉得第一条更安全。
先辅助人嘛,不直接对客,有人兜底,风险低。等 Copilot 做成熟了,再慢慢走向直接对客。
我们一开始也是这么想的。
但后来发现,这条路可能是歪的。
因为 Copilot 的价值链路太长了。
AI 给了建议,坐席有没有看?
坐席看了,有没有采纳?
采纳之后,效率有没有提升?
效率提升之后,能不能转化成成本下降?
坐席说不好用,到底是 AI 不好,知识库不好,流程不好,还是人不想改变?
最后项目很容易变成一个“抛锅利器”。
坐席可以说 AI 不好用。
业务可以说坐席不采纳。
技术可以说知识库不完整。
不同坐席的反馈还可能互相冲突。
团队一直在优化,但很难证明它到底创造了多少业务价值。
这类项目做着做着,就会看不到头。
所以企业选 AI 场景,第一个问题不是:
这里能不能用 AI?
而是:
这里能不能把 AI 的价值算出来?
能算清楚,才值得投入。
算不清楚,再炫的 demo 也只是 demo。
二、传统智能客服已经很好了,大模型还有空间吗?
后来我们下定决心,做更难的一条路:大模型智能客服,直接对客。
这条路当然也很难。
第一个问题马上就来了:
我们不是已经有智能客服了吗?
很多企业其实早就有传统智能客服。并且这些系统发展了很多年,有的号称已经承接了 80%、90% 的流量。
那大模型智能客服还有什么空间?
我当时也被这个问题困住过。
后来我想明白了一个更朴素的问题:
如果传统智能客服真的已经足够好,为什么今天很多公司还需要成百上千个坐席客服?
这些客服并不都是专家。很多人学历不高,也不是业务专家,但企业仍然要花钱招他们、培训他们、管理他们。
这说明剩下那部分问题,传统智能客服并没有真正吃掉。
所谓“承接 90% 流量”,要谨慎看。
它可能只是承接了入口流量,不代表真正解决了 90% 的客户问题。客户可能换个入口重复进线,可能最后还是转人工,甚至可能直接去投诉。
大模型客服真正的机会,不是替代传统机器人已经能解决的简单 FAQ。
真正的机会是:
替代一部分低水平、不稳定、高流动的人工处理。
人当然比传统 AI 强。哪怕是新人,也是人。
但一线客服体系里有一个很现实的问题:很多坐席知识储备不足。尤其在知识密集型业务里,即使培训几周,上岗后仍然会遇到大量回答不好的问题。
还有情绪稳定性。
客户着急,坐席也委屈,沟通很容易升级成争吵。一旦伤害品牌形象,损失远不止一通电话的成本。
更麻烦的是流动性。
企业花一个月培训新人,干几个月又走,再招、再训、再犯错,长期进入恶性循环。
如果大模型客服能稳定替代一部分“水平线以下”的人工处理,就会产生巨大的经济价值。
这笔账,反而比 Copilot 更容易算。
三、传统 AI 客服的天花板,是它不理解对话
传统 AI 客服不是没有价值。
它解决了大量简单、标准、单轮的问题。
但它的核心能力,本质上是单轮意图识别。
用户说一句话,系统判断他属于哪个意图,然后进入预设流程。
问题是,真实客户不是这样说话的。
真实客户会补充、反悔、跳转、夹杂情绪,也会把多个问题揉在一起问。
比如一个保险客户问:
我上个月刚做完手术,现在医生让我复查,这个能报吗?
传统机器人可能会把它识别成“理赔范围咨询”,然后进入一个决策树:
是否已投保?
是否过等待期?
是否住院?
是否有发票?
是否属于保障责任?
但真实对话里,客户下一句可能是:
不是报手术,是复查的检查费。
再下一句又说:
而且我这个病之前就有,买保险的时候也告知过。
再往后可能变成:
那我是不是要先自费?材料怎么交?会不会影响后面理赔?
这不是一个单轮意图。
它需要持续理解上下文,补充关键信息,判断边界,在不确定时转人工。
传统系统要做多轮,只能提前设计分叉规则。
问题是,分叉一多,决策树会膨胀到无法维护。有些看起来很成熟的决策树,一打开,一个屏幕根本装不下。
这就是传统 AI 的智能天花板。
大模型第一次带来的变化,是它可以理解多轮对话。它不是只识别一句话,而是能把客户前后几轮表达放在一起看,持续补全意图和约束。
这件事在客服场景里非常关键。
因为客户不是在填表。
客户是在对话。
四、能上线的 Agent,不是最会回答,而是最会闭嘴
但大模型客服能不能上线,关键不在于它能不能回答。
关键在于:它有没有兜底机制。
很多人会把 AI 和人放在同一把尺子上比较:
人也会犯错,AI 也会犯错,那为什么 AI 不能上线?
企业里不是这么算的。
人犯错,很多时候会被理解为个体行为。坐席态度不好、知识掌握不牢,可以通过质检、培训、处罚去管理。
但 AI 犯错,很容易被客户理解为公司行为。
尤其是保险这种场景,如果 AI 一本正经告诉客户“这个可以理赔”,结果实际不能理赔,这就不是普通回答错误,而是公司对客户的承诺风险。
所以对人的错误率,企业也许可以容忍 1%。
但对大模型,可能要压到万分之一量级。
不是因为 AI 必须完美,而是因为它代表的是公司系统。
这也解释了为什么大模型客服真正难的不是“会说话”,而是:
知道什么时候不能说。
能上线的 Agent,不是最会回答的 Agent,而是最会闭嘴的 Agent。
五、真正的工程能力,是把错误率压到极低
技术上,行业里常见做法大家都知道:
知识召回。
Prompt 限制。
答案边界控制。
敏感问题转人工。
这些都重要。
但这些只能把系统从“裸奔”拉到“基本可控”,还不够支撑企业上线。
真正要把错误率压到极低,我认为有两个动作非常重要。
第一,上线前必须有足够多的 case 反复跑。
不是拿几个理想问题试一下,而是要把真实业务里高频、低频、边界、歧义、容易投诉的问题都拿出来跑。
看它在哪些问题上会过度承诺。
哪些地方会瞎编。
哪些地方应该转人工却没有转。
哪些地方回答看起来流畅,但业务上是错的。
第二,要有一个相对干净上下文的 Prompt 做质检。
很多人第一反应是:是不是要换一个更强的模型来审核?
我的经验是,未必。
更重要的是上下文足够干净。
大模型非常容易被前面的对话和角色设定影响。如果一个模型已经在前面几轮里进入了“我要尽量帮客户解决问题”的状态,它后面就更容易沿着这个方向继续解释、补充、合理化。
质检 Prompt 要做的,不是继续服务客户。
它要冷静判断:
这个回答有没有依据?
有没有越权承诺?
有没有把不确定说成确定?
有没有在应该转人工的时候继续回答?
有没有触碰业务和合规边界?
很多时候,上下文对模型的影响远远大于模型本身。
这也是企业 AI Agent 和普通 demo 最大的区别。
demo 只要看起来聪明。
生产系统必须长期可靠。
六、企业 AI Agent 落地,本质是一场小型组织变革
如果一个企业技术负责人问我,第一个 AI Agent 场景应该怎么选,我会先看三件事。
第一,ROI 能不能算清楚
这里说的 ROI,不只是“这个场景价值大不大”。
同一个业务方向,选 Copilot 还是选直接对客,都会影响 ROI 能不能算清楚。
Copilot 可能看起来安全,但它的价值链路很长。
直接对客风险更高,但如果能承接多少问题、减少多少人工、降低多少转人工率,这些账反而更容易算。
所以场景选择不是先问“哪里能用 AI”,而是先问:
哪里能把 AI 的价值算出来?
第二,组织有没有信心和决心
很多人做 AI 落地,心态是“试试看”“观望一下”。
但 AI Agent 真正进入业务流程后,一定会遇到阻力。
业务流程要改。
质检规则要改。
人员分工要改。
风险责任要重新划分。
原来的一些岗位价值会被重新评估。
这不是一个工具上线。
这是一场小型变革。
如果组织没有足够的上层压力和明确决心,项目很容易在第一个阻力点就停下来:
效果不稳定,算了。
业务不配合,算了。
合规有顾虑,算了。
一线反馈不好,算了。
但问题是,等外部压力传导到企业内部时,往往说明你已经落后了。那个时候再追赶,难度会大很多。
第三,数据闭环要清楚
在我看来,数据闭环是牛鼻子。
牵住它,很多问题才有解。
风险控制靠什么?
不是靠上线前拍脑袋说“应该没问题”,而是靠持续收集真实 case,知道系统在哪些问题上答错、哪些问题应该转人工、哪些知识已经过期。
效果提升靠什么?
也不是靠换一个更贵的模型,而是靠持续看用户到底怎么问、模型怎么答、人工怎么接、客户最后有没有解决。
市场环境会变。
客户问题会变。
企业产品和流程也会变。
一个不能持续优化的 AI 系统,很快就会腐化。
所以我判断一个 AI Agent 场景能不能做,不只看它今天能不能跑通,而是看它有没有数据回流,有没有评估机制,有没有人持续运营。
七、企业 AI Agent 立项前,先过这张自查表
过去一年多,我越来越觉得,企业做 AI Agent,最容易犯的错误是把问题想窄了。
大家喜欢讨论模型选哪家、Prompt 怎么写、RAG 怎么搭、Agent 框架用什么。
这些当然重要。
但它们通常不是第一性问题。
如果你正在公司里推进 AI Agent,先别急着问模型选哪家,也别急着搭平台。
先问自己 5 个问题:
第一,这个场景的 ROI 能不能在一个月内算清楚?
如果算不清,它很可能会变成一个永远在优化、永远证明不了价值的项目。
第二,这个项目有没有足够高层决心推动流程和组织变化?
AI Agent 不是一个工具上线,而是业务流程、责任边界、质检规则和人员分工的重组。没有决心,很容易试着试着就停了。
第三,这个系统有没有真实 case、评估指标和数据闭环?
没有数据闭环,就无法控风险,也无法持续优化。市场会变,客户会变,企业流程也会变,不能进化的系统很快就会腐化。
第四,出错时,系统知道什么时候闭嘴吗?
AI 最危险的不是答不上来,而是在没有依据的时候也一本正经地回答。
第五,上线后,谁负责持续运营和迭代?
没有人负责运营的 AI Agent,很快会变成一个过期知识库加聊天界面。
所以,90% 的企业 AI Agent 项目,卡住的不是模型。
模型会越来越强,价格会越来越低,工具链会越来越成熟。
真正稀缺的,是企业能不能找到一个账算得清楚的场景,有没有推动变革的决心,以及能不能建立持续进化的数据闭环。
这三件事不解决,再强的模型也只是一个更贵的聊天机器人。
解决了,AI Agent 才可能从 demo 走向生产系统,从技术项目变成业务价值。
夜雨聆风