乐于分享
好东西不私藏

AI Agent进化论:从听话的工具到自主干活的同事

AI Agent进化论:从听话的工具到自主干活的同事

上周和一个朋友吃饭,他在某个上市公司做 CTO ,聊到一半突然说:”我们做了半年 AI Agent 项目,最后砍掉了。”

我问为什么。

他喝了口水,沉默了大概两三秒,说:”说白了,它太聪明了,但又不够聪明。让它做简单的事,用处不大;让它做复杂的事,差那么一点点,但那一点点是会出大问题的。”

说真的,听到这话我心里有点发沉。不是因为悲观,是因为——这个判断,我压根无法反驳。

这话我记了很久。

所有人都说 Agent 来了,但它到底是什么

我发现一个挺逗的现象:现在但凡聊 AI 的,三句话不到一定会提到”Agent”。 PPT 里有它,发布会上有它, VC 见面谈话里更少不了。

但你让他解释清楚 Agent 是什么,大部分人会卡一下。

说白了, AI Agent 跟你用过的那些聊天机器人不一样。 ChatGPT 那种,是你问它答——它永远在等你,你不说话它就不动。而 Agent 的设计理念是,给它一个目标,它自己想办法,自己调用工具,自己做决策,一路走到完成。

就好像你给一个助手说”帮我把这份报告里的数据整理成图表发给客户”——这里面包含了读文件、分析数据、做图表、发邮件好几个步骤, Agent 要自己把这条链拆解然后逐步执行。而不是每一步都停下来等你审批。

从”工具”变成”同事”——这是这两年 AI 最大的叙事转变。

嗯。

但我认识的那些真正在做这件事的人,大多数没有这么轻松。

那 62%的数据是怎么来的,我们不妨看仔细一点

36 氪三月份出了一份分析,基于对 30 个 AI Agent 产品的深度调研: 62%的企业已经在测试或部署 AI Agent 相关系统。听起来很漂亮。

然后我接着往下看。

32%处于”部署阶段”, 45%是”验证阶段”——不对,准确说应该是”还在验证阶段”。这两个数字叠在一起,你发现了什么吗——验证阶段远多于部署阶段。大量企业进去了,但没多少出来。入局容易,跑通难,搁这套牌里,大家都卷进去了。

Gartner 那边也有一个预测:到 2026 年底,超过 80%的企业会在生产环境里用上 AI Agent 相关技术。

我看到这个数字的时候,说实话,第一反应就是烦——80%?这个数太整了,太好看了,感觉像是把”有 AI 战略”和”真的在用 Agent 干活”硬混在一起算出来的。凭什么这么讲?因为我见过太多公司的 AI 战略其实是”买了几个 API”。

不过有一个数据倒是具体到让我觉得靠谱:某财务自动化案例里,引入 AI Agent 后核心流程效率提升 300%,人工错误率降到 0.1%以下。这种细节不是 PPT 里会放的, PPT 喜欢放”节省 30%人力”这类模糊数字。 300%效率+0.1%错误率,这是真正在用的公司才会统计的。

所以整体感觉是——已经有人跑通了,但跑通的场景很特定、很窄。

“很窄”这两个字,是这件事的核心问题。

卡在哪里?其实不是技术,是这个

我想说一件可能让很多做 AI 的同学有点不舒服的事:

当前 AI Agent 落地失败的主要原因,不是模型不够好。

这话讲出来有人会跳起来骂我。好,来骂。

Cursor ,年收入已经 5 亿美元, 2022 年成立——4 年做到这个体量,说明编程场景的 Agent 是真的能用、真的有人付钱。但编程这个场景有多特殊?它的反馈机制极其明确:代码跑通了就是跑通了,报错就是报错,没有模糊地带。黑是黑白是白, AI 最爱这种。

换一个场景——让 Agent 帮你处理客服投诉、做财务对账、给新员工做入职流程引导——这些场景有个共同特征:出了问题,代价是真实的。客户投诉处理错了,对方要投诉你;账对错了,影响审计;员工入职信息填错了, HR 要重新处理。

这就是我朋友说的”差那么一点点但那一点点会出大问题”。

实在智能做过一个分析,把企业落地失败的原因归结成四类:技术适应性不足、业务需求错位、组织人才短缺、成本高昂。

但我觉得这个总结有点太体面了。

说白了,根本矛盾就一个:Agent 现在的可靠性,和高风险业务场景要求的可靠性,还不在同一个量级

就好像你请了一个实习生,他智商很高、学东西快,但你不敢让他直接签合同,因为他毕竟只干了三个月。你能放心让他做的事,都是出了问题影响不大的事。而那些影响大的事,你自己盯着。

Agent 现在的状态,就是那个高智商实习生。

那些真的在赚钱的玩法是什么样的

CB Insights 报告里有一段我觉得说到点子上了:现在做起来的 AI Agent 产品,有个共同模式——它们都在一个可以被客观验证结果的场景里

编程。不用说了, Cursor5 亿。

文档处理。把 PDF 里的非结构化数据抽出来做对比,结果是对是错,机器可以判断。

语音客服。按照脚本走,偏离了有监控。

这些场景有什么共同点?

反馈回路短,出错代价低,或者出错可以被快速发现。

用医学来做类比的话——Agent 现在适合做的,是那种有标准化操作规程的检查,而不是主刀医生的判断。 B 超、血常规、 CT 阅片——结果是明确的,标准是固定的,差一点可以复查。但你不会让 Agent 来决定要不要做这台手术。

CB Insights 还提了一个趋势,我觉得 2026 年会越来越明显:智能体监控工具开始成为刚需。 2025 年这个方向完成了 7 笔早期融资,加起来 3090 万美元。这个数字不大,但信号很清楚——大家开始承认, Agent 在生产环境里不能完全信任,必须有人守着。

守护者本身,也成了一门生意。

如果你的公司今年要上 Agent ,我想说一句可能不好听的话

别从最复杂的场景开始。

这话太废话了对吧,但我见过太多人是怎么搞的——先攒一个宏大的 agent 架构,调研三个月, PPT 做得很好看,然后发现跑不通,然后项目黄了,然后说”AI Agent 还不成熟”。我想说:不是 AI 不成熟,是这种搞法本来就不对头。

Gartner 和实在智能都在反复讲一件事:找那种高频、规则明确、容错率中等的场景先跑通一个。财务票据处理、标准化客户咨询、内部 IT 工单——这些可能听起来不性感,但是能出数据、能交付 ROI 、能让团队建立信心。

然后再往复杂场景延伸。

对,就这么朴素。

说实话我不确定这个打法能让你的公司走多快,因为公司政治这件事我不懂,有时候项目跑起来本来就是靠”先搞个大的”。

但从纯技术逻辑来说——每 5 家新晋独角兽里有 1 家以 Agent 技术为核心,而这些公司基本上都是在一个很窄的场景里打穿了,才往外扩的。 Cursor 、 Lovable ,走的都是这条路。

窄,不是坏事。

窄是活下来的策略。

说一句我暂时没答案的话

很多人在问: AI Agent 什么时候能”真的替代人”?

我觉得这个问题本身就有点问题。

不是因为它不会发生,而是因为”替代人”这个框架容易让人分心——盯着那个遥远的终点,反而看不清现在。

现在真实的情况是: Agent 已经在少数几个很具体的场景里,把原来需要人来回确认好几轮的事情压缩成了一次性执行。这不是”替代”,是”提速”。但这个提速的经济价值,已经大到让 Cursor 在四年里做到 5 亿美元年收入了。

够了吧。

剩下那些更复杂的、更高风险的场景,该怎么走,坦白说我也不确定。具体会怎样,我承认我也看不清楚。

不过——

看不清楚不是什么坏事。看不清楚的地方,就是还没有人占的地方。

注: 以上故事为 AI虚构

引用来源
具体内容
36氪
2026年3月分析,基于30个AI Agent产品的深度调研
Gartner
2026年底超过80%企业将在生产环境使用AI Agent的预测
CB Insights
盈利AI Agent产品模式分析,智能体监控工具成为刚需
实在智能
企业落地失败原因分类:技术适应性、业务需求错位等
Cursor
编程场景Agent案例,年收入5亿美元,2022年成立
Lovable
窄场景深耕成功的案例