会干活的 AI:关于Agent未来的七分期待与三分清醒

它是未来的主流，但通往主流的那条路，远比PPT上画的要崎岖。

一、对话的尽头，是行动

这两年我们用的AI，本质上都还是“会说话”的AI。

问答、写作、摘要、写代码——它们有一个共同点：你给一句话，它还你一段话；交互在文字里开始，也在文字里结束。哪怕是最聪明的编程助手，它递给你的也只是一段建议，要不要采纳、怎么落地、出了问题谁来收拾，仍然是你的事。这是生成式AI的形态，也是它今天最普及的形态。

但用得越多越有“差一口气”的感觉。它什么都懂，却什么都不替你做完。

而真正的拐点，藏在几个慢慢变好的变量里：推理速度在变快，幻觉在被各种工程手段一点点压下去，工具调用从“演示”走向“可靠”。当这三件事同时往前挪一截，AI 就从“会说”迈向了“会做”——它能自己把目标拆成步骤，调用搜索、计算、文件、外部 API 乃至别的系统，在过程中自我纠偏、反复迭代，最后只需要你少量的确认，就把一件事真正交付出来。

这就是Agent。用一句不浮夸的话定义：大模型是大脑，规划负责拆任务，记忆负责沉淀上下文，工具负责动手，四者合起来，才是一个能“给目标、还结果”的系统。

我的判断是：对话式只是AI的少年期，人与Agent协作完成工作，才是它的成年礼。

二、为什么我相信Agent会成为主流

把情绪放一边，从四个维度给它做个综合评级，会更清醒一些。

技术底座：从“各说各话”到“有了普通话”。Agent 要跨工具、跨系统、甚至跨Agent协作，最怕的是没有标准、处处要定制对接。过去一年，MCP（模型上下文协议）和 A2A（Agent 间通信协议）迅速从新名词沉淀为通用基础——你可以把 MCP 理解成“Agent 连接数据和工具的 USB 接口”。底层管道一旦标准化，集成摩擦骤降，这是Agent能规模复制的前提，也是最容易被外行忽略、却最关键的一块拼图。

企业需求：真金白银在投票。行业调研里，超过八成的企业表示2026 年会增加 AI 预算。Gartner，2025年8月预测，截至2026 年末，40%企业应用将内置任务型 AI 智能体。需求不是被讲出来的，是被预算投出来的。

商业机制：软件的卖法正在改写。过去你买软件，买的是“功能”和“席位”；现在企业想买的是“结果”。当软件从“我提供工具、你来操作”变成“我交付一个能自己干完活的Agent”，整个SaaS 的计价逻辑、交付逻辑都会被重写。这是一条比技术更深的暗线。

ROI？：这一项，我给它打问号。前三项都在加分，唯独投资回报这一项，目前还存在一些争议。

三、未来几年怎么走：试点、成熟、规模化，但别急

如果要给未来几年画一条曲线，它大概是：试点→ 成熟 → 规模化，三段式，但每一段都比想象中艰难。

多份 2026 年的调研给出近乎一致的画面：近九成的组织已经在至少一个环节用上了 AI，但真正实现“企业级规模化”的只有约7%。换算一下，绝大多数公司卡在“做了很多demo，却没有一个真正长进业务血管里”的尴尬地带。另一项面向企业的调研也显示，尽管投入不低，约八成企业在落地中遇到了实打实的困难。

所以我的趋势判断带一个限定词：Agent大概率会是未来，但短期内，“人机协作”才是主流的。那种“无人干预、端到端全自动”的叙事，更适合放在融资路演里，而不是放进今明两年的生产环境。

四、堵点在哪：六块短板，块块都硬

越是看好，越要把绊脚石数清楚。今天制约Agent的，主要是这么几块：

第一，Token 成本。Agent不是问一句答一句，它在后台反复规划、调用、反思，一次任务背后可能是几十上百次模型调用。能力越强，越“烧钱”。成本曲线不下来，很多场景在经济上就跑不通。

第二，推理速度与幻觉。慢，会毁掉实时协作的体验；而幻觉在“聊天”里只是说错话，在“动手”里却可能是发错一封邮件、调错一个接口、改错一行配置——后果从“尴尬”升级为“事故”。

第三，长链路的“断链”。这是多Agent协作里最隐蔽的杀手：单步95%的成功率听起来不错，可一旦串成二十步的长任务，误差层层累积，端到端能跑通的概率会断崖式下跌（精确计算后的成功率为35.8%）。链条越长，越容易在中途“死掉”。这不是模型不够聪明，而是系统工程、容错和编排还不成熟。

第四，ROI算不清。前面说过，这里再强调一次：缺少公认的度量方式，很多项目就只能停在“感觉有用”，而过不了CFO 那一关。

第五，合规的制度性门槛。在严肃金融这类场景里，这一条几乎是天花板。一笔核保、一次授信、一个理赔，背后是责任归属、可解释性、可审计、监管问责。“AI建议的”在合规层面往往不被接受——制度不松绑，技术再强也只能在门外候着。这也是为什么“主权AI”、私有化部署在受监管行业被反复提起：不是技术偏好，是合规刚需。

五、它会先在哪里落地

抛开宏大叙事，落到具体场景，Agent最先站稳脚跟的，大概是这几类“重复度高、规则清晰、容错有缓冲”的地方。

研发：这是目前最成熟的战场。代码开发、测试用例生成、运维监控乃至“主动运维”（在告警之前就发现并修复隐患）——编程类 Agent（如 Claude Code、Cursor 这类工具）已经从“补全代码”走向“领一个 issue、自己改完提交”。研发场景之所以领先，是因为它天然有版本管理、测试、Code Review 这套“容错缓冲带”。同时，我们也不得不清醒的认清一个事实，并非所有的研发都能很好地应用，特别是一些年代久远且有历史包袱的系统，以及安全性要求极高的金融企业内部的系统，目前尝试下来效果不佳。

运营：保险的核保与理赔审核、电话客服与客户咨询，是规则密集、流程清晰的典型。但越往“严肃决策”靠，对AI工程化应用能力要求越高；普通的用户可以让Agent做初筛、做建议，最终拍板仍要留给人。

办公：会议纪要、任务分派、跨系统的协同与信息检索。腾讯在2026 年一季度财报中披露，其 WorkBuddy 生产力智能体已成为国内应用最广泛的同类服务（这是企业自述的数据，姑且记下，但方向是真实的）——办公协同正是Agent渗透最快、阻力最小的应用领域。

六、几个我还没有答案的问题

写到这里，与其给结论，不如老实地把几个悬而未决的问题摆出来。能不能想清楚这几问，比追逐哪个最新模型重要得多。

其一，技术成熟度与生态格局。

幻觉和速度是工程问题，会随时间改善；但生态卡位是战略问题。目前看下来腾讯要在这块持续发力，马化腾在2026 年一季度财报后明确“AI补短板已见成效”，落点在模型自研、生态融合、生产力落地三处，核心是把Agent与微信、小程序的庞大生态绑定。据媒体报道，微信正在内测内置Agent原型，要把点单、叫车、购物这类服务连起来，并推进合规审批。当一个月活十多亿级别的入口开始“长出会干活的AI”，它的想象空间确实不同寻常——但能不能跑通，仍要先过合规与体验这几道坎。生态的胜负，往往不取决于谁的模型分数高，而取决于谁离真实场景和数据更近。

其二，人与Agent的分工与边界。

这是组织层面最深的变革。哪些事交给Agent，哪些必须留给人？责任如何归属——Agent办砸了，是用它的人负责，还是造它的人负责？当一个团队里“成员”既有人也有Agent，汇报关系、协作方式、甚至组织结构本身，都要重新设计。这不是技术问题，是管理学要补的新课。

其三，也是我最着迷的一问：怎么评价、怎么激励？

人类有KPI、有OKR，但这套“科学管理”是花了上百年才慢慢磨出来的。那么在人机协作的新形态下——怎么评价人？当Agent承担了大量执行，人的价值更多体现在判断、定义问题、兜底和担责上，旧的“以产出计件”的考核还成立吗？

怎么评价 Agent？是用统一的客观标准，还是交给使用者打分，抑或两者结合？一个Agent的“好”，到底是更快、更省Token，还是更少出错、更让人信任？

又怎么“激励”一个Agent？这个问题听起来像玩笑，但当我们给表现好的Agent分配更多算力、更高权限、更复杂的任务时，本质上不就是一套“资源激励机制”吗？

我没有答案。但我相信，谁先把这套“人机混合团队的评价与激励体系”摸索出来，谁就握住了下一轮组织效率的钥匙。

七、那么，企业该怎么做

如果你是决策者，与其等一个完美的时机，不如从这几件事入手——它们更像“判断”，而非“标准答案”。

先动认知，再动系统。

第一件事不是采购，是统一一个认知：Agent不是来取代人的，它替代的是工作里那些重复、机械、低创造性的部分，让人腾出手去做判断与创造。要在团队里营造“敢用、愿用、会用Agent“的文化——技术落地从来死于抵触，活于共识。

用好Agent平台。

不必从零造轮子。目前Agent平台很多，去研究它、探索它的能力边界，寻求一个更好的人际协作新模式，在真实任务里磨经验，比闭门规划更有效。

把数据和接口当地基来修。

沉淀数据、统一标准，把成熟的内部能力API化，再通过 MCP 这样的协议对外提供服务。这是最不性感、却最决定上限的工程——前面说过，数据残缺，Agent 再强也白搭。

建内部平台与“Skill市集”。

让各团队把自己沉淀的Agent能力像应用商店一样共享、复用，避免重复造轮子，也让好的实践自然扩散。

鼓励全员搭建、探索边界。

不要把Agent锁在技术部门。让业务一线的人也能搭出自己的小Agent，去试它的能力上限和失效边界——边界，是用出来的，不是想出来的。

最后，连预算的形态都要变。

过去的预算是“项目预算+ 外包人力预算”；当人力的一部分被Agent接管，预算需要逐步过渡到一种新东西——不妨叫它“Token 扶持计划”：像当年给团队配电脑、配云资源一样，给团队配算力额度，鼓励他们把活交给Agent去试。预算的形态变了，组织对生产力的定义也就变了。

结尾：留一道口子给时间

诚实地说，今天Agent面临的，大多还是技术问题——速度、成本、幻觉、断链、合规。这些都会改善，只是没有谁能精确预言时间表。任何把“明年就全自动”或“它永远只是玩具”挂在嘴边的人，多半都把一件不确定的事，讲出了过分确定的语气。

但如果把镜头拉到更长的历史里，我又确信另一件事：从蒸汽机抹平体力差距，到互联网消解信息壁垒，每一次真正的生产力跃迁，最终都不是某项技术的胜利，而是组织形态、管理方式与人的角色的一次集体进化。Agent大概率也会走这条路——它在当下是技术问题，在长河里却是一道组织进化与管理转型的必答题。

到那时，不在于你用不用某个工具，而在于你是否愿意重新理解“人该做什么、机器该做什么、我们又该如何一起做”。

要么在这场“变革中”里找到自己的新位置，要么被新的协作方式悄悄绕过去。

只是我也提醒自己：拥抱，不等于轻信；看见浪潮，更要看清礁石。这一次，但愿我们既不做畏惧变化的人，也不做被宏大叙事裹挟的人——而是脚踏实地，把那些"还没有答案的问题"，一个一个，认真地试出答案来。