很多团队这两年都有过同一种幻灭时刻。
开会时,AI回答得很好;写个提纲,挺快;改几句文案,也不错。可一旦你把任务说完整一点,比如“把这周的投放数据拉齐、找出异常、写成日报、发给相关同事”,它就开始掉链子了。不是中途失忆,就是不会接系统,不敢动权限,或者做了一半没人敢放手让它继续。
这也是为什么,今年AI最重要的变化,已经不是“更会聊”,而是“开始真的能连续干活”。
这不是一个措辞变化,而是一个产业重心变化。最近 Anthropic 连续发了三篇工程文章:Managed Agents[1]、long-running application development[2] 和 auto mode[3]。把这三篇放在一起看,信号非常明确:头部厂商关注的重点,正在从“模型能不能答得更好”,转向“Agent能不能在真实流程里安全、稳定、持续地执行”。
聊天式AI解决的是一个回合的问题,长任务Agent解决的是一整段工作的连续性问题。
为什么这件事重要?因为企业里真正有价值的工作,本来就不是一句话完成的。它往往要经历规划、执行、检查、修正、交付几个环节。以前的AI更像一个很聪明的回答器,能给建议,但接不住流程。现在所谓长任务Agent,开始试图补上的,就是这段“从建议到完成”的断层。
这里最值得注意的,是 Anthropic 在 Managed Agents[1] 里强调的“brain from the hands”。这句话可以简单理解成:把“脑”和“手”拆开。脑负责理解目标、制定步骤、判断优先级;手负责调用工具、执行动作、写入系统、反复尝试。过去这两件事常常混在一起,所以模型一旦卡住,整条链路就断了。把规划和执行解耦之后,Agent才有机会像一个可托管的工作单元,而不只是一个会聊天的窗口。
但只要开始“连续干活”,问题也立刻升级了。它不再只是提示词问题,而是工程问题、权限问题、组织问题。
long-running apps[2] 这个信号很关键,它说明长时间运行的AI应用,已经被当作一类需要专门设计的系统来处理。换句话说,真正难的不是让模型说对一句话,而是让它在更长的时间里不跑偏、不失控、可监控。到了 auto mode[3] 这一步,重点又进一步落到“怎么安全放权”上。
所以,长任务Agent一旦进入团队,至少有三件事不能再含糊。
第一,是权限边界。哪些动作它可以自动做,哪些必须人工确认,哪些系统只能读不能写,必须先定清楚。第二,是审计能力。它做过什么、改过什么、调用过什么工具,团队必须看得见、追得回。第三,是回滚机制。只要Agent开始接入真实业务流程,出错就不能靠“算了重来”,而要有撤回、复原和人工接管的设计。
这也是为什么,长任务Agent最先改写的,不是某个岗位会不会消失,而是团队怎么分工。过去很多团队的协作,是靠人把一个个小环节手工串起来;未来更像是,人负责定目标、设边界、做验收,Agent负责在边界内跑完整个执行链路。
哪些团队会最先受到影响?我认为是三类。
第一类是开发团队。最适合先试的,不是“写一个完整系统”这种高风险任务,而是让Agent连续处理调试、测试、文档整理、重复修复这类链路长但规则相对明确的工作。因为这类工作最耗时,也最容易卡在交接上。
第二类是运营团队。比如跨表格汇总数据、生成日报、对异常做初筛、把结果同步给相关同事。这类流程重复、标准化程度高,最适合检验Agent能不能真正“接住工作”,而不是只给你一段建议。
第三类是内容团队。选题搜集、资料归纳、初稿提纲、版本整理,本质上都不是一个回合完成的动作,而是一串连续步骤。Agent如果能把这串步骤串起来,内容产出的节奏会先被改写。
对中国团队来说,这件事还有一个更现实的落点:大家更关心的不是概念先进不先进,而是能不能接现有流程,能不能守住合规边界,能不能适配SaaS和私有化环境。也正因为如此,国内企业场景开始变得重要。像这篇关于 腾讯云 AI Agent“数字总部”[4] 的报道,价值不在于“又一个新概念”,而在于它提醒我们:海外工程信号,正在被翻译成国内组织真正关心的落地语言。
如果你现在就想试,不要一上来做“大而全”的Agent。低风险试点更有效。一个合格的试点,通常同时满足三个条件:
1. 流程足够耗时,但步骤相对标准。 2. 中间需要跨工具衔接,但权限边界可以先限定。 3. 结果能被人工快速验收,必要时也能回滚。
按这个标准,最适合中国团队先做的,至少有三类自动化流程:开发侧的调试与测试收尾,运营侧的报表汇总与日报生成,内容侧的选题搜集与初稿提纲。
这才是今年AI真正值得重视的地方:它开始从“回答者”变成“执行者”,从“工具补充”变成“流程成员”。
谁会先受益,不取决于谁最早把“Agent”挂在宣传页上,而取决于谁最早把权限、审计、回滚和人机分工补齐。
如果你想判断自己团队该不该现在就动,方法很简单:把团队里最耗时、最标准化、最容易卡在交接上的流程列出来,先挑一条做Agent试点。不要追求一步到位,先让它稳定接住一段真实工作。
当AI开始真的能连续干活,团队竞争的关键,就不再只是“谁用上了模型”,而是“谁先重写了流程”。
引用链接
[1] Managed Agents: https://www.anthropic.com/engineering/managed-agents[2] long-running application development: https://www.anthropic.com/engineering/harness-design-long-running-apps[3] auto mode: https://www.anthropic.com/engineering/claude-code-auto-mode[4] 腾讯云 AI Agent“数字总部”: https://zhidx.com/p/547940.html
夜雨聆风