AI Agent 终于毕业了,但你准备好给它发 offer 了吗?

上周五，腾讯科技扔出一份 59 页的《 AI 趋势研究白皮书 2026Q1 》，核心判断就一句话： AI Agent 完成了它的成人礼。

不是那种"未来可期"的套话。是真的——过去三个月，有人排队排到黄牛价上千块就为装一个 Agent 软件，有 AI 一天提交了全球 4% 的公开代码，有模型自己迭代了一百多轮然后追平了顶级水平。

我花了两天翻了三遍。

看完之后的感觉不是兴奋。是一种很具体的、甚至让人烦躁的紧迫感。那种"我好像已经晚了但又不确定晚在哪"的焦虑，懂吧。

你以为的 Agent ，和实际发生的 Agent

先说一个场景。挺刺激的。

三月初，深圳腾讯大厦楼下近千人排长队。不是抢手机——是排队装 OpenClaw ，一个 AI Agent 工具。黄牛安装费炒到上千块。搁以前谁能想到，装个软件也能被贩子拿来当生意做。离谱。

同一周，龙岗一家中型电商公司把五人客服组全部转岗。换成 Agent 值守。不是试点。是直接切了。

这两件事放一起看，比任何行业分析都直白。 Agent 不再是 Demo Day 上让人"哇"一声的东西了。它在抢活儿。说难听点——它在抢你的活儿。

白皮书里的数据更让人坐不住： Cursor Agent 单任务运行达到 36 小时， Claude Code 单日提交了全球 4% 的公开代码。 36 个小时啊。这不是工具在"辅助"你。这是一个东西在替你上班，它不困、不摸鱼、不请假、不抱怨加班没调休。你行吗？

但真正让我在意的不是这些数字。是白皮书点出的一个判断： Agent 破圈靠的不是模型更聪明了，而是可及性。

啥意思？ OpenClaw 为什么能从一堆技术更强的产品里杀出来？因为它接了微信。对，就微信。你在最熟悉的聊天界面里就能用，不用装 IDE ，不用懂 API ，不用瞎折腾环境。技术深度不如 Cowork 的 OpenClaw ，拿走了用户心智。

这个逻辑——嗯，跟当年微信支付怎么从支付宝嘴里抢肉吃的，一个路子。

Agent 开始干活之后，第一个暴露的问题是：它不守规矩

光能干活不够。干着干着跑偏了怎么办？干到一半忘了前面在做什么怎么办？两个 Agent 协作的时候，一个在认真干活另一个在"摸鱼"——对， AI 也会避重就轻——怎么办？

烦不烦？烦。但这就是现实。

白皮书专门用了一章讲"约束工程"（ Harness Engineering ）。我觉得这是整份报告里最有信息量、但也最让人沮丧的部分。

为啥沮丧？因为它说明了一件事：我们还没搞定"让 AI 好好干活"这个问题，就已经在讨论"AI 替代人类"了。这也太他妈荒诞了——算了，换个说法——这也太魔幻了。

之前大家谈的都是"上下文工程"，怎么让 Agent 看到正确的信息。现在问题升级了：看到了。但执行不对。或者执行对了，过了三十轮之后开始乱来。

行业在 15 周内逼出一套三层防护：

流程管控。 Agent 的工作状态外化，强制走预设步骤。解决的问题？ Agent 的记忆像金鱼——做着做着忘了自己在做什么。和实习生一模一样。

并发调度。角色拆开：规划者、生成者、评估者各管各的。听着像公司里的部门分工？没错。不拆的话多个 Agent 会集体挑软柿子捏。难活儿绕着走。跟人一样。

验证纠错。搞个独立评估器在沙箱里查 Agent 输出。因为 Agent 有个非常人性化的毛病——自我欺骗。它告诉你"搞定了"，实际上是糊弄过去的。这不就是职场里那种"已处理"实际上是"已忽略"吗。

白皮书给了一个数据：同一个模型，加了 Harness 之后，在某个评测榜单上从三十名开外直接冲到前五。

代价呢？ Token 消耗暴增到 20 倍。

20 倍。这个数字值得单独说一下。意味着让 Agent "守规矩"的成本，可能比让它"能干活"的成本还高。这事儿——怎么说呢，像极了带新人的感受：教会他做事不难，教会他靠谱才是真贵。

最让人坐不住的部分： AI 开始自己改自己了

递归研发。

这三个字是整份白皮书里最让我心里堵得慌的部分。不是恐惧。是那种你知道火车要来了但不知道该往哪跑的感觉。

三条路径，每条都够写一整篇：

AlphaEvolve 在搜索人类没见过的算法，回收了全球 0.7% 的算力。换算成钱？数十亿美元。这玩意儿不是在帮人干活，是在干人干不了的活。

MiniMax 的 M2.7 模型自主迭代了 100 多轮之后追平顶级水平。自己训自己。一百多轮。没人参与。你品品。

但最让人五味杂陈的是第三条——Anthropic 有 90% 的新代码是 Claude 自己写的。不是辅助工程师写。是自己写。 AI 在写自己的代码。这事儿想深了会睡不着觉。

Autoresearch 让"一晚上跑 50 个实验"变成开源社区的标配。人类博士生一周折腾两三个实验， AI 一晚上五十个。效率差了多少倍我都懒得算了。

白皮书提了一句话我反复看了好几遍："人脑的速度正在成为系统的限速器。"

不是硬件。不是算法。不是数据。

是人。是我们。我们定义目标的速度、判断边界的速度、审批的速度——这些成了整个系统里最慢的环节。

说真的这让我挺不爽的。以前嘲笑机器笨，现在机器嫌我们慢。角色互换来得太快了——就像坐过山车还没反应过来就到顶了，然后发现不是到顶，是在往下冲。

Skill 生态：经验不再长在人身上

白皮书压轴的趋势叫 Skill 生态。半年内爆发了 13700 多个 Skill 。

啥是 Skill ？不是代码片段，不是 API 文档——是一种"结构化知识包"。包含触发条件、操作流程、执行脚本。说白了就是把"老员工脑子里的门道"变成 Agent 能直接用的格式。

一个资深工程师写一份 Skill ，瞬间分发给全公司几千个 Agent 。以前这种经验传承靠啥？师徒制。入职培训。三五年的摸爬滚打。现在呢？改个 Markdown 文件就成了。

你心里是什么感觉？我的感觉是——有点凉。十年经验被压缩成一个配置文件，这种事想想就难受。

对 SaaS 行业的冲击可能比谁都想的深。当 Agent 能组合不同 Skill 完成从比价到客户管理的全流程，传统 App 的存在价值在哪？这不是危言耸听。是正在发生的事。

但也别慌过头。白皮书同时甩出两个扎心的现实： 11.3% 的 Skill 是恶意的——投毒、注入、误导——13700 个里面超过一千个是有害的。更糟糕的是， 56% 的 Agent 压根不会主动去查有哪些 Skill 可用。

一半以上连找都不会找。生态繁荣和生态混乱从来都是一枚硬币的两面。跟早期 App Store 一样——好东西和垃圾堆在一起，分不清。

飞轮已经转起来了——然后呢？

产品化（能干活）→ 约束工程（守规矩）→ 递归研发（自己进化）→ Skill 生态（继承经验）→ 回到起点处理更复杂的任务。

四个齿轮，咬上了。想停？停不下来了。

白皮书里有个让人不太舒服但很精准的说法：真正的替代潮最先砸向外包服务。法律文书外包、 IT 运维托管、客服外包——这些不叫裁员，叫换供应商。阻力最小。效果最直接。温水煮青蛙式的，等你反应过来的时候旁边工位已经空了。

扯远了。拉回来。这份白皮书对普通从业者到底意味着啥？

三件事。我的判断，不一定对。

一，别再争论"Agent 能不能用"了。过了。这个阶段彻底过了。问题变成了"你会不会用"和"你老板让不让你用"。

二，约束工程可能是接下来最值钱的能力。模型在变强没错。但让模型靠谱地完成复杂任务——这需要一套全新的工程方法论。会搭 Harness 的人比会写 Prompt 的人值钱十倍。不夸张。

三，你的经验能变成 Skill 吗？如果你的工作经验能被结构化、能被 Markdown 描述、能被 Agent 执行——那它迟早会被。问题只是这个 Skill 是你写的，还是别人替你写的。区别在于，你是经验的输出者还是被输出的对象。

腾讯这份白皮书结尾比我预想的坦率得多。它没搞什么"展望未来"的客套。它说的是——"人类面临的不再是'AI 是否替代人'的哲学讨论，而是'人类该退居何处'的现实问题。"

一份机构季度报告写到这个程度的直白。嚯。

至于退到哪儿？说实话我不知道。但有一件事我很确定——不想这个问题的人，会最先变成这个问题的答案。