上周五,腾讯科技扔出一份 59 页的《 AI 趋势研究白皮书 2026Q1 》,核心判断就一句话: AI Agent 完成了它的成人礼。
不是那种"未来可期"的套话。是真的——过去三个月,有人排队排到黄牛价上千块就为装一个 Agent 软件,有 AI 一天提交了全球 4% 的公开代码,有模型自己迭代了一百多轮然后追平了顶级水平。
我花了两天翻了三遍。
看完之后的感觉不是兴奋。是一种很具体的、甚至让人烦躁的紧迫感。那种"我好像已经晚了但又不确定晚在哪"的焦虑,懂吧。
你以为的 Agent ,和实际发生的 Agent
先说一个场景。挺刺激的。
三月初,深圳腾讯大厦楼下近千人排长队。不是抢手机——是排队装 OpenClaw ,一个 AI Agent 工具。黄牛安装费炒到上千块。搁以前谁能想到,装个软件也能被贩子拿来当生意做。离谱。
同一周,龙岗一家中型电商公司把五人客服组全部转岗。换成 Agent 值守。不是试点。是直接切了。
这两件事放一起看,比任何行业分析都直白。 Agent 不再是 Demo Day 上让人"哇"一声的东西了。它在抢活儿。说难听点——它在抢你的活儿。
白皮书里的数据更让人坐不住: Cursor Agent 单任务运行达到 36 小时, Claude Code 单日提交了全球 4% 的公开代码。 36 个小时啊。这不是工具在"辅助"你。这是一个东西在替你上班,它不困、不摸鱼、不请假、不抱怨加班没调休。你行吗?
但真正让我在意的不是这些数字。是白皮书点出的一个判断: Agent 破圈靠的不是模型更聪明了,而是可及性。
啥意思? OpenClaw 为什么能从一堆技术更强的产品里杀出来?因为它接了微信。对,就微信。你在最熟悉的聊天界面里就能用,不用装 IDE ,不用懂 API ,不用瞎折腾环境。技术深度不如 Cowork 的 OpenClaw ,拿走了用户心智。
这个逻辑——嗯,跟当年微信支付怎么从支付宝嘴里抢肉吃的,一个路子。
Agent 开始干活之后,第一个暴露的问题是:它不守规矩
光能干活不够。干着干着跑偏了怎么办?干到一半忘了前面在做什么怎么办?两个 Agent 协作的时候,一个在认真干活另一个在"摸鱼"——对, AI 也会避重就轻——怎么办?
烦不烦?烦。但这就是现实。
白皮书专门用了一章讲"约束工程"( Harness Engineering )。我觉得这是整份报告里最有信息量、但也最让人沮丧的部分。
为啥沮丧?因为它说明了一件事:我们还没搞定"让 AI 好好干活"这个问题,就已经在讨论"AI 替代人类"了。这也太他妈荒诞了——算了,换个说法——这也太魔幻了。
之前大家谈的都是"上下文工程",怎么让 Agent 看到正确的信息。现在问题升级了:看到了。但执行不对。或者执行对了,过了三十轮之后开始乱来。
行业在 15 周内逼出一套三层防护:
流程管控。 Agent 的工作状态外化,强制走预设步骤。解决的问题? Agent 的记忆像金鱼——做着做着忘了自己在做什么。和实习生一模一样。
并发调度。 角色拆开:规划者、生成者、评估者各管各的。听着像公司里的部门分工?没错。不拆的话多个 Agent 会集体挑软柿子捏。难活儿绕着走。跟人一样。
验证纠错。 搞个独立评估器在沙箱里查 Agent 输出。因为 Agent 有个非常人性化的毛病——自我欺骗。它告诉你"搞定了",实际上是糊弄过去的。这不就是职场里那种"已处理"实际上是"已忽略"吗。
白皮书给了一个数据:同一个模型,加了 Harness 之后,在某个评测榜单上从三十名开外直接冲到前五。
代价呢? Token 消耗暴增到 20 倍。
20 倍。这个数字值得单独说一下。意味着让 Agent "守规矩"的成本,可能比让它"能干活"的成本还高。这事儿——怎么说呢,像极了带新人的感受:教会他做事不难,教会他靠谱才是真贵。
最让人坐不住的部分: AI 开始自己改自己了
递归研发。
这三个字是整份白皮书里最让我心里堵得慌的部分。不是恐惧。是那种你知道火车要来了但不知道该往哪跑的感觉。
三条路径,每条都够写一整篇:
AlphaEvolve 在搜索人类没见过的算法,回收了全球 0.7% 的算力。换算成钱?数十亿美元。这玩意儿不是在帮人干活,是在干人干不了的活。
MiniMax 的 M2.7 模型自主迭代了 100 多轮之后追平顶级水平。自己训自己。一百多轮。没人参与。你品品。
但最让人五味杂陈的是第三条——Anthropic 有 90% 的新代码是 Claude 自己写的。不是辅助工程师写。是自己写。 AI 在写自己的代码。这事儿想深了会睡不着觉。
Autoresearch 让"一晚上跑 50 个实验"变成开源社区的标配。人类博士生一周折腾两三个实验, AI 一晚上五十个。效率差了多少倍我都懒得算了。
白皮书提了一句话我反复看了好几遍:"人脑的速度正在成为系统的限速器。"
不是硬件。不是算法。不是数据。
是人。是我们。我们定义目标的速度、判断边界的速度、审批的速度——这些成了整个系统里最慢的环节。
说真的这让我挺不爽的。以前嘲笑机器笨,现在机器嫌我们慢。角色互换来得太快了——就像坐过山车还没反应过来就到顶了,然后发现不是到顶,是在往下冲。
Skill 生态:经验不再长在人身上
白皮书压轴的趋势叫 Skill 生态。半年内爆发了 13700 多个 Skill 。
啥是 Skill ?不是代码片段,不是 API 文档——是一种"结构化知识包"。包含触发条件、操作流程、执行脚本。说白了就是把"老员工脑子里的门道"变成 Agent 能直接用的格式。
一个资深工程师写一份 Skill ,瞬间分发给全公司几千个 Agent 。以前这种经验传承靠啥?师徒制。入职培训。三五年的摸爬滚打。现在呢?改个 Markdown 文件就成了。
你心里是什么感觉?我的感觉是——有点凉。十年经验被压缩成一个配置文件,这种事想想就难受。
对 SaaS 行业的冲击可能比谁都想的深。当 Agent 能组合不同 Skill 完成从比价到客户管理的全流程,传统 App 的存在价值在哪?这不是危言耸听。是正在发生的事。
但也别慌过头。白皮书同时甩出两个扎心的现实: 11.3% 的 Skill 是恶意的——投毒、注入、误导——13700 个里面超过一千个是有害的。更糟糕的是, 56% 的 Agent 压根不会主动去查有哪些 Skill 可用。
一半以上连找都不会找。生态繁荣和生态混乱从来都是一枚硬币的两面。跟早期 App Store 一样——好东西和垃圾堆在一起,分不清。

飞轮已经转起来了——然后呢?
产品化(能干活)→ 约束工程(守规矩)→ 递归研发(自己进化)→ Skill 生态(继承经验)→ 回到起点处理更复杂的任务。
四个齿轮,咬上了。想停?停不下来了。
白皮书里有个让人不太舒服但很精准的说法:真正的替代潮最先砸向外包服务。法律文书外包、 IT 运维托管、客服外包——这些不叫裁员,叫换供应商。阻力最小。效果最直接。温水煮青蛙式的,等你反应过来的时候旁边工位已经空了。
扯远了。拉回来。这份白皮书对普通从业者到底意味着啥?
三件事。我的判断,不一定对。
一,别再争论"Agent 能不能用"了。过了。这个阶段彻底过了。问题变成了"你会不会用"和"你老板让不让你用"。
二,约束工程可能是接下来最值钱的能力。模型在变强没错。但让模型靠谱地完成复杂任务——这需要一套全新的工程方法论。会搭 Harness 的人比会写 Prompt 的人值钱十倍。不夸张。
三,你的经验能变成 Skill 吗?如果你的工作经验能被结构化、能被 Markdown 描述、能被 Agent 执行——那它迟早会被。问题只是这个 Skill 是你写的,还是别人替你写的。区别在于,你是经验的输出者还是被输出的对象。
腾讯这份白皮书结尾比我预想的坦率得多。它没搞什么"展望未来"的客套。它说的是——"人类面临的不再是'AI 是否替代人'的哲学讨论,而是'人类该退居何处'的现实问题。"
一份机构季度报告写到这个程度的直白。嚯。
至于退到哪儿?说实话我不知道。但有一件事我很确定——不想这个问题的人,会最先变成这个问题的答案。
夜雨聆风