乐于分享
好东西不私藏

AI Agent 这两年:学什么能攒下真本事,什么可以直接扔掉

AI Agent 这两年:学什么能攒下真本事,什么可以直接扔掉


每天一个新框架,每周一个新 benchmark,”效率提升10倍”的口号喊得震天响。

这里面到底有多少是真信号,有多少是穿着急迫外套的噪音?

不是路线图。AI Agent 这个领域根本没有目的地。大厂在公开迭代,一边写事故报告一边修 bug。Claude Code 团队都能发布一个 47% 的性能衰退然后被用户揪出来才发现——”稳定”根本不存在。创业公司在蓬勃发展,因为巨头也不知道答案。

学历这件事,彻底失效了。

传统的路径是学位到初级岗位到高级岗位到技术专家,慢慢爬。这套逻辑的前提是你脚下的技术栈十年不变。现在一个 22 岁写 agent demo 的年轻人,和一个 35 岁的资深工程师,手里的空白画布是一样的。拉开差距的不是”十年积累的 API 熟练度”,而是敢不敢把东西做出来上线,以及那几个不会在六个月后过期的基本功。

哪些基本功值得花时间,哪些发布可以直接放过去。

一个管用的过滤器

别想跟上每周发布。你需要的是过滤器。

这五个测试帮我筛掉了 90% 的噪音:

两年后它还重要吗?

如果它只是大模型的套壳、一个命令行参数、或者”某某产品换个行业版”,答案几乎总是 no。套壳的半衰期很短。但如果是基础能力——一个协议、一个记忆模式、一个沙箱方案——答案就经常是 yes。

有没有靠谱的人在认真用过之后写了诚实的东西?

营销文章不算。事故报告算。一篇叫”我们在生产环境试了某某方案,这里是崩溃的地方”的博客,值十篇发布通告。好的信号,都是那些周末消失在调试里的人写的。

用它会不会逼你扔掉现有的监控、重试逻辑、配置、权限系统?

如果是,它就是个想当平台的框架。死亡率 90%。好的基础能力能插进你现有系统,不会逼你迁移。

跳过六个月,代价是什么?

对大多数发布,答案是零。六个月后你会知道更多,赢的那个版本会更清晰。大多数人不敢跑这个测试,觉得”不追就是落后”。其实不是。

你能测出来它到底帮不帮你吗?

如果不能,你在猜。没有评测体系的团队靠感觉,然后被线上事故打脸的时候才发现。有评测体系的团队让数据说话:这个模型还是那个模型在你的具体任务上这周赢?

新东西出来时,写下”六个月后什么证据能让我相信它值得关注”。然后六个月后回来检查。大多数时候问题自己就回答了。

真正难的不是这些测试。是敢不敢对一个热门的东西说”我不碰”。

技术论坛上本周爆火的框架,会有两周的追捧热潮,每个人都听起来很聪明。六个月后,一半没人维护了,追捧的人也换了阵地。那些没进场的人,省下的注意力用在撑过无聊期的东西上。等六个月,是这个领域真正值钱的职业技能。谁都能读发布。几乎没人擅长不反应。

该学什么

概念、模式、事物的基本形状。这些东西能撑过模型换、框架换、范式换。

上下文工程

过去两年最重要的一个改名:提示词工程 → 上下文工程。

不是换个词。是换了个世界观。

模型不再是”你写一个聪明指令的对象”。它是”你在每个步骤给它组装一个工作上下文的对象”。那个上下文是系统指令加工具描述加检索到的文档加之前的工具输出加中间状态加压缩后的历史。Agent 的行为,是你塞进窗口的东西的涌现属性。

上下文即状态。每个不相关的 token 都在消耗推理质量。上下文腐烂是真实的生产事故。到第八步的时候,原始目标可能已经被工具输出淹没了。靠谱的团队在主动做总结、压缩、剪枝。他们把工具描述做版本管理。静态的部分做缓存,变化的部分坚决不缓存。他们对上下文窗口的态度,就像资深工程师对内存。

打开任何一个生产环境的 agent 的完整日志。看第一步的上下文。看第七步。数数有多少 token 还在干活。第一次看完你会脸红。然后去修,同样的 agent 不改模型不改提示词就变得明显更靠谱。

工具设计

工具是 agent 和你业务交界的地方。模型选工具靠名字和描述。重试靠错误信息。成功还是失败,取决于工具接口和大模型能表达的东西是否匹配。

5-10 个命名清晰的工具,胜过 20 个平庸的。工具名字像动词短语。描述里写清楚什么时候用、什么时候不用。错误信息要让模型有动作:”超过500 token 限制,请先总结”比”错误:请求无效”强太多。有人公开报告过,光改错误信息就少了 40% 的重试循环。

编排器-子代理模式

2024-2025 年的多代理辩论,最后收敛到一个共识:傻多代理系统(多个代理并行写共享状态)会失败,因为错误叠加。单代理循环能比你想象中撑得更远。唯一能用的多代理形态是编排器把只读任务分给隔离的子代理,然后合成结果。

这是 Anthropic 的研究系统的做法。也是 Claude Code 的做法。Spring AI 和大多数生产框架现在都标准化这个模式。子代理拿到小而聚焦的上下文,不能改共享状态,编排器拿写权限。

先用单代理。只有当你真的撞墙了才考虑编排器-子代理。不要提前架构。

评测体系

每家能上线可靠 agent 的团队都有评测体系。没有评测的团队,没有可靠的 agent。这是最高杠杆的习惯,也是我看到每家公司最欠投资的地方。

具体做法:收生产环境的日志,标注失败,当回归测试集。每次新失败就加进去。主观的用大模型当裁判,客观的用精确匹配或程序检查。每次改提示词、换模型、改工具,先跑这套。Spotify 的博客说过他们的裁判层会拦掉约 25% 的 agent 输出再发布。没有它,四分之一的不合格结果会到用户面前。

文件系统即状态

做真实多步骤工作的 agent,稳定架构是:思考 → 行动 → 观察 → 循环。文件系统或结构化存储当数据源。每个动作记录可回放。Claude Code、Cursor、Devin、Aider、OpenHands 都收敛到这个模式。

模型是无状态的。运行框架必须是有状态的。文件系统是每个开发者都懂的有状态基础组件。一旦接受这个框架,检查点、可恢复性、子代理验证、沙箱执行都自然浮现。

运行框架在生产环境干的活比模型多。模型只选下一个动作。框架验证它、沙箱执行它、抓输出、决定喂什么回去、决定什么时候停、什么时候存检查点、什么时候启动子代理。换个同质量的模型,好的框架还能用。换个差的框架,最好的模型也会做出随机忘记自己在干嘛的 agent。

该用什么

2026 年 4 月的具体建议。会变,但慢。选稳的那个。

编排: LangGraph 是生产默认。大公司跑 agent 的三分之一用它。抽象匹配 agent 系统的真实形状。缺点是啰嗦。优点是这个啰嗦匹配你在生产环境真正需要控制的东西。TypeScript 生态选 Mastra。Pydantic 爱好者选 Pydantic AI。

协议层: MCP(模型上下文协议)。把工具集成做成 MCP 服务。注册表已经过了”几乎总能找到现成”的点。2026 年还在写自定义工具管道,是在交不必要的税。

记忆: 按自主程度选。Mem0 是聊天式个性化。Zep 是生产对话系统的实体跟踪。Letta 是跨天跨周的工作连贯性。大多数团队不需要。需要的那部分,需要的就是这个。

观测和评测: Langfuse 是开源默认。LangSmith 是 LangChain 系。Braintrust 是研究风格的评测流程。OpenLLMetry 是多语言栈的供应商中立选择。

运行时和沙箱: E2B 是通用沙箱代码执行。Browserbase 是浏览器自动化。Anthropic Computer Use 是真实操作系统级桌面控制。Modal 是短生命周期爆发。永远不要跑非沙箱代码执行。一个提示词注入的 agent 在生产环境的爆炸半径,是一个你不想讲的故事。

该跳过什么

以下这些东西,你会被建议去学和用。不需要。跳过的成本低,省下的时间大。

AutoGen 和 AG2:微软的框架转到社区维护,发布停滞,抽象和生产需求不匹配。学术探索可以。不要当产品根基。

CrewAI:到处都是因为它 demo 方便。做真实系统的工程师已经离开了。原型可以。不要深度依赖。

Semantic Kernel:除非你锁在微软企业生态且买家在意。

DSPy:哲学有意思,受众很窄。不是通用 agent 框架。

“自主代理”的推销:AutoGPT 和 BabyAGI 这条线在产品形态上已经死掉了。行业公认的是”代理工程”:有监督、有边界、有评测。2026 年还在卖部署即忘的自主代理的,是在卖 2023 年的东西。

代理应用商店和市场:2023 年就在承诺,从未在企业端有起色。企业不买通用预构建代理。他们买绑定具体业务的垂直代理,或者自己搭建。

“搭建任意代理”的通用平台:Google Agentspace、AWS Bedrock Agents、微软 Copilot Studio。会有用,但现在令人困惑、迭代慢,自建还是购买的决策还是偏向自己搭建窄域代理或买垂直方案。

SWE-bench 和 OSWorld 榜单追逐:伯克利研究者在 2025 年证明几乎所有公开 benchmark 都能被刷分而不解决真正任务。Terminal-Bench 2.0 和内部评测才是真实信号。

朴素并行多代理:五个代理在共享内存上聊天,demo 很好看,生产环境塌方。如果你不能在餐巾纸上画出一个清晰的编排器-子代理图并标明读写边界,不要上线。

怎么往前走

选一个你已经关心的业务结果。不是宏大愿景,不是”代理平台”。一个你业务已经在意的可衡量的东西:拦截客服工单、初稿合同审查、筛选销售线索、生成月报。agent 成功的标志是这个结果变化。

为什么这最重要?因为它约束了之后所有决定。哪个框架不再是哲学辩论,选能最快交付结果的。哪个模型不再是 benchmark 争论,选你评测说在这个具体任务上有效的。

跳过这一步的团队,最后在搭建没人要的通用平台。认真做这一步的团队,上线一个窄域代理在一个季度内回本。

在上线任何东西之前建追踪和评测。选 Langfuse 或 LangSmith。建一个小的金数据集,手标 50 个就够。不能测就不能改进。后来建的成本是现在建的十倍。

从单代理循环开始。选 LangGraph 或 Pydantic AI。选 Claude Sonnet 4.6 或 GPT-5。给代理 3-7 个设计好的工具。给它文件系统或数据库当状态。小范围上线。看日志。

把 agent 当产品,不是项目。它会在你没预测的方式失败。那些失败是你的路线图。从生产日志建回归集。每次改提示词、换模型、改工具都先过评测。

只在需要的时候加范围。上下文窗口压力了加子代理。单窗口上下文不够了加记忆框架。底层 API 真的不存在了加桌面操作或浏览器操作。不要提前架构。

选稳的基础设施。MCP。E2B 或 Browserbase。Postgres 或你现有的数据存储。你现有的权限和可观测性栈。花哨的基础设施很少是赢点。纪律才是。

从第一天看单位经济效益。每次调用成本。缓存命中率。重试循环成本。模型调用分布。概念验证看起来便宜,100 倍规模会爆炸。每次 3.5 元的验证在中等规模会变成每月 35 万。没看到它来的团队会开一个他们不喜欢的财务会议。

每季度重新评估模型,不是每周。锁一个季度。季度末跑评测套件对当前前沿模型,数据说换就换。

学能复利的,跳不能的。选一个业务结果。上线之前建评测。用 LangGraph 或你团队的同等方案。用 MCP。沙箱你的运行时。默认单代理。用失败模式把范围拉进来。每季度重评估模型。

品味、交付速度、不追不重要东西的耐心。把东西做出来,放到互联网上。做那个实干的人。