从 AI 编程助手到自主 AI 团队:智能体工程的 8 个等级
为什么 Anthropic 的团队能用 10 天上线新产品(如 Cowork),而其他团队用同样的模型却连一个破损的 POC(原型)都做不出来?作者 Bassim Eledath 认为,AI 的编码能力正超越我们的运用能力。这种差距需要通过 8 个级别的演进来弥合。

第 1-2 级:自动补全与代理 IDE (Tab Complete & Agent IDE)
第 1 级(Copilot 时代): 最原始的 Tab 键自动补全。它更青睐资深开发者,因为他们能写出清晰的代码骨架供 AI 填充。
第 2 级(以 Cursor 为代表): AI IDE 将聊天窗口与代码库连接。此时出现了“计划模式”(Plan Mode):将想法转化为步骤,迭代计划后触发执行。
局限: 这一级的瓶颈是上下文(Context)。模型经常因为看不到正确的上下文或看到太多无关信息(噪音)而表现不佳。
第 3 级:上下文工程 (Context Engineering)
这是 2025 年的关键词。核心原则是:“每一个 Token 都必须为自己在提示词中的位置而战。”

具体实践:
-
精细化编写系统提示词和规则文件(如
.cursorrules,CLAUDE.md)。 -
描述工具: 模型通过阅读工具说明来决定调用哪个工具,因此工具描述的准确性至关重要。
-
管理历史: 防止长对话导致模型在第 10 轮后“断片”。
-
动态暴露工具: 每轮只给模型提供必要的工具,避免模型被过多选项淹没。
现状: 虽然长上下文窗口减少了负担,但在小模型(低延迟场景)中,精炼的上下文依然是成败关键。
第 4 级:复合工程 (Compounding Engineering)
上下文工程改进当前会话,复合工程则改进未来的每一次会话。

-
闭环流程: 计划 (Plan) → 委派 (Delegate) → 评估 (Assess) → 归纳 (Codify)。
-
核心细节: LLM 是无状态的。如果它昨天引入了一个已被你删除的冗余依赖,明天它还会这么做。
-
解决方案: 每次出错后,立即更新
CLAUDE.md或维护一个docs/文件夹。这样教训就被“固化”到了环境里。优秀的实践者在 AI 出错时,第一反应是“少了什么上下文”,而不是“模型不行”。
第 5 级:MCP 与技能 (MCP & Skills)
前几级解决上下文,这一级解决能力(Capability)。
扩展边界: 通过 MCP(模型上下文协议),让 AI 能访问数据库、API、CI 流水线、甚至 Slack。
具体案例: 作者团队使用“PR 评审技能”,会根据 PR 性质启动子代理:
-
子代理 A:检查数据库集成安全。
-
子代理 B:进行复杂度分析,标记过度工程化。
-
子代理 C:检查提示词健康度。
重要趋势: 为了节省 Token,开发者开始倾向于让 AI 使用 CLI(命令行界面) 而非 MCP,因为 CLI 只在需要时返回结果,不会像 MCP 那样在每轮对话都注入完整的工具 Schema。
第 6 级:Harness 工程与自动反馈环 (Harness Engineering & Feedback Loops)
这一级从“编写代码”转向“构建环境”。
核心思想: 不要只给代理一个编辑器,要给它一个反馈环。
OpenAI 的案例: 他们的 Codex 团队为代理连接了 Chrome DevTools 和可观测工具。代理可以复现 Bug、截屏、分析日志、执行修复,并自行通过 UI 路径验证。
压力回馈 (Backpressure): 利用类型系统、Lint、测试等机制。如果代理产生的代码报错,环境会立刻回传错误,逼迫代理自我修正。没有压力回馈,AI 就会变成“垃圾制造机”。
约束优于指令: 不要给 AI 列表(第一步…第二步…),而要给它边界(“这是目标,不断尝试直到通过这些测试”)。
第 7 级:后台代理 (Background Agents)
作者提出了一个“激进”的观点:计划模式(Plan Mode)正在消亡。

从“保姆”到“经理”: 如果前 6 级做得好,AI 已经能独立规划。你不再需要实时盯着它,而是让它在后台异步工作。
编排器模式 (Orchestrator): 你在一个主会话中充当指挥官,启动多个 Worker(工人) 代理在隔离环境中工作。模型异构协作:Opus 负责实现代码。Gemini 负责长文本调研和搜索。Codex 负责评审。
关键原则:不要让同一个模型既当学生又当考官。 必须解耦“实现者”和“评审者”,否则模型会因为自身偏差而无视错误。
第 8 级:自主代理团队 (Autonomous Agent Teams)
这是目前最前沿、尚未有人完全攻克的领域。
去中心化协作: 代理之间直接沟通、领任务、处理冲突,不再通过单一编排器。
实验现状:Anthropic 用 16 个并行代理从零写出了 C 编译器。Cursor 运行了数百个并发代理数周时间,将整个代码库从 Solid 迁移到 React。
面临的难题:缺乏等级制度会导致代理变得“风险规避”或陷入无效忙碌。目前多代理协作的 Token 消耗极高、速度较慢,对于日常开发,第 7 级仍是性价比最高的选择。
文章参考:https://www.bassimeledath.com/blog/levels-of-agentic-engineering
夜雨聆风