从 AI 编程助手到自主 AI 团队:智能体工程的 8 个等级-夜雨聆风

从 AI 编程助手到自主 AI 团队:智能体工程的 8 个等级

为什么 Anthropic 的团队能用 10 天上线新产品（如 Cowork），而其他团队用同样的模型却连一个破损的 POC（原型）都做不出来？作者 Bassim Eledath 认为，AI 的编码能力正超越我们的运用能力。这种差距需要通过 8 个级别的演进来弥合。

这是 2025 年的关键词。核心原则是：“每一个 Token 都必须为自己在提示词中的位置而战。”

具体实践：

现状：虽然长上下文窗口减少了负担，但在小模型（低延迟场景）中，精炼的上下文依然是成败关键。

上下文工程改进当前会话，复合工程则改进未来的每一次会话。

闭环流程：计划 (Plan) → 委派 (Delegate) → 评估 (Assess) → 归纳 (Codify)。
核心细节： LLM 是无状态的。如果它昨天引入了一个已被你删除的冗余依赖，明天它还会这么做。
解决方案：每次出错后，立即更新 CLAUDE.md 或维护一个 docs/ 文件夹。这样教训就被“固化”到了环境里。优秀的实践者在 AI 出错时，第一反应是“少了什么上下文”，而不是“模型不行”。

前几级解决上下文，这一级解决能力（Capability）。

扩展边界：通过 MCP（模型上下文协议），让 AI 能访问数据库、API、CI 流水线、甚至 Slack。

具体案例：作者团队使用“PR 评审技能”，会根据 PR 性质启动子代理：

重要趋势：为了节省 Token，开发者开始倾向于让 AI 使用 CLI（命令行界面） 而非 MCP，因为 CLI 只在需要时返回结果，不会像 MCP 那样在每轮对话都注入完整的工具 Schema。

这一级从“编写代码”转向“构建环境”。

核心思想：不要只给代理一个编辑器，要给它一个反馈环。

OpenAI 的案例：他们的 Codex 团队为代理连接了 Chrome DevTools 和可观测工具。代理可以复现 Bug、截屏、分析日志、执行修复，并自行通过 UI 路径验证。

压力回馈 (Backpressure)：利用类型系统、Lint、测试等机制。如果代理产生的代码报错，环境会立刻回传错误，逼迫代理自我修正。没有压力回馈，AI 就会变成“垃圾制造机”。

约束优于指令： 不要给 AI 列表（第一步…第二步…），而要给它边界（“这是目标，不断尝试直到通过这些测试”）。

作者提出了一个“激进”的观点：计划模式（Plan Mode）正在消亡。

从“保姆”到“经理”： 如果前 6 级做得好，AI 已经能独立规划。你不再需要实时盯着它，而是让它在后台异步工作。

编排器模式 (Orchestrator)：你在一个主会话中充当指挥官，启动多个 Worker（工人） 代理在隔离环境中工作。模型异构协作：Opus 负责实现代码。Gemini 负责长文本调研和搜索。Codex 负责评审。

关键原则：不要让同一个模型既当学生又当考官。 必须解耦“实现者”和“评审者”，否则模型会因为自身偏差而无视错误。

这是目前最前沿、尚未有人完全攻克的领域。

去中心化协作：代理之间直接沟通、领任务、处理冲突，不再通过单一编排器。

实验现状：Anthropic 用 16 个并行代理从零写出了 C 编译器。Cursor 运行了数百个并发代理数周时间，将整个代码库从 Solid 迁移到 React。

面临的难题：缺乏等级制度会导致代理变得“风险规避”或陷入无效忙碌。目前多代理协作的 Token 消耗极高、速度较慢，对于日常开发，第 7 级仍是性价比最高的选择。

文章参考：https://www.bassimeledath.com/blog/levels-of-agentic-engineering

从 AI 编程助手到自主 AI 团队:智能体工程的 8 个等级