原书:Agentic Software Engineering (中文版)作者:艾哈迈德·E·哈桑(Ahmed E. Hassan)教授翻译:李豪版本:2026 v0.5a
核心论点
"傻瓜拿着工具,仍然是傻瓜。"
智能体软件工程(Agentic SE)是这样一门学科:通过让整个软件工程体系在其四大支柱(行动者、流程、工具、工件)上做好准备,从随机性贡献者(无论是 AI 还是人类)那里,持续产出高质量、可靠、可信的软件。
第一部分:智能体软件工程与 AI 队友
第 1 章:智能体软件工程——从直觉狂欢到可信工程
1.1 氛围编程自有其位,但绝非施工现场
• 氛围编程(Vibe Coding)适合快速探索和原型设计,但无法构建真正的软件工程体系 • 现实世界的软件是团队运动、漫长马拉松,代码写出后维护才是最长、最昂贵的阶段 • 关键洞察:过程比结果更重要——最终代码远不如"如何抵达那里"来得重要 • 产出即将爆炸式增长:靠"多审查几遍"的计划必然失败
1.2 一门学科,两种模式,各配优化工作台
人类工作台关键功能:
• AI 生成事件的收件箱(咨询请求包、合并就绪包) • 支持团队级协作 • 提供架构影响视图 • 允许有纪律的冗余(多 AI 并行验证)
智能体工作台关键功能:
• 语义搜索、结构化编辑器 • 监控基础设施(检测漏洞、标记意外成本) • 仅将需要人类战略干预的大问题上报
1.3–1.9 结构化工件体系
智能体软件工程的核心是从随意聊聊到按章办事,通过以下工件实现:
| 任务简报 | ||
| 连续性数据包 | ||
| 指导包 | ||
| 工作流程运行手册 | ||
| 咨询请求包 | ||
| 合并就绪包 | ||
| 决议记录 |
1.10–1.12 信任需要强制执行
• 可信性即代码:确定性执行 + 强制执行 + 流程即代码 • 工件是新的工程层,而非"定制化宏" • 非正式协作必须在风险升高时结晶为明确、版本化的结构
1.14 边栏:软件工程谱系
氛围编程 → 氛围工程 → 智能体软件工程(探索) (半结构化) (工程化可靠性)软件工程三个时代:
• SE 1.0:人驱动,经典工具支持标准活动 • SE 2.0:AI 作为副驾驶辅助,人仍掌控循环 • SE 3.0:AI 以机器速度计划、执行、交付;人类注意力成为瓶颈,整个体系必须重构
第 2 章:发挥 AI 队友的力量
2.1 自动化阶梯:工具变身队友
AI 队友的杠杆效应改写劳动力经济学:
• 将许多人从 1 倍提升到 10 倍甚至 100 倍生产力 • 稀缺资源从"击键次数"变为"注意力" • "10 倍效率开发者"从例外变为可工程化的普遍状态
2.4–2.7 四大交互模式集群
集群 A:不知疲倦,不带评判
• 无限迭代,有限循环:利用 AI 持续迭代能力,但设置有限循环防止无止境探索 • 超越完成:不满足于"能跑就行",追求超出规格的质量探索
集群 B:强沟通者
• 草率输入,清晰输出:即使输入不完美,AI 也能产出结构化清晰的输出 • 多画图,少废话:借助 AI 的可视化能力,用图表替代长篇说明 • 可缩放综合:AI 能横跨大量信息进行综合分析
集群 C:广阔的世界知识
• 角色扮演:赋予 AI 特定专家角色,激活其专业知识 • 魔鬼代言人:让 AI 以对立视角挑战假设,压力测试论点
集群 D:复制成本近乎为零
• 并行分解:同时运行多个 AI 探索不同方向 • 可弃式赌注,证据决定:快速构建多个可丢弃原型,用证据选择最优方案
第 3 章:AI 队友的四个悖论
悖论 1:热切悖论(动作越快,理解越浅)
类比:在错误赛车上忙活的 F1 维修站团队
表现:
• 跳过确认,直接实现完整方案 • 低估实现复杂度,用自信填补知识空白 • 宁可猜错也不提问
AI 放大原因:
• 不会在会话间学习教训(无痛苦记忆) • 没有社会压力(浪费时间的成本感知) • 速度倍增器(几小时内将模糊点变成技术债务) • 无限热情(永不疲倦,方向错误也停不下来)
工程应对:强制意图对齐关卡、任务简报前置确认
悖论 2:上下文悖论(提供上下文越多,使用效率反而越低)
类比:只会听导航、不会看地图的司机
表现:
• 47 条规范,应用了与第 7 条矛盾的第 43 条 • 上下文衰减(任务 A 的上下文污染任务 B) • 把安全铁律和格式偏好等量齐观
AI 放大原因:缺乏智慧过滤器、无遗忘曲线、缺失社会校准
工程应对:最小可行上下文、明确优先级分层、隔离兔子洞
悖论 3:隧道视野悖论(局部执行越完美,全局失败越惨)
类比:为站立式办公桌精心打造大师椅的匠人
表现:只顾优化局部,不理解系统边界和集成要求
工程应对:基于属性的验收标准(而非步骤清单)、影响范围评估
悖论 4:学习悖论(经验不积累)
表现:会话间失忆,今天的成功教训明天不存在
工程应对:决议记录、指导包持续更新、外部化机构记忆
第二部分:让随机性 AI 队友值得信赖(保障工程)
第 4 章:任务工程——让意图清晰可验
4.2 核心概念:任务简报即自主权契约
任务简报不是"更好的提示",而是:
• 行动规范:有版本控制、可测试、专为 AI 队友设计 • 意图明确化:防止 AI 自行填空 • 护栏可见化:让验证无从逃避
任务简报必须明确两项关键要求:
1. 自主权边界:能决定什么、必须升级什么、绝对不能碰什么 2. 证据义务:最终必须拿出什么证明(不是"代码看起来没问题")
4.4 六项关键实践
1. 意图对齐 2. 属性控验收 3. 概念计划对齐 4. 自主权边界与指令清晰度 5. 带汇总的迭代精化 6. 基于证据的收尾与合并就绪
4.5 重要模式
4.6 八大反模式
• 跳过意图对齐 • 工单彩票(扔一个任务单就期待完美输出) • 基于氛围的验收 • 金发姑娘范围失控 • 步步为营式计划 • 代码执念 • 完美的错误(方向不对但执行完美) • 简报腐化(简报过时却未更新)
第 5 章:上下文工程——驾驭随机性贡献者的知识
5.2 核心理念:上下文是接口,不是垃圾场
六项关键实践:
1. 播种最小工作集(只给执行任务所需的最少上下文) 2. 执行中主动管理负载 3. 隔离探索(兔子洞与主任务隔离) 4. 压缩而不失治理 5. 跨会话传输"干净"的连续性 6. 有意识地重置
四大模式:
• 最小可行上下文 • 隔离兔子洞 • 压缩,而非删除 • 授之以渔,而非授之以上下文
四大反模式:
• 盲目自动加载 • 上下文囤积症 • 静默压缩 • 静态维基倾泻
第三部分:面向 AI 队友舰队的平台工程
第 6 章:协调工程——防撞与自主流水线
6.2 核心概念:基于决策就绪包的异步协调
根本矛盾:多 AI 并行工作必然产生冲突,传统同步协调在机器速度下无法扩展。
九项关键实践:
1. 设计清晰接缝,减少不必要的并行 2. 执行前向冲突管理器提交计划 3. 在受控的隔离工作空间中执行 4. 用分层就绪状态把关(代码就绪 ≠ 合并就绪 ≠ 集成就绪) 5. 利用 AI 队友原生策略解决集成冲突 6. 在组织各层级协调"协调基础设施" 7. 为自主执行而设计流水线 8. 为智能体交接订立契约 9. 在决策点(而非执行点)设置人工审批
6.6 流水线工程:设计自主多智能体工作流
• 人类是工作流架构师,而非实时调度员 • 常见流水线结构:顺序验证、并行探索、分层委托 • 关键经济逻辑:流水线成本 vs 人工调度成本
七大反模式:
• 合并就绪工作的集成积压 • 无计划并行(共享表面遭殃) • 非结构化的同步协调 • 人在每个循环中 • 隐式交接 • 单体工作流 • 缺乏可观测性的编排
第 7 章:工作台工程——两种模式,两套环境
7.2 核心理念:将人类工作台与 AI 队友工作台分离
根本矛盾:人类认知速度与 AI 执行速度之间的天然不匹配。
八项关键实践:
1. 定义"铺好的路",让数据包成为一等公民 2. 为"一人对多机"构建人类指挥平面 3. 通过差异优先审查、计划台账和精准反馈压缩信任决策 4. 为快速、自给自足的工作构建 AI 队友执行平面 5. 自动化证据捕获以降低信任成本 6. 从设计上让 AI 队友执行工作台安全第一 7. 像运营生产平台一样运营工作台 8. 增设企业指挥中心(舰队可观测性和资源控制)
五大反模式:
• 聊天即 IDE(把聊天窗口当工程环境) • 叙事式审查与模糊反馈 • 工具匮乏与人类复制粘贴循环 • 无成本和健康控制的无限并行 • 默认不安全的执行环境和工具链
第 8 章:能力工程——角色、资质与持续改进
8.2 核心概念:能动性、能力与记忆基底
六项关键实践:
1. 能力校准与角色分配:将任务路由到匹配能力的 AI 队友 2. 作为代码的指导(具有结构和层次): • 指导机制谱系:从概率性指导到确定性脚本 • 关键原则:不应编码认知策略("如何思考"不应写进规则) • 合规差距:概率性指导无法保证必然执行 3. 操作边界与升级矩阵:明确 AI 可自主决策的范围 4. 资格考试与持续认证:证明能力而非假设能力 5. 晋升与恰当的拒绝:根据表现调整任务复杂度 6. 反馈驱动的改进循环与自我改进训练场
五大反模式:
• 无质量控制的定制 • 诗意或详尽的指导方针(过度描述性) • 将能力工程视为可选项 • 用概率性指导约束刚性流程 • 把认知策略写进指导
第 9 章:信任工程——以机器速度实现治理
9.2 信任工程的四大学科
委派工程 → 安全工程 → 问责工程 → 合规工程(上游) (运行时) (追溯) (验证)| 委派工程 | ||
| 安全工程 | ||
| 问责工程 | ||
| 合规工程 |
9.3 可逆世界与委派校准
• 软件开发是异常可逆的世界(Git、容器、IaC) • 可逆性改变委派计算:可逆操作值得更大自主权 • 关键问题转变:从"AI 永不犯错吗?"→ "我的审查与回滚基础设施能发现并纠正错误吗?"
9.4 麦当劳式分层验证
AI 验证应像麦当劳食品安全体系那样分层部署:
9.5 可解释自主性的三份清单
1. SBOM(软件物料清单):交付了什么(组件、依赖) 2. 构建来源证明:如何造出来的(构建过程) 3. 决策追踪:如何做决定的(AI 行为轨迹)
9.7 九项关键实践
1. 风险分级与自主权门控 2. 强制最小权限和工具访问边界 3. 身份感知的信任边界 4. 让审计追踪默认自动生成并冻结 5. 高风险工作的安全论证 6. 分层合规性验证 7. 事件学习循环与治理更新 8. 将重新认证纳入常规操作 9. 由证据驱动的渐进式委托
八大反模式:
• 策略剧场(只是看起来有治理) • 无根之木(政策无法追溯到来源) • 权限蔓延 • YOLO 模式(完全不设限) • 将审批当作主要安全机制 • 声明式合规(只声明不验证) • 错把指导当强制 • 溜溜球式委托(给了再收,反复无常)
第 10 章:语言工程——人、AI 队友与机器共通的媒介
10.1 编写一旦廉价,阅读即成瓶颈
AI 时代的根本变化:代码生产成本趋近于零,阅读、理解、审计成为新瓶颈。
10.9 关键桥梁:从英语意图到可检验的意义
**受限自然语言(EARS)**的价值:
• 将自然语言需求结构化,使其可验证 • 在 AI 工作流中尤为关键:AI 能更准确地执行结构化指令 • 局限:不是万能药,复杂推理仍需其他工具
10.12 面向智能体时代的语言组合拳
编程语言选择成为治理决策,核心维度:
• 安全性:类型系统、内存安全保证(如 Rust) • 可审计性:代码可读性、意图表达清晰度 • 工具生态:静态分析、形式化验证工具链的成熟度
关键趋势:
• 重复代码在 AI 能自动传播变更时,其价值判断发生改变 • 代码成为新的"二进制文件",意义上移一层(向规范/约束层) • 构造安全(correctness by construction)正成为基线
第四部分:前进之路
第 11 章:你的软件工程 3.0 革命,现在发车
11.1 代码从来不是目标
软件工程的四大支柱:
1. 行动者:角色、激励、自主权、责任 2. 流程:工作流、关卡、节奏、协议 3. 工件:需求、设计、测试、代码、运维手册、证据 4. 工具:编译器、CI、分析器、流水线、智能体工具链
AI 队友工具链以工具形式出现,却以行动者方式运作。用管理工具的方式管理它们,必然失败。
11.3 愚人的天堂(最常见错误)
最常见错误:
1. 买下数百套智能体工具链许可证,然后坐等魔法 2. 演示效果震撼,产出激增,然后"信任债务"开始累积 3. 当决策无从追溯、证据缺失,最终变成"用 CI 流水线赌博"
"信任债务"积累的标志:
• "我们为何做这个改动?" → 无从追溯 • "谁批准的?" → 不知道 • "有什么证据证明它是安全的?" → 没有 • "如果它失败了,我们如何管控?" → 不清楚
11.4 工程学的本质就是管理不确定性
核心论断:
• 评判标准不是"AI 是否确定",而是"工程体系能否从随机性贡献者那里催生出信任" • 未来的赢家:不是等完美 AI 的组织,而是懂得从概率性工作构建确定性证据的组织
三层赋能角色:
• 智能体软件工程导师(一线战壕):防止团队把 SE 2.0 习惯带入 3.0 • 首席智能体软件工程导师(运营层面):协调平台、发布、安全、合规、运维 • 智能体软件工程教练(战略层面):弥合一线现实与管理层愿景
关键转变认识:软件工程 3.0 中,决策成为瓶颈,而非代码生产。
11.5 致开发者
• 价值从打字快慢,迁移到约束下的判断力 • 关系从"使唤工具"转变为"亦师亦友" • AI 队友是学员:它们的失败暴露你指导不足 • AI 队友是队友:你提供本土知识,它们提供广度与迭代 • 未来的成功开发者是"混合人机团队的指挥家"
11.6 致技术领导者
• 职责:构建平台,让可信赖的智能体软件工程成为阻力最小的路径 • 提供:经批准的任务简报范式、可复用指导包、自动化证据收集 • SE 3.0 的平台工程 = 打造让信任成本天然低廉的基础设施
11.7 致业务领导者
• 智能体软件工程是结构性跃迁,不是工具推广 • 必须重新思考四大支柱(行动者、流程、工件、工具) • 速度 + 无工程体系 = 自我伤害
11.8 致软件工程教育者与研究者
• 承担关键使命:将这场对话从随意闲聊提升为成熟的工程学科 • 研究重点应包括:AI 队友的可靠性工程、智能体协调机制、证据体系设计
全书核心框架汇总
智能体软件工程 = 工程化从随机性贡献者获取可靠输出
[意图层] 任务简报 + 指导包 + 工作流运行手册 ↓[执行层] AI 队友(随机性贡献者)+ 工具链 ↓[证据层] 合并就绪包 + 咨询请求包 + 决议记录 ↓[验证层] 信任工程(委派/安全/问责/合规) ↓[治理层] 人类判断 + 审计轨迹 + 机构记忆五大工程支柱(第二部分+第三部分)
| 任务工程 | ||
| 上下文工程 | ||
| 协调工程 | ||
| 工作台工程 | ||
| 能力工程 | ||
| 信任工程 | ||
| 语言工程 |
关键引言
"不是要寻找完美的智能体,而是在承认支柱可能以一定概率失效的前提下,借助恰当的约束与证据来构建可靠性。"
"软件工程从来不只是写代码。"
"一个拿着智能体编码工具的傻瓜,仍然是个傻瓜。"
"智能体软件工程不是工程的终结。它是软件工程这门学科,变得比以往任何时候都更加重要的时刻。"
"评判的标准不是 AI 是否确定,而是你的软件工程体系能否从随机性贡献者那里催生出信任。"
夜雨聆风