AI Agent 时代的软件工程方法论 —— Matt Pocock Skills 全景解析

当 AI Agent 开始承担编码工作时，软件工程的经典阶段并没有消失，而是被重新映射为一套可编排的 Skill 指令。本文从软件工程全生命周期视角，系统解析 mattpocock/skills 仓库中的工程化 Skill 体系。

一、Skill 分类总览表

软件工程阶段	Skill 名称	核心作用	关键输出
环境配置	`setup-matt-pocock-skills`	搭建工程化基础设施：配置 Issue Tracker、Triage 标签词汇表、Domain Docs 布局	`AGENTS.md` / `CLAUDE.md`、`docs/agents/`
需求澄清	`grill-me`	relentlessly 质询用户的计划/设计，逐条解决决策树分支，达成共享理解	澄清后的需求假设 + 推荐决策
需求对齐	`grill-with-docs`	在 `grill-me` 基础上增加领域模型约束：对照 `CONTEXT.md` 术语表挑战模糊用语，实时更新 ADR	同步更新的 `CONTEXT.md`、关键 ADR
需求文档化	`to-prd`	将对话上下文与代码库现状综合，输出结构化 PRD 并发布到 Issue Tracker	PRD Issue（含 Problem/Solution/User Stories/Implementation/Testing/Out of Scope）
架构设计	`improve-codebase-architecture`	基于 `CONTEXT.md` 和 `docs/adr/` 识别架构摩擦，提出"深度模块"重构机会	候选重构清单（按 Locality + Leverage 评估）
全局理解	`zoom-out`	在陌生代码区域上升一层抽象，用领域词汇绘制模块与调用者全景地图	模块关系图 + 领域术语映射
原型验证	`prototype`	构建可丢弃的原型回答两类问题：逻辑/状态模型是否正确，或 UI 应该长什么样	终端交互原型或 URL 参数切换的 UI 变体
开发实现	`tdd`	测试驱动开发，以 Tracer Bullet 垂直切片方式 red-green-refactor，禁止水平切片	行为驱动的集成测试 + 通过测试的实现
代码审查	`review`	双轴并行审查：Standards（是否符合编码规范）+ Spec（是否符合原始需求）	Standards 报告 + Spec 报告
任务拆解	`to-issues`	将 PRD/计划拆分为独立可执行的 Vertical Slice Issues（Tracer Bullet 粒度）	带依赖关系、验收标准的 Issue 列表
Issue 管理	`triage`	驱动 Issue 状态机：needs-triage → needs-info → ready-for-agent / ready-for-human / wontfix	带标签的 Issue + Agent Brief / Triage Notes
缺陷诊断	`diagnose`	系统化 Bug 诊断六阶段：reproduce → minimise → hypothesise → instrument → fix → regression-test	修复方案 + 回归测试 + 事后分析
上下文交接	`handoff`	将当前会话压缩为 Handoff 文档，使新 Agent 能无损耗接续工作	`handoff-XXXXXX.md` + 推荐后续 Skill

二、从软件工程视角的深度解析

2.1 需求工程：从模糊意图到可执行文档

传统软件工程中，需求阶段最大的风险是"意图丢失"——用户想的是 A，产品经理理解成 B，开发者做成 C。Matt Pocock 设计了三层递进机制来对抗这种熵增：

grill-me → grill-with-docs → to-prd

grill-me 是纯认知层的澄清工具。它不依赖任何项目上下文，只是 relentlessly 地质询用户："你所说的 'account' 是指 Customer 还是 User？" 这种苏格拉底式的追问，本质上是在建立共享心智模型（Shared Mental Model）。
grill-with-docs 引入领域约束层。它要求代码库中已经存在 CONTEXT.md（领域词汇表）和 docs/adr/（架构决策记录）。当用户使用的术语与词汇表冲突时，它会立即叫停："你的词汇表将 'cancellation' 定义为 X，但你似乎在表达 Y——到底是哪个？" 更关键的是，它会在对话过程中实时更新文档，确保领域知识不会停留在对话上下文中，而是沉淀为可追溯的上下文文件。
to-prd 是文档固化层。它将对话中达成的共识转化为结构化的 PRD，并直接发布到 Issue Tracker。其模板设计体现了工程严谨性：Problem Statement（用户视角的问题）→ Solution（用户视角的解决方案）→ 详尽的 User Stories → Implementation Decisions（不含具体文件路径，避免快速过时）→ Testing Decisions → Out of Scope。这种结构直接对应了 IEEE 830 软件需求规格说明的核心要素，但以更轻量、更 AI-native 的方式呈现。

2.2 架构设计：追求"深度模块"而非"浅层抽象"

improve-codebase-architecture 和 zoom-out 共同构成了一个反直觉的架构设计哲学：好的架构不是拆得更细，而是让每个模块更深。

这套 Skill 体系引入了一套严格的词汇表：

Module：任何具有 Interface 和 Implementation 的单元
Depth：接口背后的行为杠杆——小接口、大实现 = Deep；大接口、小实现 = Shallow
Seam：接口所在的位置，行为可以在不修改原代码的情况下被替换
Deletion Test：想象删除这个模块，如果复杂度消失了，说明它只是透传；如果复杂度分散到了 N 个调用方，说明它在承担真正的职责

zoom-out 解决的是认知局部性问题。当开发者在陌生代码区域工作时，AI 被要求"上升一层抽象"，用领域词汇（而非文件路径或类名）绘制模块地图。这与传统架构评审中的"走查"（Walkthrough）异曲同工，但由 AI 自动完成。

improve-codebase-architecture 则更进一步，它要求 AI 在提出重构建议时，必须先阅读领域词汇表和 ADR，确保建议不会与已有决策冲突。如果某个重构机会确实与旧 ADR 矛盾，它需要明确标注："这与 ADR-0007 冲突——但由于以下摩擦点，值得重新讨论。" 这种纪律性避免了 AI 在缺乏上下文的情况下提出"天真的重构"。

2.3 原型验证：用可丢弃代码降低设计风险

prototype 的设计体现了"精益创业"思想在软件工程中的映射：在投入正式实现前，用最快速度、最低成本验证关键假设。

它强制要求区分两类问题：

逻辑/状态模型问题 → 构建可交互的终端应用，推动状态机遍历那些"纸面上难以推理"的边界情况
UI/UX 问题 → 生成多个截然不同的视觉变体，通过 URL 参数切换，让用户在真实交互中做选择

原型规则极具工程纪律性：

从第一天起就标记为"可丢弃"
一键运行，无额外认知负担
默认无持久化，状态仅存于内存
跳过所有抛光（无测试、无错误处理、无抽象）
完成后必须删除或吸收，不允许在仓库中腐烂

这与传统软件工程中"Spike"（技术探针）实践完全一致，但 Skill 化后确保了每次原型的执行标准不会因人而异的下降。

2.4 开发实现：垂直切片的 TDD

tdd Skill 的最大贡献不是推广 TDD，而是明确禁止了"水平切片"这一反模式。

传统 TDD 的误用方式是：先写所有测试（RED），再写所有实现（GREEN）。这被称为"水平切片"，它导致测试验证的是"想象中的行为"而非"实际的行为"，测试对真实变化不敏感——行为破坏时测试通过，行为正常时测试失败。

Matt Pocock 的解决方案是Tracer Bullet 垂直切片：

每个切片都是一个完整的端到端行为：写一个测试 → 写最小实现 → 测试通过 → 下一个。测试必须：

描述行为而非实现
仅通过公共接口验证
在内部重构后仍能存活

这种工作方式本质上是在用短反馈循环替代长周期计划，与敏捷软件工程中的"迭代与增量"核心价值观完全一致。

2.5 代码审查：双轴并行审查模型

review Skill 引入了一种极具工程价值的审查范式：将 Standards（规范符合性）和 Spec（需求符合性）作为两个独立正交轴并行审查。

为什么必须分开？因为一个变更可能在一个轴上通过、在另一个轴上失败：

代码完美遵循了所有规范，但实现了错误的东西 → Standards 通过，Spec 失败
代码精确实现了需求，但破坏了项目约定 → Spec 通过，Standards 失败

如果合并审查，一个轴的发现可能掩盖另一个轴的问题。通过并行子代理（parallel sub-agents）分别执行，最终报告并置呈现，确保了审查的完整性。

这种设计与传统软件工程中的 Fagan Inspection（分角色审查：Moderator、Reader、Tester、Developer）有相同的基因——专业化分工提升审查质量，只是在这里分工被映射给了两个独立的 AI 代理。

2.6 任务与缺陷管理：状态机驱动的确定性流程

to-issues、triage 和 diagnose 覆盖了软件工程中最容易被 AI 工具忽略的"流程纪律"环节。

to-issues：Tracer Bullet 的任务拆解

它将 PRD 拆解为"Tracer Bullet Issues"——每个 Issue 是一个薄薄的垂直切片，贯穿所有集成层（schema → API → UI → tests），而不是某一个水平层。这确保了：

每个完成的切片都是可演示/可验证的
偏好 AFK（无人值守）切片而非 HITL（需人工介入）切片
依赖关系明确，按依赖顺序发布

triage：状态机而非自由文本

它将 Issue 管理严格定义为状态机流转：

每个 Issue 必须携带恰好一个 category role（bug / enhancement）和一个 state role。对于 ready-for-agent 状态，系统会附加一个"Agent Brief"——包含足够上下文的执行摘要，确保 AFK Agent 无需额外提问即可开工。这与传统 Scrum 中的"Definition of Ready"完全对应。

diagnose：六阶段纪律

这是整个 Skill 体系中最具临床精确性的流程：

Build a feedback loop — 这是最关键的一步。没有快速、确定性的通过/失败信号，任何调试都是徒劳。Skill 列出了 10 种构建反馈循环的方法，从单元测试到 git bisect run 自动化。
Reproduce — 确认失败模式与用户描述一致
Hypothesise — 生成 3-5 个可证伪的排序假设，每个必须有预测性陈述："如果 X 是原因，那么 Y 会让 Bug 消失"
Instrument — 每次只改变一个变量，优先使用调试器而非日志
Fix + regression test — 先写回归测试（如果存在正确的 seam），再应用修复
Cleanup + post-mortem — 清理所有 [DEBUG-...] 标记，追问"什么能预防这个 Bug"

如果修复揭示了架构层面的问题（没有好的测试 seam、调用方纠缠、隐藏耦合），它会明确将信息 handoff 给 improve-codebase-architecture，形成缺陷驱动架构改进的闭环。

2.7 上下文管理：跨越会话的认知连续性

handoff Skill 解决的是 AI Agent 时代一个全新但根本性的问题：会话边界的认知丢失。

当人类开发者下班时，他的大脑不会格式化；但当一个 AI Agent 会话结束时，所有上下文都消失了。下一个 Agent 从零开始，不得不重新阅读代码、重新理解需求、重新建立心智模型。

handoff 要求将当前会话压缩为一份文档，保存到临时路径，并明确建议下一个会话应使用的 Skill。它的核心纪律是：不要重复其他工件（PRD、计划、ADR、Issue、Commit、Diff）中已经捕获的内容，而是引用它们的路径或 URL。

这与传统软件工程中"交接文档"（Handoff Document）或"项目维基"的理念一致，但针对 AI Agent 的认知特点做了优化——它假设读者是另一个 AI，因此强调可执行的引用而非叙述性的总结。

三、底层设计哲学：四个贯穿始终的原则

原则	体现
深度优于广度	Deep Module（小接口、大实现）、Vertical Slice（薄而完整的端到端切片）
文档即代码	`CONTEXT.md` 是领域词汇表（glossary），ADR 是架构决策记录，两者被 Skill 强制读取和更新
反馈循环至上	TDD 的 red-green-refactor、Diagnose 的反馈循环构建、Prototype 的快速假设验证
人机协作分层	HITL（需人类判断）与 AFK（Agent 自主执行）的明确区分，`triage` 状态机中的 `ready-for-agent` vs `ready-for-human`

四、总结：一套面向 AI 的软件工程操作系统

Matt Pocock 的 Skills 体系并非简单地将传统软件工程实践"AI 化"，而是重新思考了当执行者变成 AI 时，哪些环节需要被显式化、哪些纪律需要被强制执行。

传统软件工程中，很多最佳实践依赖人的自觉和经验：

需求澄清依赖产品经理的沟通技巧
架构设计依赖架构师的直觉
代码审查依赖审查者的领域知识
Bug 诊断依赖工程师的系统思维

在 AI Agent 时代，这些"软技能"被转化为可编排、可验证、可复现的确定性流程。每个 Skill 都是一个"认知子程序"，有明确的输入、输出、前置条件和后置条件。

这套体系的真正价值在于可组合性：你可以从grill-with-docs开始澄清需求，用to-prd固化文档，通过prototype验证关键假设，用to-issues拆解任务，让triage管理状态，由tdd驱动实现，经review双轴审查，最终用handoff将会话交接给下一个 Agent。整个流程环环相扣，形成一条从意图到代码的确定性管道。

对于正在构建 AI 辅助开发工作流的团队而言，这套 Skill 体系不仅是一套提示词模板，更是一份AI 时代软件工程的方法论宣言。

参考仓库：mattpocock/skills