AI编程的控制权该交谁?三大工作流框架终极对决

2025 到 2026 年，社区搞出了三套比较有代表性的模型工作流程的方案：mattpocock/skills（64k stars）、Superpowers（180k stars）和 GSD（60k stars）。它们的目标都一样，让 AI 从"能写代码"进化到"能把事做对"。但思路完全不同，适合的人群也不一样。

下面逐个拆开看看。

mattpocock/skills：轻装上阵的实用派

Matt Pocock（Total TypeScript 作者）在 README 里有句话说得很直白：

"GSD、BMAD 这类框架试图帮你管好整个开发流程，但在这个过程中，它们拿走了你的控制权。"

他的主张很简单：别接管过程，把控制权还给开发者。所以他设计的整个库就围绕三个词：

• 小：每个 Skill 就做一件事，文档通常不超过 50 行
• 可组合：Skill 之间没有强制顺序，想怎么用就怎么用
• 渐进式：不用一次性全盘接受，先挑一个用着

几个值得说的 Skill

Grill-Me：这是最受欢迎的一个Skill。它做的事和superpowers的brainstorming很像，就是AI 对你的需求进行连环追问，每个问题都给推荐答案。但如果某个问题能从代码库找到答案，它就直接去看代码，不会再问你。

grill-with-docs 增强版grill-me，它更狠：追着追着会去检查项目里的术语表（CONTEXT.md），发现你说法和已有术语对不上，直接指出来。还会故意构造边界场景来测试你的概念是否严谨。

其中最有意思的设计是"共享语言"这个理念。比如：

优化前："There's a problem when a lesson inside a section of a course is made 'real' (i.e. given a spot in the file system)"

优化后："There's a problem with the materialization cascade"

你和 AI 共享一套术语后，后面沟通就顺了，代码命名也更一致，连 Token 消耗都省了。

TDD Skill：它有个很明确的反对意见，不要先批量写测试，再批量写实现。那叫"水平切片"，写出来的测试验证的是你"想象的"行为，不是"实际的"行为，在重构的时候很大可能会全挂。

它提出的做法是垂直切片：写一个测试然后写刚好能通过的代码，继续写另一个测试，然后在写这个测试刚好能通过的代码，如此循环。因为你刚写完，你最清楚哪些行为重要、该怎么验证。

Caveman 模式：这个是个特别实用的省token的skill。激活后 AI 的回复从：

"Sure! I'd be happy to help you with that. The issue you're experiencing is likely caused by..."

变成：

"Bug in auth middleware. Token expiry check use < not <=. Fix:"

去掉客套话和填充词，保留全部技术精度。Token 能省 75% 左右，一天下来成本差别不小。

Superpowers：自动化流水线

Superpowers 的思路跟 Matt 完全相反：好的开发流程应该自动触发，你不需要操心。

从你开始写代码那一刻它就介入了：

1. 看到你在构建东西 → 不急着写代码 → 先问你到底想做什么
2. 从对话中提炼出规格文档 → 一段段给你确认
3. 设计确认后 → 生成实现计划（细到"一个新手工程师能看懂"）
4. 你说"go" → 启动 Subagent-Driven Development，每个任务交给独立子 Agent
5. 完成前自动跑验证 → 没过不让提交

Subagent-Driven Development

这是 Superpowers 最有意思的设计。它不是让一个 AI 从头写到尾，而是把计划拆成小任务，每个任务启动一个独立子 Agent。子 Agent 干完活，经过两轮审查（看符不符合规范、看代码质量行不行），才能进入下一个任务。

好处很明显：每个任务有独立上下文，不会因为对话太长质量下降；AI 可以自己干好几个小时不跑偏；你只在任务开始前和完成后检查就行。

Brainstorming 里的硬门控

Superpowers 在需求澄清环节设了个硬规矩：不管方案多简单，必须经过设计确认才能写代码。一个 TODO 列表、一个单函数工具、一个配置修改，都得走这个流程。

"简单项目"的文档可以只有几句话，但必须写出来、必须确认。这避免了 AI 闷头写了一堆，结果方向完全跑偏的问题。

GSD：分阶段执行解决上下文腐化

GSD（Get Shit Done）解决的是 AI 编程最容易踩的三个坑：

• 上下文腐烂：对话越长，AI 质量越差，前面做过的决定后面全忘了
• 会话失忆：每次新会话从零开始，你得反复解释同样的背景
• 复杂度失控：一个函数没问题，跨几十个文件的多阶段功能就协调不了

GSD 的解法：把工作切成阶段，每个阶段用全新的上下文执行。上下文永远不会腐烂，因为它从来不会积累到超出当前任务需要的量。

三套体系怎么选

直接说结论：

日常开发、小修小改 → mattpocock/skills

修个 Bug、加个小功能，用 diagnose 或 grill-me 就够。不需要启动一整套工作流，轻量快速。开 caveman 模式还能省 Token。

中型功能、一个人搞定 → Superpowers

加一个完整的用户系统、重构一个模块，用 Superpowers 的 SDD 模式。AI 自己拆任务、自己执行、自己审查，你在关键节点审核就行，能省很多精力。

长期大项目、团队协作 → GSD

一个要开发几个月的产品，用 GSD 的分阶段执行。每次会话都有完整上下文，不会因为对话太长质量下降。

Token 敏感 → mattpocock/skills + caveman 模式

caveman 模式能省 75% 的 Token，成本压力大的话很香。

对比总结

三个框架的核心区别就一句话：

• mattpocock/skills：给你工具，让你自己决定怎么用
• Superpowers：把流程自动化到你几乎不用操心
• GSD：分阶段执行，各种中间文档满足大型项目要求

控制权在开发者手里的代价是你要自己搭配，在 AI 手里的代价是不够灵活，在两端共享的代价是架构更复杂。

Vibe coding 没有银弹，选用哪个看你的项目规模、Token 预算和你对"掌控感"的需求。