AI编程框架系列:gstack把 AI 编程助手变成一支工程团队

AI 编程框架系列第三篇 · 2026 年 4 月

系列回顾：
第一篇：AI编程框架系列：OpenSpec—存量系统微创外科手术刀
第二篇：AI编程框架系列：Superpowers 让 AI 编程变为企业级开发流程

一个观察

2026 年 3 月，Andrej Karpathy 说了一句话：

"I don't think I've typed like a line of code probably since December"

这不是夸张。如果你看 YC 总裁 Garry Tan（YC 总裁）的 GitHub，2026 年他提交了 1237 次，而 2013 年他全职做 Bookface 时只有 772 次。他写代码更多了，但打字更少了。

怎么做到的？答案是：gstack —— 一套把 AI 编程助手变成虚拟工程团队的技能系统。

gstack是什么？

gstack 是 Garry Tan 开源的一套 Claude Code 技能。刚开始我也以为就是一堆 prompt 模板，用了一段时间后发现它更像是一个工作流程框架。

第一性原理：AI 编程的瓶颈不是生成，是判断

大多数人对 AI 编程的理解停留在：

输入需求 → AI 生成代码 → 复制粘贴 → 运行

这个流程有三个问题：

需求本身可能是错的—— AI 会忠实地实现一个错误的想法
代码能跑不等于能上线—— 缺少架构审查、边界测试、安全审计
单次交互无法累积—— 每次都是新对话，没有团队记忆

gstack 的做法是把工程团队的决策流程编码成 28 个技能，每个技能对应一个角色，串成一条完整的流水线：

office-hours → plan → implement → review → QA → ship → retro

关键洞察：AI 不缺生成能力，缺的是约束和判断。gstack 的本质是一套"强制思考"的工作流。

完整技能清单：按开发阶段分类

🎯 阶段 1：想明白（Before Coding）

写代码前最重要的事：确认你在解决对的问题。

命令	角色	核心作用
`/office-hours`	YC 合伙人	产品顾问模式。用六个强迫性问题逼你重新审视需求。输出：重构后的产品定义
`/plan-ceo-review`	CEO/创始人	商业角度挑刺。四种模式：扩张、选择性扩张、保持范围、收缩。找到 10 倍产品切入点
`/autoplan`	评审流水线	一键运行完整评审。CEO → 设计 → 工程评审自动执行，只把品味决策交给你确认

/office-hours 的六个问题（Startup Mode）：

需求现实：谁在什么场景下迫切需要？
现状：他们现在怎么解决？为什么现有方案不够好？
极度具体：你能说出一个具体的人名吗？
最窄楔子：最小的可交付价值是什么？
观察与惊喜：有什么反直觉的发现？
未来适配：这个方向 6 个月后还成立吗？

"如果你说不出来一个具体需要你的人，那是写代码前最重要的发现。"

📐 阶段 2：规划（Plan）

把模糊想法变成可执行的工程方案。

命令	角色	核心作用
`/plan-eng-review`	工程经理	锁定架构。输出：架构图、数据流、边界条件、测试策略、隐藏假设清单
`/plan-design-review`	高级设计师	设计评分。每个维度 0-10 分，解释什么是 10 分，编辑方案达到 10 分。检测 AI 生成的"slop"（看着还行但经不起推敲的设计）
`/design-consultation`	设计伙伴	从零构建设计系统。研究竞品、提出创意风险、生成真实原型

设计文档输出位置：~/.gstack/projects/ —— 后续所有阶段都基于这份文档

💻 阶段 3：写代码（Implement）

边写边审，而不是写完再改。

命令	角色	核心作用
`/review`	资深工程师	找生产环境 bug 。自动修复简单问题，复杂问题会问你。关注：并发竞争、缓存一致性、API 限流
`/investigate`	调试专家	系统性根因排查。铁律：不调查不修复。追踪数据流、测试假设、3 次失败后停止
`/codex`	第二意见	独立代码审查。使用 OpenAI Codex CLI，三种模式：审查（通过/失败门禁）、对抗性挑战、开放咨询
`/design-review`	设计师 + 工程师	双重审计。80 项视觉检查 + 自动修复循环，原子化提交，前后对比截图
`/design-shotgun`	设计探索者	生成多个变体。4-6 个 AI 设计稿，浏览器对比板收集反馈，迭代优化。品味记忆学习你的偏好
`/design-html`	设计工程师	设计稿转 HTML 。生产级 Pretext 原生 HTML，30KB 零依赖，检测 React/Svelte/Vue，可直接上线

🧪 阶段 4：测试（QA）

用真实用户环境测试，不是 Mock 数据。

命令	角色	核心作用
`/qa`	QA 主管	端到端测试。打开真实浏览器点击测试，发现 bug 自动修复，为每个修复生成回归测试
`/qa-only`	QA 报告员	纯测试报告。只报告不修改代码，适合代码冻结期
`/cso`	首席安全官	安全审查。运行 OWASP Top 10 + STRIDE 威胁模型审计
`/benchmark`	性能工程师	性能基线测试。监控 Core Web Vitals，建立性能基线，检测回退

浏览器工具链：

/browse—— 真实 Chromium 浏览器操作（~100ms/命令）
/setup-browser-cookies—— 导入真实浏览器 Cookie，测试登录态页面
/open-gstack-browser—— 启动带侧边栏的可见浏览器，实时观看每个操作

🚀 阶段 5：发布（Ship）

上线不是结束，是监控的开始。

命令	角色	核心作用
`/ship`	发布工程师	同步 + 测试 + PR 。同步主分支、运行测试、审计覆盖率、推送、开 PR
`/land-and-deploy`	发布工程师	合并 + 部署 + 验证。合并 PR、等待 CI、部署、验证线上状态
`/canary`	SRE	灰度监控。检查控制台错误、性能回退、自动回滚阈值
`/document-release`	技术作家	自动更新文档。同步最新改动到所有项目文档
`/setup-deploy`	部署配置员	一次性配置向导。设置 `/land-and-deploy` 所需的全部配置

🛡️ 阶段 6：安全与协作（Safety）

防止 AI 犯错，保护代码库。

命令	核心作用
`/careful`	危险操作预警。`rm -rf`、`DROP TABLE`、`force-push` 等操作前强制确认
`/freeze`	锁定编辑范围。防止 AI 越界修改未授权目录
`/guard`	双重保险。`/careful` + `/freeze` 同时启用
`/unfreeze`	解除锁定。恢复自由编辑

📊 阶段 7：回顾（Retro）

持续改进，量化成长。

命令	核心作用
`/retro`	周回顾报告。统计代码量、测试健康度、成长机会。支持多项目全局回顾
`/learn`	记忆管理。管理 gstack 跨会话学习的内容
`/gstack-upgrade`	自检更新。升级到最新版本

技能不是孤立的：流水线如何工作

gstack 的真正威力在于技能之间的自动传递：

1. /office-hours 输出设计文档         ↓2. /plan-ceo-review 读取文档，挑战商业假设         ↓3. /plan-eng-review 锁定技术架构         ↓4. /autoplan 一键执行以上全部         ↓5. /review + /qa 边写边测         ↓6. /ship + /land-and-deploy 上线         ↓7. /canary 监控线上状态         ↓8. /retro 周回顾，量化改进

设计文档是核心枢纽，存储在 ~/.gstack/projects/，每个阶段都读取并更新它。

安装与配置（Claude Code）

前置条件

GitHub Copilot CLI（2026 年 2 月 GA 的独立二进制 copilot）
Git
Bun v1.0+（或 Node.js）

安装步骤

# 1. 克隆 gstack 到技能目录git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack# 2. 运行设置脚本cd ~/.claude/skills/gstack && ./setup# 3. 在项目根目录的 CLAUDE.md 中添加 gstack 配置

CLAUDE.md 配置

## gstackUse /browse from gstack for all web browsing. Never use mcp__claude-in-chrome__* tools.Available skills: /office-hours, /plan-ceo-review, /plan-eng-review, /plan-design-review,/design-consultation, /design-shotgun, /design-html, /review, /ship, /land-and-deploy,/canary, /benchmark, /browse, /open-gstack-browser, /qa, /qa-only, /design-review,/setup-browser-cookies, /setup-deploy, /retro, /investigate, /document-release, /codex,/cso, /autoplan, /pair-agent, /careful, /freeze, /guard, /unfreeze, /gstack-upgrade, /learn.

完整技能列表（28 个）：

想明白：/office-hours, /plan-ceo-review, /autoplan
规划：/plan-eng-review, /plan-design-review, /design-consultation
写代码：/review, /investigate, /codex, /design-review, /design-shotgun, /design-html
测试：/qa, /qa-only, /cso, /benchmark
发布：/ship, /land-and-deploy, /canary, /document-release, /setup-deploy
安全：/careful, /freeze, /guard, /unfreeze
回顾：/retro, /learn, /gstack-upgrade
工具：/browse, /setup-browser-cookies, /open-gstack-browser

验证安装

 /office-hours

如果 AI 开始问你 6 个强迫性问题，说明安装成功。

性能数据

Garry 公开了一些数字（2026 年 4 月）：

指标	数值
60 天生产代码	60 万 + 行（35% 是测试）
日均输出	1-2 万行/天
并行 Sprint	10-15 个同时运行
工作状态	全职运行 YC，兼职写代码

关键不是行数，是杠杆：一个人 + AI 团队 = 传统 10 人工程团队的产出。

局限性与适用场景

适合

从 0 到 1 的产品—— 需要快速验证多个方向
单人/小团队—— 没有专职 PM/设计/QA
AI 原生开发—— 接受 AI 生成 + 人工审查的工作流

不适合

强合规行业—— 医疗、金融需要人工审计轨迹
遗留系统维护—— gstack 假设绿色字段开发
不需要 AI 的团队—— 如果已有成熟工程流程，gstack 是过度设计

gstack vs Superpowers：应该选哪个？

核心差异：哲学不同

维度	gstack	Superpowers
定位	决策层+验证层（想清楚再动手+真实验证）	执行层（高效把代码写完）
核心问题	What & Why（做什么、为什么）	How（怎么做）
工作流	多角色评审（CEO/设计/工程/QA/安全）	单一闭环（澄清→计划→TDD→验证）
Token 消耗	高（全量启用 10K+ tokens）	中（按需调用）
适合场景	需求模糊、需要产品重构	需求清晰、直接开干
类比	全科诊所（从诊断到治疗后）	手术刀（精准高效）

功能覆盖对比

能力	gstack	Superpowers
产品头脑风暴	`/office-hours` , `/plan-ceo-review`	`brainstorming`
架构规划	`/plan-eng-review` , `/autoplan`	`writing-plans`
设计系统	`/design-consultation` , `/design-shotgun`, `/design-html`	❌
代码执行	❌	`executing-plans` , `subagent-driven-development`
测试驱动	`/qa` , `/qa-only`	`test-driven-development`
调试	`/investigate`	`systematic-debugging`
代码审查	`/review` , `/codex`	`requesting-code-review`
安全审计	`/cso` , `/careful`, `/freeze`, `/guard`	❌
浏览器测试	`/browse` , `/setup-browser-cookies`	❌
性能监控	`/benchmark` , `/canary`	❌
发布部署	`/ship` , `/land-and-deploy`, `/document-release`	`finishing-a-development-branch`
周回顾	`/retro` , `/learn`	❌

二者如何结合使用，后续我再专门出一期文章讨论。

单独使用 gstack 够吗？

答案是：取决于你的工作类型。

✅ 适合单独使用 gstack 的场景

独立开发者/创始人—— 需要产品顾问 + 工程团队一体化
从 0 到 1 的产品—— 需求模糊，需要反复审视和重构
侧项目/黑客松—— /office-hours的 Builder Mode 非常适合
追求质量优先—— 安全审计、浏览器测试、性能基线不可或缺

我的判断：如果你是一个人干活，且产品方向还在探索期，gstack 单独使用完全足够。它提供的 28 个技能覆盖了从想法到上线的全流程，尤其是产品顾问模式（/office-hours）是 Superpowers 没有的。

⚠️ 需要考虑组合使用的场景

需求非常清晰的大项目—— gstack 的评审流程可能显得冗长
追求极致开发速度—— Superpowers 的 TDD 闭环更快
需要多 Agent 并行执行—— Superpowers 的 dispatching-parallel-agents更成熟

我的建议

第一阶段（现在）：单独使用 gstack，充分体验它的产品顾问模式和完整工作流。
第二阶段（1-2 个月后）：如果发现某些场景 gstack 太慢（比如小需求也要走完整评审），再考虑引入 Superpowers 作为执行层补充。
不要一开始就全装 —— 技能数量失控会导致冲突和不稳定。

gstack 支持的编程工具

官方支持

工具	状态	说明
Claude Code	✅ 原生支持	gstack 的原始目标平台
GitHub Copilot CLI	✅ 官方支持	2026 年 2 月 GA 后，gstack Issue #393 添加支持
OpenCode	⚠️ 社区适配	需要修改技能路径配置

如何适配其他 AI 编程工具

gstack 的本质是一组 Markdown 技能文件 + CLAUDE.md 配置。理论上，任何支持以下能力的 AI 编程工具都可以适配：

读取技能文件（.md 格式）
执行 Shell 命令
读写文件
浏览器自动化（可选，用于 /browse 和 /qa）

适配步骤：

Step 1: 检查工具的技能系统

# 查看工具的技能加载路径<tool-name> --help | grep -i skill# 常见路径：# - ~/.claude/skills/# - ~/.copilot/skills/# - ~/.opencode/skills/# - 项目根目录/.skills/

Step 2: 克隆 gstack 到正确位置

# 示例：适配 GitHub Copilot CLIgit clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.copilot/skills/gstackcd ~/.copilot/skills/gstack && ./setup# 示例：适配 OpenCodegit clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.opencode/skills/gstackcd ~/.opencode/skills/gstack && ./setup

Step 3: 修改 setup 脚本（如需要）

如果 ./setup 脚本硬编码了 Claude Code 路径，需要修改：# 编辑 setup 脚本nano setup# 修改技能路径变量# 从：SKILLS_DIR="$HOME/.claude/skills"# 改为：SKILLS_DIR="$HOME/.copilot/skills"

Step 4: 配置项目文件

创建或编辑项目的配置文件（名称因工具而异）：

## gstackUse /browse from gstack for all web browsing.Available skills: /office-hours, /plan-ceo-review, ...（完整列表）

Step 5: 验证并报告问题

# 测试基础命令<tool-name> /office-hours# 如果失败，检查：# 1. 技能文件是否正确加载# 2. 命令前缀是否正确（/ 还是其他）# 3. 浏览器依赖是否安装

社区适配案例

工具	适配难度	备注
Claude Code	✅ 原生	零配置
GitHub Copilot CLI	✅ 官方	Issue #393 已支持
OpenCode	🟡 中等	需修改技能路径
Cursor	🟡 中等	需启用技能系统
Windsurf	🟡 中等	需配置技能目录
Zed AI	🔴 困难	技能系统不兼容

让 AI 帮你适配

如果你使用的工具不在官方支持列表，可以让 gstack 自己帮你适配：

# 使用 gstack 的 investigate 技能调查适配方案copilot /investigate "如何将 gstack 适配到 XYZ 编程工具？"# 或使用 office-hours 评估适配价值copilot /office-hours "我想把 gstack 用到 XYZ 工具上，值得投入吗？"

参考文档：70-ResearchOS/10-AI-ML/20260414-gstack-适配-GitHub-Copilot-CLI-插件安装说明.md

个人使用感受

用 /office-hours 审视我的英语学习小程序后，AI 给了一个收敛后的产品判断：

"帮助中小学生找到自己的英语薄弱词汇，并通过连续的个性化复现训练提升记忆和留存。"

具体改进方向：

首页心智重构：不是展示功能入口，而是回答"今天该背什么 + 为什么"
次日留存闭环：学完后明确告知"薄弱词类别 + 今日攻克 + 明日训练 + 不回来的损失"
三页核心：诊断页（10-20 题分层）、今日任务页（个性化词单）、复盘页（新错词/高遗忘/已掌握）

这就是 gstack 的价值：它不写代码，它让你少写错代码。

我是北山，在数据与AI领域深耕了20年，专注分享最新AI落地实践与前沿思考。如果本文对您有启发，欢迎点赞 + 关注本公众号。

关注后，您还可以免费适用英思乐学大师英文学习小程序。