
AI 编程框架系列第三篇 · 2026 年 4 月
系列回顾:
一个观察
2026 年 3 月,Andrej Karpathy 说了一句话:
"I don't think I've typed like a line of code probably since December"
这不是夸张。如果你看 YC 总裁 Garry Tan(YC 总裁)的 GitHub,2026 年他提交了 1237 次,而 2013 年他全职做 Bookface 时只有 772 次。他写代码更多了,但打字更少了。
怎么做到的?答案是:gstack —— 一套把 AI 编程助手变成虚拟工程团队的技能系统。
gstack是什么?
gstack 是 Garry Tan 开源的一套 Claude Code 技能。刚开始我也以为就是一堆 prompt 模板,用了一段时间后发现它更像是一个工作流程框架。
第一性原理:AI 编程的瓶颈不是生成,是判断
大多数人对 AI 编程的理解停留在:
输入需求 → AI 生成代码 → 复制粘贴 → 运行这个流程有三个问题:
- 需求本身可能是错的—— AI 会忠实地实现一个错误的想法
- 代码能跑不等于能上线—— 缺少架构审查、边界测试、安全审计
- 单次交互无法累积—— 每次都是新对话,没有团队记忆
gstack 的做法是把工程团队的决策流程编码成 28 个技能,每个技能对应一个角色,串成一条完整的流水线:
office-hours → plan → implement → review → QA → ship → retro关键洞察:AI 不缺生成能力,缺的是约束和判断。gstack 的本质是一套"强制思考"的工作流。
完整技能清单:按开发阶段分类
🎯 阶段 1:想明白(Before Coding)
写代码前最重要的事:确认你在解决对的问题。
/office-hours | 产品顾问模式 | |
/plan-ceo-review | 商业角度挑刺 | |
/autoplan | 一键运行完整评审 |
/office-hours 的六个问题(Startup Mode):
需求现实:谁在什么场景下迫切需要? 现状:他们现在怎么解决?为什么现有方案不够好? 极度具体:你能说出一个具体的人名吗? 最窄楔子:最小的可交付价值是什么? 观察与惊喜:有什么反直觉的发现? 未来适配:这个方向 6 个月后还成立吗?
"如果你说不出来一个具体需要你的人,那是写代码前最重要的发现。"
📐 阶段 2:规划(Plan)
把模糊想法变成可执行的工程方案。
/plan-eng-review | 锁定架构 | |
/plan-design-review | 设计评分 | |
/design-consultation | 从零构建设计系统 |
设计文档输出位置:~/.gstack/projects/ —— 后续所有阶段都基于这份文档
💻 阶段 3:写代码(Implement)
边写边审,而不是写完再改。
/review | 找生产环境 bug | |
/investigate | 系统性根因排查 | |
/codex | 独立代码审查 | |
/design-review | 双重审计 | |
/design-shotgun | 生成多个变体 | |
/design-html | 设计稿转 HTML |
🧪 阶段 4:测试(QA)
用真实用户环境测试,不是 Mock 数据。
/qa | 端到端测试 | |
/qa-only | 纯测试报告 | |
/cso | 安全审查 | |
/benchmark | 性能基线测试 |
浏览器工具链:
/browse—— 真实 Chromium 浏览器操作(~100ms/命令)/setup-browser-cookies—— 导入真实浏览器 Cookie,测试登录态页面/open-gstack-browser—— 启动带侧边栏的可见浏览器,实时观看每个操作
🚀 阶段 5:发布(Ship)
上线不是结束,是监控的开始。
/ship | 同步 + 测试 + PR | |
/land-and-deploy | 合并 + 部署 + 验证 | |
/canary | 灰度监控 | |
/document-release | 自动更新文档 | |
/setup-deploy | 一次性配置向导/land-and-deploy 所需的全部配置 |
🛡️ 阶段 6:安全与协作(Safety)
防止 AI 犯错,保护代码库。
/careful | 危险操作预警rm -rf、DROP TABLE、force-push 等操作前强制确认 |
/freeze | 锁定编辑范围 |
/guard | 双重保险/careful + /freeze 同时启用 |
/unfreeze | 解除锁定 |
📊 阶段 7:回顾(Retro)
持续改进,量化成长。
/retro | 周回顾报告 |
/learn | 记忆管理 |
/gstack-upgrade | 自检更新 |
技能不是孤立的:流水线如何工作
gstack 的真正威力在于技能之间的自动传递:
1. /office-hours 输出设计文档↓2. /plan-ceo-review 读取文档,挑战商业假设↓3. /plan-eng-review 锁定技术架构↓4. /autoplan 一键执行以上全部↓5. /review + /qa 边写边测↓6. /ship + /land-and-deploy 上线↓7. /canary 监控线上状态↓8. /retro 周回顾,量化改进
设计文档是核心枢纽,存储在 ~/.gstack/projects/,每个阶段都读取并更新它。
安装与配置(Claude Code)
前置条件
GitHub Copilot CLI(2026 年 2 月 GA 的独立二进制 copilot)Git Bun v1.0+(或 Node.js)
安装步骤
# 1. 克隆 gstack 到技能目录git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack# 2. 运行设置脚本cd ~/.claude/skills/gstack && ./setup# 3. 在项目根目录的 CLAUDE.md 中添加 gstack 配置
CLAUDE.md 配置
## gstackUse /browse from gstack for all web browsing. Never use mcp__claude-in-chrome__* tools.Available skills: /office-hours, /plan-ceo-review, /plan-eng-review, /plan-design-review,/design-consultation, /design-shotgun, /design-html, /review, /ship, /land-and-deploy,/canary, /benchmark, /browse, /open-gstack-browser, /qa, /qa-only, /design-review,/setup-browser-cookies, /setup-deploy, /retro, /investigate, /document-release, /codex,/cso, /autoplan, /pair-agent, /careful, /freeze, /guard, /unfreeze, /gstack-upgrade, /learn.
完整技能列表(28 个):
想明白: /office-hours,/plan-ceo-review,/autoplan规划: /plan-eng-review,/plan-design-review,/design-consultation写代码: /review,/investigate,/codex,/design-review,/design-shotgun,/design-html测试: /qa,/qa-only,/cso,/benchmark发布: /ship,/land-and-deploy,/canary,/document-release,/setup-deploy安全: /careful,/freeze,/guard,/unfreeze回顾: /retro,/learn,/gstack-upgrade工具: /browse,/setup-browser-cookies,/open-gstack-browser
验证安装
/office-hours如果 AI 开始问你 6 个强迫性问题,说明安装成功。
性能数据
Garry 公开了一些数字(2026 年 4 月):
关键不是行数,是杠杆:一个人 + AI 团队 = 传统 10 人工程团队的产出。
局限性与适用场景
适合
- 从 0 到 1 的产品—— 需要快速验证多个方向
- 单人/小团队—— 没有专职 PM/设计/QA
- AI 原生开发—— 接受 AI 生成 + 人工审查的工作流
不适合
- 强合规行业—— 医疗、金融需要人工审计轨迹
- 遗留系统维护—— gstack 假设绿色字段开发
- 不需要 AI 的团队—— 如果已有成熟工程流程,gstack 是过度设计
gstack vs Superpowers:应该选哪个?
核心差异:哲学不同
| 定位 | 决策层+验证层 | 执行层 |
| 核心问题 | ||
| 工作流 | ||
| Token 消耗 | ||
| 适合场景 | ||
| 类比 | 全科诊所 | 手术刀 |
功能覆盖对比
/office-hours/plan-ceo-review | brainstorming | |
/plan-eng-review/autoplan | writing-plans | |
/design-consultation/design-shotgun, /design-html | ||
executing-planssubagent-driven-development | ||
/qa/qa-only | test-driven-development | |
/investigate | systematic-debugging | |
/review/codex | requesting-code-review | |
/cso/careful, /freeze, /guard | ||
/browse/setup-browser-cookies | ||
/benchmark/canary | ||
/ship/land-and-deploy, /document-release | finishing-a-development-branch | |
/retro/learn |
二者如何结合使用,后续我再专门出一期文章讨论。
单独使用 gstack 够吗?
答案是:取决于你的工作类型。
✅ 适合单独使用 gstack 的场景
- 独立开发者/创始人—— 需要产品顾问 + 工程团队一体化
- 从 0 到 1 的产品—— 需求模糊,需要反复审视和重构
- 侧项目/黑客松—— /office-hours的 Builder Mode 非常适合
- 追求质量优先—— 安全审计、浏览器测试、性能基线不可或缺
我的判断:如果你是一个人干活,且产品方向还在探索期,gstack 单独使用完全足够。它提供的 28 个技能覆盖了从想法到上线的全流程,尤其是产品顾问模式(/office-hours)是 Superpowers 没有的。
⚠️ 需要考虑组合使用的场景
- 需求非常清晰的大项目—— gstack 的评审流程可能显得冗长
- 追求极致开发速度—— Superpowers 的 TDD 闭环更快
- 需要多 Agent 并行执行—— Superpowers 的 dispatching-parallel-agents更成熟
我的建议
第一阶段(现在):单独使用 gstack,充分体验它的产品顾问模式和完整工作流。
第二阶段(1-2 个月后):如果发现某些场景 gstack 太慢(比如小需求也要走完整评审),再考虑引入 Superpowers 作为执行层补充。
不要一开始就全装 —— 技能数量失控会导致冲突和不稳定。
gstack 支持的编程工具
官方支持
| Claude Code | ||
| GitHub Copilot CLI | ||
| OpenCode |
如何适配其他 AI 编程工具
gstack 的本质是一组 Markdown 技能文件 + CLAUDE.md 配置。理论上,任何支持以下能力的 AI 编程工具都可以适配:
读取技能文件( .md格式)执行 Shell 命令 读写文件 浏览器自动化(可选,用于 /browse和/qa)
适配步骤:
Step 1: 检查工具的技能系统
# 查看工具的技能加载路径<tool-name> --help | grep -i skill# 常见路径:# - ~/.claude/skills/# - ~/.copilot/skills/# - ~/.opencode/skills/# - 项目根目录/.skills/
Step 2: 克隆 gstack 到正确位置
# 示例:适配 GitHub Copilot CLIgit clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.copilot/skills/gstackcd ~/.copilot/skills/gstack && ./setup# 示例:适配 OpenCodegit clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.opencode/skills/gstackcd ~/.opencode/skills/gstack && ./setup
Step 3: 修改 setup 脚本(如需要)
如果./setup脚本硬编码了 Claude Code 路径,需要修改:# 编辑 setup 脚本nano setup# 修改技能路径变量# 从:SKILLS_DIR="$HOME/.claude/skills"# 改为:SKILLS_DIR="$HOME/.copilot/skills"
Step 4: 配置项目文件
创建或编辑项目的配置文件(名称因工具而异):
## gstackUse /browse from gstack for all web browsing.Available skills: /office-hours, /plan-ceo-review, ...(完整列表)
Step 5: 验证并报告问题
# 测试基础命令<tool-name> /office-hours# 如果失败,检查:# 1. 技能文件是否正确加载# 2. 命令前缀是否正确(/ 还是其他)# 3. 浏览器依赖是否安装
社区适配案例
让 AI 帮你适配
如果你使用的工具不在官方支持列表,可以让 gstack 自己帮你适配:
# 使用 gstack 的 investigate 技能调查适配方案copilot /investigate "如何将 gstack 适配到 XYZ 编程工具?"# 或使用 office-hours 评估适配价值copilot /office-hours "我想把 gstack 用到 XYZ 工具上,值得投入吗?"
参考文档:70-ResearchOS/10-AI-ML/20260414-gstack-适配-GitHub-Copilot-CLI-插件安装说明.md
个人使用感受
用 /office-hours 审视我的英语学习小程序后,AI 给了一个收敛后的产品判断:
"帮助中小学生找到自己的英语薄弱词汇,并通过连续的个性化复现训练提升记忆和留存。"
具体改进方向:
- 首页心智重构:不是展示功能入口,而是回答"今天该背什么 + 为什么"
- 次日留存闭环:学完后明确告知"薄弱词类别 + 今日攻克 + 明日训练 + 不回来的损失"
- 三页核心:诊断页(10-20 题分层)、今日任务页(个性化词单)、复盘页(新错词/高遗忘/已掌握)
这就是 gstack 的价值:它不写代码,它让你少写错代码。
关注后,您还可以免费适用英思乐学大师英文学习小程序。
夜雨聆风