一个人的软件工厂:Garry Tan 的 gstack 开发工具集详解与上手指南

凌晨一点多，我刷到一条推特。

Andrej Karpathy 说自己从去年十二月到现在，基本没写过几行代码。OpenAI 的创始人之一，前 Tesla AI 总监，说这话。

我当时愣了一下。然后点开了他提到的工具——gstack。

大概看了半小时吧。我倒了杯水回来，又看了一遍。

66,154 个 star。Garry Tan，YC 的 CEO，一个人在六十天里写了六十万行生产代码。35% 是测试。每天一万到两万行。业余时间。同时还在全职运营 Y Combinator。

这不是一个 AI 辅助工具。这是一个完整的虚拟工程团队。

什么是 gstack？

gstack 是 Garry Tan 开源的 Claude Code 配置工具集。

说得更直白一点：它把一个 AI 助手变成了一支二十人的团队——CEO 负责产品思考，设计总监负责视觉，工程经理负责架构，QA 负责测试，安全官负责审计，发布工程师负责上线。

每个角色都是一个独立的"技能"（skill），用斜杠命令调用。/office-hours 是 YC 风格的产品讨论，/plan-ceo-review 从创始人视角重新审视需求，/design-shotgun 生成多个设计变体供你选择，/review 做代码审查，/qa 用真实浏览器测试你的应用，/ship 一键发布。

整个工作流是：思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 复盘。

gstack工作流程图

这是 Garry Tan 二十年产品经验的外化。他把自己怎么构建产品的流程，拆成了二十三个可执行的模块。

核心功能详解

gstack技能矩阵

产品思考：/office-hours

这是每件事的起点。

你告诉它你想做什么。它不会立刻开始写代码。它会问你六个问题——真实场景是什么？现状有多痛苦？你能举一个具体的例子吗？最窄的切入点是什么？你观察到了什么反常识的东西？

你说想做一个"日程摘要应用"。它听完你的痛点描述后会说："我觉得你真正需要的不是摘要工具，而是一个个人首席参谋 AI。"

然后它会提取出你没意识到的五个核心能力：

● 跨账户监控日历，检测过期信息和缺失地点

● 生成真正的准备材料——不是物流摘要，而是会议的知识储备

● 管理 CRM——你在见谁，关系如何，他们想要什么

● 主动优先级管理——提前标记准备时间，主动留白

● 用钱换杠杆——找机会委托或自动化

它会质疑四个前提假设，生成三套实现方案并给出努力估算。

产品规划：/plan-ceo-review 和 /plan-eng-review

CEO review 从产品视角重新定义问题。

你说"让卖家上传照片"。它问你：真正的需求是不是帮卖家创建一个能卖出去的商品页？

能不能从照片自动识别商品？能不能推断 SKU 或型号？能不能搜索网络自动生成标题和描述？能不能建议哪张图做封面？能不能检测照片质量——太暗、太乱、太模糊？

Eng review 从工程视角锁定架构。

数据怎么流转？哪些同步哪些异步？上传成功但增强失败怎么办？产品识别低置信度怎么办？怎么防重复任务？持久化策略是什么？

它会画架构图、状态图、数据流图。图会把隐藏假设逼出来。

示例输出：

┌─────────────┐ ┌──────────────┐ ┌─────────────┐│ 用户上传 │──────│ 图片存储 │──────│ 视觉识别 │└─────────────┘ └──────────────┘ └─────────────┘ │ │ ▼ ▼ ┌──────────────┐ ┌─────────────┐ │ 后台任务队列 │──────│ 信息增强 │ └──────────────┘ └─────────────┘ │ │ ▼ ▼ ┌──────────────┐ ┌─────────────┐ │ 重试逻辑 │ │ 草稿生成 │ └──────────────┘ └─────────────┘

设计生成：/design-shotgun 到 /design-html

这是我最有兴趣的部分。

/design-shotgun 会生成 4-6 个设计变体，用 GPT Image 生成 PNG，然后在你的浏览器里打开一个对比板。你点选喜欢的，给反馈，下一轮会根据你的偏好调整。

实际流程示例：

你：/design-shotgun — 开发者工具落地页的 hero 区域Claude：[生成 3 个变体] 变体 A：深色背景 + 粗体标题 + 代码片段展示变体 B：左右分栏 + 产品截图 + 文案变体 C：极简居中 + 渐变点缀 + CTA [在浏览器打开对比板]你： [点击"批准变体 A"]Claude：已批准变体 A。保存到 ~/.gstack/projects/myapp/designs/ 下一步：运行 /design-html 从这个设计稿生成生产级 HTML

找到满意的方向后，/design-html 把它变成真正能用的 HTML——不是那种只在一个屏幕宽度下好看的 demo，而是文本会重新排版、高度会自适应、布局会响应的真实代码。

它用的是 Pretext，Cheng Lou 写的文本布局引擎。15KB，零依赖。

代码审查：/review

这是"那个能找到 CI 通过但在生产环境爆炸的 bug 的工程师"。

它会找 N+1 查询、过时读取、竞态条件、信任边界问题、缺失索引、转义漏洞、测试没覆盖的真实失败模式。

审查输出示例：

Finding #1: N+1 Query in /api/listings Location: src/api/routes/listings.ts:42 Problem: 查询每个 listing 时都单独请求 photos 表 Impact: 1000 个 listing = 1001 次数据库查询 Fix: 使用 JOIN 或批量预加载 Status: [AUTO-FIXED] 已改为 LEFT JOINFinding #2: Race Condition in Cover Photo Selection Location: src/services/listing.service.ts:89 Problem: 两个标签页可能同时选择不同的封面，后写入覆盖前一个 Impact: 用户选择的封面被意外替换 Fix: 使用乐观锁或原子更新 Status: [ASK] 需要你确认修复方案

明显的问题自动修复。真正的权衡抛给你决定。

质量测试：/qa

它会给 AI 一双眼睛。

打开真实的 Chromium 浏览器，真实地点击，真实地截图。找到 bug 后自动修复，生成回归测试，验证修复有效。

测试报告示例：

QA Report: staging.myapp.com — Health Score: 72/100Top 3 Issues:1. CRITICAL: 结账表单允许提交空必填字段 - 位置：/checkout 页面 - 重现：跳过姓名字段直接点"提交" - 修复：添加客户端验证 + 服务端验证 - 验证：已修复，已生成回归测试2. HIGH: 移动端导航菜单选择后不关闭 - 位置：导航组件 - 重现：点击菜单项后菜单保持展开 - 修复：添加关闭逻辑 - 验证：已修复3. MEDIUM: 仪表盘图表在 1024px 以下与侧边栏重叠 - 位置：/dashboard 页面 - 修复：调整响应式断点 - 验证：已修复[完整报告已保存到 .gstack/qa-reports/]

Garry Tan 说这个技能让他能并行的工作流从 6 个翻到了 12 个。因为 AI 能"看见"问题并自己解决，不用每一步都等人确认。

发布与监控：/ship、/land-and-deploy、/canary

/ship 同步主干、运行测试、检查覆盖率、推送代码、创建 PR。

没有测试框架？它会帮你搭：

检测到项目没有测试框架→ 检测运行时：Node.js→ 研究：Jest vs Vitest vs Mocha→ 选择：Vitest（更快、原生 ESM）→ 安装：npm install -D vitest @vitest/ui→ 创建测试配置：vitest.config.ts→ 为现有代码写 3 个测试： ✓ src/utils/format.test.ts (验证通过) ✓ src/api/validate.test.ts (验证通过) ✓ src/services/user.test.ts (验证通过)→ 设置 GitHub Actions CI→ 创建 TESTING.md 文档覆盖率审计： ├─ src/utils/ 87% ████████▓ ├─ src/api/ 62% ██████▓▓▓ ├─ src/services/ 45% █████▓▓▓▓ └─ 总体 65% ██████▓▓▓PR 已创建：github.com/you/app/pull/42Tests: 0 → 3 (+3 new)

/land-and-deploy 合并 PR、等待 CI、部署、验证生产健康。

/canary 持续监控部署后的控制台错误、性能回退、页面失败。

快速上手教程

环境准备

必需工具：

● Claude Code（Anthropic 官方 CLI）

● Git

● Bun v1.0+（包管理器）

● Node.js（仅 Windows 需要，Playwright 兼容性）

安装（30 秒）

打开 Claude Code，粘贴这行命令：

git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack && cd ~/.claude/skills/gstack && ./setup

安装脚本会：

1. 克隆仓库到 ~/.claude/skills/gstack

2. 安装依赖

3. 创建符号链接

4. 引导你配置 CLAUDE.md

第一个项目：从想法到上线

Step 1：产品讨论

你：/office-hoursClaude：好，我们在 YC 办公时间。说说你在做什么？不是功能列表，告诉我你看到了什么问题。你：我想做一个每日简报应用，帮我管理多个 Google 日历。Claude：给我一个具体的例子。上周哪次让你特别想砸键盘？你：[描述具体场景]Claude：我得挑战一下你的框架。你说的不是"日历摘要"，是一个个人参谋 AI。 [提取 5 个核心能力] [质疑 4 个前提] [生成 3 套方案] 我建议从方案 A 开始——最窄的切入点，明天就能发布。设计文档已保存到 ~/.gstack/projects/

Step 2：规划与审查

你：/plan-ceo-reviewClaude：[读取设计文档] 我看到了一个更大的机会... [10 个部分的深度审查] 审查通过。继续？你：继续你：/plan-eng-reviewClaude：[生成架构图、状态图、测试矩阵] [锁定数据流和错误处理] 工程审查完成。退出计划模式？你：退出计划模式

Step 3：实现

Claude 开始写代码。

Garry Tan 的记录：2,400 行代码，11 个文件，8 分钟。

Step 4：审查与测试

你：/reviewClaude：[AUTO-FIXED] 2 个问题 [ASK] 1 个权衡需要你决定审查通过。你：/qa https://staging.myapp.comClaude：[打开浏览器，点击测试，找到 1 个 bug] [修复 bug，生成回归测试] QA 通过。Health Score: 92/100

Step 5：发布

你：/shipClaude：同步 main... 运行测试：42 → 51 (+9 new) 覆盖率审计：87% 推送代码... PR 已创建：#42 https://github.com/you/app/pull/42

八条命令。从想法到生产。

并行工作流：10 个项目同时跑

gstack 的设计就是为并行准备的。

并行工作流场景

实际场景：

会话	正在做什么	命令
会话 1	新想法的 YC 办公时间	`/office-hours`
会话 2	功能 A 的 CEO 审查	`/plan-ceo-review`
会话 3	功能 B 的代码实现	自动
会话 4	功能 C 的代码审查	`/review`
会话 5	功能 D 的 QA 测试	`/qa`
会话 6-10	其他分支的工作	各种命令

Garry Tan 说他常跑 10-15 个并行工作流。

每个角色知道自己该做什么，什么时候停。你像管理团队一样管理它们：关注关键决策，剩下的让它跑。

这适合谁？

创始人——尤其是还想自己写代码的技术创始人。

第一次用 Claude Code 的人——不想面对空白提示词，想要结构化的角色。

技术负责人——需要在每个 PR 上有严格的审查、QA、发布自动化。

Peter Steinberger 用类似的工具一个人做出了 OpenClaw（247K star）。Garry Tan 用它六十天写了六十万行代码。

常见问题

Windows 能用吗？

能。Git Bash 或 WSL。Node.js 必装（Bun 有 Playwright 兼容性问题）。

技能不显示？

cd ~/.claude/skills/gstack && ./setup

`/browse` 失败？

cd ~/.claude/skills/gstack && bun install && bun run build

想要更短的命令？

cd ~/.claude/skills/gstack && ./setup --no-prefix# /gstack-qa 变成 /qa

最后

MIT 协议，完全开源，没有付费版。

Garry Tan 说这是他"开源自己的软件开发方式"。你可以 fork 它，改它，让它变成你的。

如果这就是 AI 辅助开发的下一步——不是一个帮你写代码的助手，而是一整支在你机器里运行的工程团队——那你可能应该试一下。

Garry Tan的成果数据

六十万行代码。六十天。一个人。

嗯。

GitHub 地址：https://github.com/garrytan/gstack

核心技能速查表：

技能	作用	阶段
`/office-hours`	YC 风格产品讨论	思考
`/plan-ceo-review`	CEO 视角重新定义问题	规划
`/plan-eng-review`	工程架构审查	规划
`/plan-design-review`	设计完整性审查	规划
`/design-shotgun`	生成多个设计变体	设计
`/design-html`	生产级 HTML 输出	设计
`/review`	深度代码审查	构建
`/investigate`	系统化调试	构建
`/qa`	浏览器自动化测试	测试
`/ship`	一键发布 PR	发布
`/land-and-deploy`	合并部署验证	发布
`/canary`	部署后监控	发布
`/cso`	安全审计（OWASP+STRIDE）	安全
`/retro`	项目复盘	复盘
`/learn`	管理学习记忆	持续改进

彩蛋：如果你想看看"AI slop"长什么样，Garry Tan 有个专门检测 AI 生成设计的设计审查技能。它会标出那些看起来很像 AI 的视觉模式——三栏图标网格、渐变 hero、统一的圆角——然后告诉你怎么改得不像。