每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?
原文来自 @elvissun
我已经不再直接使用 Codex 或 Claude Code 了
我现在使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会生成智能体、编写它们的提示词、为每个任务选择合适的模型、监控进度,并在 PR 准备好可合并时通过 Telegram 提醒我。
过去 4 周的数据证明:
-
一天 94 次提交。那是我生产力最高的一天,我有 3 个客户电话,而且一次都没打开编辑器。平时平均每天大约 50 次提交。
-
30 分钟内 7 个 PR。从想法到产出速度极快,因为编码和校验基本都自动化了。
-
提交 -> MRR:我把这套方法用于我正在构建的真实 B2B SaaS,并结合创始人主导销售,能够在当天交付大多数功能请求。速度会把线索转化为付费客户。

1 月之前:仅 CC/Codex | 1 月之后:OpenClaw 编排 CC/Codex
我的 Git 历史看起来像我刚雇了一个开发团队。实际上只有我一个人,只是从“管理 Claude Code”,升级成“管理一个 OpenClaw 智能体”,再由它管理一组其他 Claude Code 和 Codex 智能体。
成功率:这个系统几乎能一次完成所有中小任务,基本不需要人工介入。
成本:Claude 约 $100/月,Codex 约 $90/月,但你也可以从 $20 起步。
下面是它为什么比直接使用 Codex 或 Claude Code 更有效:
Codex 和 Claude Code 对你的业务几乎没有上下文。
它们能看到代码,但看不到你业务的全貌。
OpenClaw 改变了这个方程。它充当你与所有智能体之间的编排层,它在我的 Obsidian 仓库中持有全部业务上下文(客户数据、会议记录、历史决策、有效方法、失败案例),并把历史上下文转译成给每个编码智能体的精确提示词。智能体专注代码,编排器专注高层战略。
这套系统的高层工作方式

上周 Stripe 写了他们叫做 “Minions” 的后台智能体系统:由集中式编排层支撑的并行编码智能体。我是“误打误撞”做出了几乎同样的东西,但它运行在我本地的 Mac mini 上。
在我告诉你如何搭建之前,你需要先知道为什么你需要一个智能体编排器。
为什么一个 AI 不能两者都做好
上下文窗口是零和的-限制了最大的上下文。你必须选择放什么进去。
装满代码 -> 没有业务上下文空间。装满客户历史 -> 没有代码库空间。这就是两层系统有效的原因:每个 AI 都只加载它真正需要的内容。
OpenClaw 和 Codex 的上下文有巨大差异:

通过“上下文”做专精,而不是靠“不同模型”做专精。
完整的 8 步工作流
我用上周的一个真实案例来讲。
第 1 步:客户请求 -> 与 Zoe 一起定义范围
我和一个代理商客户通了电话。他们希望在团队内复用已经配置好的设置。
通话结束后,我和 Zoe 讨论了这个请求。因为我所有会议记录都会自动同步到我的 Obsidian 仓库,所以我完全不需要额外解释。我们一起界定了功能范围,并确定为“模板系统”,让他们可以保存并编辑现有配置。
然后 Zoe 会做三件事:
-
立刻补充额度以立即解除客户阻塞,她有管理 API 权限。
-
从生产数据库拉取客户配置,她有生产库只读权限(我的 Codex 智能体永远不会有这个权限)来获取他们现有设置,并将其纳入提示词。
-
启动一个 Codex 智能体,并给它包含完整上下文的详细提示词。
第 2 步:启动智能体
每个智能体都有自己的worktree(隔离分支)和 tmux 会话:
# 创建 worktree + 启动 agentgit worktree add ../feat-custom-templates -b feat/custom-templates origin/maincd ../feat-custom-templates && pnpm installtmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \"$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"
智能体运行在 tmux 会话里,并通过脚本记录完整终端日志。
下面是我们如何启动智能体:
# Codexcodex --model gpt-5.3-codex \ -c "model_reasoning_effort=high" \ --dangerously-bypass-approvals-and-sandbox \"Your prompt here"# Claude Code claude --model claude-opus-4.5 \ --dangerously-skip-permissions \ -p "Your prompt here"
我以前用 codex exec 或 claude -p,但最近切换到了 tmux:
tmux 明显更好,因为“任务中途重定向”能力很强。智能体走偏了?不用杀掉:
# 错误方向:tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter# 需要更多上下文:tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter
任务会记录在 .clawdbot/active-tasks.json:
{"id":"feat-custom-templates","tmuxSession":"codex-templates","agent":"codex","description":"Custom email templates for agency customer","repo":"medialyst","worktree":"feat-custom-templates","branch":"feat/custom-templates","startedAt":1740268800000,"status":"running","notifyOnComplete":true}
完成后它会更新 PR 编号和检查项。(第 5 步会详细说)
{"status":"done","pr":341,"completedAt":1740275400000,"checks":{"prCreated":true,"ciPassed":true,"claudeReviewPassed":true,"geminiReviewPassed":true},"note":"All checks passed. Ready to merge."}
第 3 步:循环监控
一个 cron 任务每 10 分钟运行一次,照看所有智能体。它基本上相当于一个增强版 Ralph Loop,后面会讲。
但它不会直接轮询智能体,那样开销太大。相反,它运行脚本读取 JSON 注册表并检查:
.clawdbot/check-agents.sh
这个脚本 100% 确定性,而且极度节省 token:
-
检查 tmux 会话是否存活。
-
检查跟踪分支是否有未关闭 PR。
-
通过
ghCLI 检查 CI 状态。 -
如果 CI 失败或出现关键审查反馈,自动重启失败智能体(最多 3 次)。
-
只有在需要人工介入时才告警。
我不用盯着终端。系统会告诉我什么时候该看。
第 4 步:智能体创建 PR
智能体会提交、推送,并通过 gh pr create --fill 创建 PR。此时我不会收到通知,因为“仅有 PR”还不算完成。
完成定义(非常重要,要让你的智能体知道):
-
PR 已创建
-
分支已同步到 main(无合并冲突)
-
CI 全绿(lint、types、单元测试、E2E)
-
Codex 审查通过
-
Claude Code 审查通过
-
Gemini 审查通过
-
若有 UI 变更,包含截图
第 5 步:自动化代码评审
每个 PR 都由三个 AI 模型审查。它们各自擅长不同问题:
Codex Reviewer -> 边界情况处理能力极强。审查最彻底。会抓到逻辑错误、遗漏的错误处理、竞态条件。误报率很低。
Gemini Code Assist Reviewer -> 免费且非常有用。能发现其他智能体漏掉的安全问题、可扩展性问题,并给出具体修复建议。安装它几乎没有理由拒绝。
Claude Code Reviewer -> 大多没什么用,往往过于保守。经常给出“可以考虑增加……”这类通常属于过度工程的建议。除非标为关键问题,否则我会跳过。它很少独立发现关键问题,但能验证其他审查器标出来的问题。
三个审查器都会直接在 PR 上发表评论。
第 6 步:自动化测试
我们的 CI 流水线会运行大量自动化测试:
-
Lint 和 TypeScript 检查
-
单元测试
-
E2E 测试
-
在预览环境(与生产一致)运行 Playwright 测试
我上周加了一个新规则:如果 PR 改了任何 UI,就必须在 PR 描述里附截图,否则 CI 失败。这个规则大幅缩短了审查时间,我无需点进预览就能准确看到改动内容。
第 7 步:人工评审
这时我会收到 Telegram 通知:“PR #341 ready for review.”
到这个节点:
-
CI 已通过
-
三个 AI 审查器都批准了代码
-
截图展示了 UI 变更
-
所有边界情况都记录在审查评论里
我的评审只需 5-10 分钟。很多 PR 我不看代码就直接合并,截图已经告诉我所需的一切。
第 8 步:合并
PR 合并。每天一个 cron 任务会清理孤立 worktree 和任务注册 JSON。
Ralph Loop V2
这本质上就是 Ralph Loop,但更好。
Ralph Loop 会从记忆提取上下文、生成输出、评估结果、保存学习。但大多数实现每一轮都用同一个提示词。提炼出的学习会改善未来检索,但提示词本身是静态的。
我们的系统不同。智能体失败时,Zoe 不会只用同样的提示词重启。她会结合完整业务上下文分析失败原因,并想办法解除阻塞:
智能体上下文不够?“只关注这三个文件。”
智能体方向跑偏?“停。客户要的是 X,不是 Y。下面是他们在会议中的原话。”
智能体需要澄清?“这是客户邮件和他们公司的业务。”
Zoe 会把智能体一路“看护”到完成。她拥有智能体没有的上下文:客户历史、会议记录、之前尝试过什么、为什么失败。她会用这些上下文在每次重试时写出更好的提示词。
但她也不会等我派任务。她会主动找事做:
早晨:扫描 Sentry -> 发现 4 个新错误 -> 启动 4 个智能体调查并修复
会后:扫描会议记录 -> 标记客户提到的 3 个功能请求 -> 启动 3 个 Codex 智能体
晚上:扫描 git log -> 启动 Claude Code 更新变更日志和客户文档
我在客户电话后出去散步,回来就能在 Telegram 看到:“7 PRs ready for review. 3 features, 4 bug fixes.”
当智能体成功时,模式会被记录下来。“这种提示词结构适用于计费功能。”“Codex 需要先拿到类型定义。”“始终包含测试文件路径。”
奖励信号是:CI 通过、三个代码评审都通过、人工合并。任何失败都会触发循环。随着时间推移,Zoe 会因为记住了哪些东西真正发布上线,而写出更好的提示词。
选择合适的智能体
并非所有编码智能体都一样。快速参考:
Codex 是我的主力。后端逻辑、复杂 bug、多文件重构,任何需要跨代码库推理的任务都交给它。它更慢,但更彻底。90% 的任务我都用它。
Claude Code 更快,也更适合前端任务。它的权限问题也更少,所以非常适合 Git 操作。(我过去更多用它处理日常,但现在 Codex 5.3 明显更好也更快。)
Gemini 有不同的超能力:设计感。要做漂亮 UI 时,我会先让 Gemini 生成 HTML/CSS 规范,再交给 Claude Code 在我们的组件系统里实现。Gemini 设计,Claude 落地。
Zoe 会为每个任务选择正确智能体,并在它们之间路由输出。计费系统 bug 给 Codex。按钮样式修复给 Claude Code。新仪表盘设计先从 Gemini 开始。
如何搭建这套系统
把这整篇文章复制到 OpenClaw,然后告诉它:“Implement this agent swarm setup for my codebase.”
它会读取架构、创建脚本、搭建目录结构并配置 cron 监控。10 分钟完成。
一个没人预料到的瓶颈
我现在碰到的上限是:RAM。
每个智能体都需要自己的 worktree。每个 worktree 都需要自己的 node_modules。每个智能体都会运行构建、类型检查、测试。5 个智能体同时运行意味着 5 个并行 TypeScript 编译器、5 个测试运行器,以及 5 套加载到内存的依赖。
我的 16GB Mac Mini 最多只能稳定跑 4-5 个智能体,超过后就开始交换内存,而且还得“运气好”它们别在同一时间触发构建。
下一步:单人百万美元公司
从 2026 年开始,我们会看到大量“单人百万美元公司”出现。对于懂得如何构建递归式自我改进智能体的人来说,杠杆效应极大。
它会是这样的:一个 AI 编排器作为你的延伸(就像 Zoe 对我),把工作委派给处理不同业务职能的专门智能体。工程。客户支持。运营。营销。每个智能体专注自己最擅长的事。你保持激光般聚焦和完全控制。
下一代创业者不会再雇一个 10 人团队来做“一个人配一套正确系统”就能完成的工作。他们会按这种方式构建:保持精干、快速推进、每天交付。
现在有太多 AI 生成的垃圾内容。围绕智能体和“任务中控”的炒作很多,但并没有做出真正有用的东西。华丽演示,却没有真实世界收益。
我在努力做相反的事:少炒作,多记录如何搭建一个真正的业务。真实客户、真实收入、真实提交并上线生产,也有真实损失。如果你想看我能把这件事做到多远,欢迎继续关注。
独自探索有天花板,交流碰撞才能打开思路。
一起探索 AICoding、Agent 编排、效率工具。
欢迎大家加微信~

夜雨聆风
