每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

每天94次提交，连编辑器都没打开：如何一个人打造成AI开发团队的?

原文来自 @elvissun

我已经不再直接使用 Codex 或 Claude Code 了

我现在使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会生成智能体、编写它们的提示词、为每个任务选择合适的模型、监控进度，并在 PR 准备好可合并时通过 Telegram 提醒我。

过去 4 周的数据证明：

一天 94 次提交。那是我生产力最高的一天，我有 3 个客户电话，而且一次都没打开编辑器。平时平均每天大约 50 次提交。
30 分钟内 7 个 PR。从想法到产出速度极快，因为编码和校验基本都自动化了。
提交 -> MRR：我把这套方法用于我正在构建的真实 B2B SaaS，并结合创始人主导销售，能够在当天交付大多数功能请求。速度会把线索转化为付费客户。

1 月之前：仅 CC/Codex | 1 月之后：OpenClaw 编排 CC/Codex

我的 Git 历史看起来像我刚雇了一个开发团队。实际上只有我一个人，只是从“管理 Claude Code”，升级成“管理一个 OpenClaw 智能体”，再由它管理一组其他 Claude Code 和 Codex 智能体。

成功率：这个系统几乎能一次完成所有中小任务，基本不需要人工介入。

成本：Claude 约 $100/月，Codex 约 $90/月，但你也可以从 $20 起步。

下面是它为什么比直接使用 Codex 或 Claude Code 更有效：

Codex 和 Claude Code 对你的业务几乎没有上下文。

它们能看到代码，但看不到你业务的全貌。

OpenClaw 改变了这个方程。它充当你与所有智能体之间的编排层，它在我的 Obsidian 仓库中持有全部业务上下文（客户数据、会议记录、历史决策、有效方法、失败案例），并把历史上下文转译成给每个编码智能体的精确提示词。智能体专注代码，编排器专注高层战略。

这套系统的高层工作方式

上周 Stripe 写了他们叫做 “Minions” 的后台智能体系统：由集中式编排层支撑的并行编码智能体。我是“误打误撞”做出了几乎同样的东西，但它运行在我本地的 Mac mini 上。

在我告诉你如何搭建之前，你需要先知道为什么你需要一个智能体编排器。

为什么一个 AI 不能两者都做好

上下文窗口是零和的-限制了最大的上下文。你必须选择放什么进去。

装满代码 -> 没有业务上下文空间。装满客户历史 -> 没有代码库空间。这就是两层系统有效的原因：每个 AI 都只加载它真正需要的内容。

OpenClaw 和 Codex 的上下文有巨大差异：

通过“上下文”做专精，而不是靠“不同模型”做专精。

完整的 8 步工作流

我用上周的一个真实案例来讲。

第 1 步：客户请求 -> 与 Zoe 一起定义范围

我和一个代理商客户通了电话。他们希望在团队内复用已经配置好的设置。

通话结束后，我和 Zoe 讨论了这个请求。因为我所有会议记录都会自动同步到我的 Obsidian 仓库，所以我完全不需要额外解释。我们一起界定了功能范围，并确定为“模板系统”，让他们可以保存并编辑现有配置。

然后 Zoe 会做三件事：

立刻补充额度以立即解除客户阻塞，她有管理 API 权限。
从生产数据库拉取客户配置，她有生产库只读权限（我的 Codex 智能体永远不会有这个权限）来获取他们现有设置，并将其纳入提示词。
启动一个 Codex 智能体，并给它包含完整上下文的详细提示词。

第 2 步：启动智能体

每个智能体都有自己的worktree（隔离分支）和 tmux 会话：

# 创建 worktree + 启动 agentgit worktree add ../feat-custom-templates -b feat/custom-templates origin/maincd ../feat-custom-templates && pnpm installtmux new-session -d -s "codex-templates" \  -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \"$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"

智能体运行在 tmux 会话里，并通过脚本记录完整终端日志。

下面是我们如何启动智能体：

# Codexcodex --model gpt-5.3-codex \  -c "model_reasoning_effort=high" \  --dangerously-bypass-approvals-and-sandbox \"Your prompt here"# Claude Code  claude --model claude-opus-4.5 \  --dangerously-skip-permissions \  -p "Your prompt here"

我以前用 codex exec 或 claude -p，但最近切换到了 tmux：

tmux 明显更好，因为“任务中途重定向”能力很强。智能体走偏了？不用杀掉：

# 错误方向：tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter# 需要更多上下文：tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter

任务会记录在 .clawdbot/active-tasks.json：

{"id":"feat-custom-templates","tmuxSession":"codex-templates","agent":"codex","description":"Custom email templates for agency customer","repo":"medialyst","worktree":"feat-custom-templates","branch":"feat/custom-templates","startedAt":1740268800000,"status":"running","notifyOnComplete":true}

完成后它会更新 PR 编号和检查项。（第 5 步会详细说）

{"status":"done","pr":341,"completedAt":1740275400000,"checks":{"prCreated":true,"ciPassed":true,"claudeReviewPassed":true,"geminiReviewPassed":true},"note":"All checks passed. Ready to merge."}

第 3 步：循环监控

一个 cron 任务每 10 分钟运行一次，照看所有智能体。它基本上相当于一个增强版 Ralph Loop，后面会讲。

但它不会直接轮询智能体，那样开销太大。相反，它运行脚本读取 JSON 注册表并检查：

.clawdbot/check-agents.sh

这个脚本 100% 确定性，而且极度节省 token：

检查 tmux 会话是否存活。
检查跟踪分支是否有未关闭 PR。
通过 gh CLI 检查 CI 状态。
如果 CI 失败或出现关键审查反馈，自动重启失败智能体（最多 3 次）。
只有在需要人工介入时才告警。

我不用盯着终端。系统会告诉我什么时候该看。

第 4 步：智能体创建 PR

智能体会提交、推送，并通过 gh pr create --fill 创建 PR。此时我不会收到通知，因为“仅有 PR”还不算完成。

完成定义（非常重要，要让你的智能体知道）：

PR 已创建
分支已同步到 main（无合并冲突）
CI 全绿（lint、types、单元测试、E2E）
Codex 审查通过
Claude Code 审查通过
Gemini 审查通过
若有 UI 变更，包含截图

第 5 步：自动化代码评审

每个 PR 都由三个 AI 模型审查。它们各自擅长不同问题：

Codex Reviewer -> 边界情况处理能力极强。审查最彻底。会抓到逻辑错误、遗漏的错误处理、竞态条件。误报率很低。

Gemini Code Assist Reviewer -> 免费且非常有用。能发现其他智能体漏掉的安全问题、可扩展性问题，并给出具体修复建议。安装它几乎没有理由拒绝。

Claude Code Reviewer -> 大多没什么用，往往过于保守。经常给出“可以考虑增加……”这类通常属于过度工程的建议。除非标为关键问题，否则我会跳过。它很少独立发现关键问题，但能验证其他审查器标出来的问题。

三个审查器都会直接在 PR 上发表评论。

第 6 步：自动化测试

我们的 CI 流水线会运行大量自动化测试：

Lint 和 TypeScript 检查
单元测试
E2E 测试
在预览环境（与生产一致）运行 Playwright 测试

我上周加了一个新规则：如果 PR 改了任何 UI，就必须在 PR 描述里附截图，否则 CI 失败。这个规则大幅缩短了审查时间，我无需点进预览就能准确看到改动内容。

第 7 步：人工评审

这时我会收到 Telegram 通知：“PR #341 ready for review.”

到这个节点：

CI 已通过
三个 AI 审查器都批准了代码
截图展示了 UI 变更
所有边界情况都记录在审查评论里

我的评审只需 5-10 分钟。很多 PR 我不看代码就直接合并，截图已经告诉我所需的一切。

第 8 步：合并

PR 合并。每天一个 cron 任务会清理孤立 worktree 和任务注册 JSON。

Ralph Loop V2

这本质上就是 Ralph Loop，但更好。

Ralph Loop 会从记忆提取上下文、生成输出、评估结果、保存学习。但大多数实现每一轮都用同一个提示词。提炼出的学习会改善未来检索，但提示词本身是静态的。

我们的系统不同。智能体失败时，Zoe 不会只用同样的提示词重启。她会结合完整业务上下文分析失败原因，并想办法解除阻塞：

智能体上下文不够？“只关注这三个文件。”

智能体方向跑偏？“停。客户要的是 X，不是 Y。下面是他们在会议中的原话。”

智能体需要澄清？“这是客户邮件和他们公司的业务。”

Zoe 会把智能体一路“看护”到完成。她拥有智能体没有的上下文：客户历史、会议记录、之前尝试过什么、为什么失败。她会用这些上下文在每次重试时写出更好的提示词。

但她也不会等我派任务。她会主动找事做：

早晨：扫描 Sentry -> 发现 4 个新错误 -> 启动 4 个智能体调查并修复

会后：扫描会议记录 -> 标记客户提到的 3 个功能请求 -> 启动 3 个 Codex 智能体

晚上：扫描 git log -> 启动 Claude Code 更新变更日志和客户文档

我在客户电话后出去散步，回来就能在 Telegram 看到：“7 PRs ready for review. 3 features, 4 bug fixes.”

当智能体成功时，模式会被记录下来。“这种提示词结构适用于计费功能。”“Codex 需要先拿到类型定义。”“始终包含测试文件路径。”

奖励信号是：CI 通过、三个代码评审都通过、人工合并。任何失败都会触发循环。随着时间推移，Zoe 会因为记住了哪些东西真正发布上线，而写出更好的提示词。

选择合适的智能体

并非所有编码智能体都一样。快速参考：

Codex 是我的主力。后端逻辑、复杂 bug、多文件重构，任何需要跨代码库推理的任务都交给它。它更慢，但更彻底。90% 的任务我都用它。

Claude Code 更快，也更适合前端任务。它的权限问题也更少，所以非常适合 Git 操作。（我过去更多用它处理日常，但现在 Codex 5.3 明显更好也更快。）

Gemini 有不同的超能力：设计感。要做漂亮 UI 时，我会先让 Gemini 生成 HTML/CSS 规范，再交给 Claude Code 在我们的组件系统里实现。Gemini 设计，Claude 落地。

Zoe 会为每个任务选择正确智能体，并在它们之间路由输出。计费系统 bug 给 Codex。按钮样式修复给 Claude Code。新仪表盘设计先从 Gemini 开始。

如何搭建这套系统

把这整篇文章复制到 OpenClaw，然后告诉它：“Implement this agent swarm setup for my codebase.”

它会读取架构、创建脚本、搭建目录结构并配置 cron 监控。10 分钟完成。

一个没人预料到的瓶颈

我现在碰到的上限是：RAM。

每个智能体都需要自己的 worktree。每个 worktree 都需要自己的 node_modules。每个智能体都会运行构建、类型检查、测试。5 个智能体同时运行意味着 5 个并行 TypeScript 编译器、5 个测试运行器，以及 5 套加载到内存的依赖。

我的 16GB Mac Mini 最多只能稳定跑 4-5 个智能体，超过后就开始交换内存，而且还得“运气好”它们别在同一时间触发构建。

下一步：单人百万美元公司

从 2026 年开始，我们会看到大量“单人百万美元公司”出现。对于懂得如何构建递归式自我改进智能体的人来说，杠杆效应极大。

它会是这样的：一个 AI 编排器作为你的延伸（就像 Zoe 对我），把工作委派给处理不同业务职能的专门智能体。工程。客户支持。运营。营销。每个智能体专注自己最擅长的事。你保持激光般聚焦和完全控制。

下一代创业者不会再雇一个 10 人团队来做“一个人配一套正确系统”就能完成的工作。他们会按这种方式构建：保持精干、快速推进、每天交付。

现在有太多 AI 生成的垃圾内容。围绕智能体和“任务中控”的炒作很多，但并没有做出真正有用的东西。华丽演示，却没有真实世界收益。

我在努力做相反的事：少炒作，多记录如何搭建一个真正的业务。真实客户、真实收入、真实提交并上线生产，也有真实损失。如果你想看我能把这件事做到多远，欢迎继续关注。

独自探索有天花板，交流碰撞才能打开思路。

一起探索 AICoding、Agent 编排、效率工具。

欢迎大家加微信~

每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

每天94次提交，连编辑器都没打开：如何一个人打造成AI开发团队的?

我已经不再直接使用 Codex 或 Claude Code 了

这套系统的高层工作方式

为什么一个 AI 不能两者都做好

完整的 8 步工作流

第 1 步：客户请求 -> 与 Zoe 一起定义范围

第 2 步：启动智能体

第 3 步：循环监控

第 4 步：智能体创建 PR

第 5 步：自动化代码评审

第 6 步：自动化测试

第 7 步：人工评审

第 8 步：合并

Ralph Loop V2

选择合适的智能体

如何搭建这套系统

一个没人预料到的瓶颈

下一步：单人百万美元公司

wang

猜你喜欢

评论抢沙发

每天94次提交，连编辑器都没打开：如何一个人打造成AI开发团队的?

我已经不再直接使用 Codex 或 Claude Code 了

这套系统的高层工作方式

为什么一个 AI 不能两者都做好

完整的 8 步工作流

第 1 步：客户请求 -> 与 Zoe 一起定义范围

第 2 步：启动智能体

第 3 步：循环监控

第 4 步：智能体创建 PR

第 5 步：自动化代码评审

第 6 步：自动化测试

第 7 步：人工评审

第 8 步：合并

Ralph Loop V2

选择合适的智能体

如何搭建这套系统

一个没人预料到的瓶颈

下一步：单人百万美元公司

wang

猜你喜欢

评论 抢沙发

评论抢沙发