乐于分享
好东西不私藏

每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?

原文来自 @elvissun

我已经不再直接使用 Codex 或 Claude Code 了

我现在使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会生成智能体、编写它们的提示词、为每个任务选择合适的模型、监控进度,并在 PR 准备好可合并时通过 Telegram 提醒我。

过去 4 周的数据证明:

  • 一天 94 次提交。那是我生产力最高的一天,我有 3 个客户电话,而且一次都没打开编辑器。平时平均每天大约 50 次提交。

  • 30 分钟内 7 个 PR。从想法到产出速度极快,因为编码和校验基本都自动化了。

  • 提交 -> MRR:我把这套方法用于我正在构建的真实 B2B SaaS,并结合创始人主导销售,能够在当天交付大多数功能请求。速度会把线索转化为付费客户。

        1 月之前:仅 CC/Codex   |  1 月之后:OpenClaw 编排 CC/Codex

我的 Git 历史看起来像我刚雇了一个开发团队。实际上只有我一个人,只是从“管理 Claude Code”,升级成“管理一个 OpenClaw 智能体”,再由它管理一组其他 Claude Code 和 Codex 智能体。

成功率:这个系统几乎能一次完成所有中小任务,基本不需要人工介入。

成本:Claude 约 $100/月,Codex 约 $90/月,但你也可以从 $20 起步。

下面是它为什么比直接使用 Codex 或 Claude Code 更有效:

Codex 和 Claude Code 对你的业务几乎没有上下文。

它们能看到代码,但看不到你业务的全貌。

OpenClaw 改变了这个方程。它充当你与所有智能体之间的编排层,它在我的 Obsidian 仓库中持有全部业务上下文(客户数据、会议记录、历史决策、有效方法、失败案例),并把历史上下文转译成给每个编码智能体的精确提示词。智能体专注代码,编排器专注高层战略。

这套系统的高层工作方式

上周 Stripe 写了他们叫做 “Minions” 的后台智能体系统:由集中式编排层支撑的并行编码智能体。我是“误打误撞”做出了几乎同样的东西,但它运行在我本地的 Mac mini 上。

在我告诉你如何搭建之前,你需要先知道为什么你需要一个智能体编排器。

为什么一个 AI 不能两者都做好

上下文窗口是零和的-限制了最大的上下文。你必须选择放什么进去。

装满代码 -> 没有业务上下文空间。装满客户历史 -> 没有代码库空间。这就是两层系统有效的原因:每个 AI 都只加载它真正需要的内容。

OpenClaw 和 Codex 的上下文有巨大差异:

通过“上下文”做专精,而不是靠“不同模型”做专精。

完整的 8 步工作流

我用上周的一个真实案例来讲。

第 1 步:客户请求 -> 与 Zoe 一起定义范围

我和一个代理商客户通了电话。他们希望在团队内复用已经配置好的设置。

通话结束后,我和 Zoe 讨论了这个请求。因为我所有会议记录都会自动同步到我的 Obsidian 仓库,所以我完全不需要额外解释。我们一起界定了功能范围,并确定为“模板系统”,让他们可以保存并编辑现有配置。

然后 Zoe 会做三件事:

  • 立刻补充额度以立即解除客户阻塞,她有管理 API 权限。

  • 从生产数据库拉取客户配置,她有生产库只读权限(我的 Codex 智能体永远不会有这个权限)来获取他们现有设置,并将其纳入提示词。

  • 启动一个 Codex 智能体,并给它包含完整上下文的详细提示词。

第 2 步:启动智能体

每个智能体都有自己的worktree(隔离分支)和 tmux 会话:

# 创建 worktree + 启动 agentgit worktree add ../feat-custom-templates -b feat/custom-templates origin/maincd ../feat-custom-templates && pnpm installtmux new-session -d -s "codex-templates" \  -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \"$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"

智能体运行在 tmux 会话里,并通过脚本记录完整终端日志。

下面是我们如何启动智能体:

# Codexcodex --model gpt-5.3-codex \  -c "model_reasoning_effort=high" \  --dangerously-bypass-approvals-and-sandbox \"Your prompt here"# Claude Code  claude --model claude-opus-4.5 \  --dangerously-skip-permissions \  -p "Your prompt here"

我以前用 codex exec 或 claude -p,但最近切换到了 tmux:

tmux 明显更好,因为“任务中途重定向”能力很强。智能体走偏了?不用杀掉:

# 错误方向:tmux send-keys -t codex-templates "Stop. Focus on the API layer first, not the UI." Enter# 需要更多上下文:tmux send-keys -t codex-templates "The schema is in src/types/template.ts. Use that." Enter

任务会记录在 .clawdbot/active-tasks.json

{"id":"feat-custom-templates","tmuxSession":"codex-templates","agent":"codex","description":"Custom email templates for agency customer","repo":"medialyst","worktree":"feat-custom-templates","branch":"feat/custom-templates","startedAt":1740268800000,"status":"running","notifyOnComplete":true}

完成后它会更新 PR 编号和检查项。(第 5 步会详细说)

{"status":"done","pr":341,"completedAt":1740275400000,"checks":{"prCreated":true,"ciPassed":true,"claudeReviewPassed":true,"geminiReviewPassed":true},"note":"All checks passed. Ready to merge."}

第 3 步:循环监控

一个 cron 任务每 10 分钟运行一次,照看所有智能体。它基本上相当于一个增强版 Ralph Loop,后面会讲。

但它不会直接轮询智能体,那样开销太大。相反,它运行脚本读取 JSON 注册表并检查:

.clawdbot/check-agents.sh

这个脚本 100% 确定性,而且极度节省 token:

  • 检查 tmux 会话是否存活。

  • 检查跟踪分支是否有未关闭 PR。

  • 通过 gh CLI 检查 CI 状态。

  • 如果 CI 失败或出现关键审查反馈,自动重启失败智能体(最多 3 次)。

  • 只有在需要人工介入时才告警。

我不用盯着终端。系统会告诉我什么时候该看。

第 4 步:智能体创建 PR

智能体会提交、推送,并通过 gh pr create --fill 创建 PR。此时我不会收到通知,因为“仅有 PR”还不算完成。

完成定义(非常重要,要让你的智能体知道):

  • PR 已创建

  • 分支已同步到 main(无合并冲突)

  • CI 全绿(lint、types、单元测试、E2E)

  • Codex 审查通过

  • Claude Code 审查通过

  • Gemini 审查通过

  • 若有 UI 变更,包含截图

第 5 步:自动化代码评审

每个 PR 都由三个 AI 模型审查。它们各自擅长不同问题:

Codex Reviewer -> 边界情况处理能力极强。审查最彻底。会抓到逻辑错误、遗漏的错误处理、竞态条件。误报率很低。

Gemini Code Assist Reviewer -> 免费且非常有用。能发现其他智能体漏掉的安全问题、可扩展性问题,并给出具体修复建议。安装它几乎没有理由拒绝。

Claude Code Reviewer -> 大多没什么用,往往过于保守。经常给出“可以考虑增加……”这类通常属于过度工程的建议。除非标为关键问题,否则我会跳过。它很少独立发现关键问题,但能验证其他审查器标出来的问题。

三个审查器都会直接在 PR 上发表评论。

第 6 步:自动化测试

我们的 CI 流水线会运行大量自动化测试:

  • Lint 和 TypeScript 检查

  • 单元测试

  • E2E 测试

  • 在预览环境(与生产一致)运行 Playwright 测试

我上周加了一个新规则:如果 PR 改了任何 UI,就必须在 PR 描述里附截图,否则 CI 失败。这个规则大幅缩短了审查时间,我无需点进预览就能准确看到改动内容。

第 7 步:人工评审

这时我会收到 Telegram 通知:“PR #341 ready for review.”

到这个节点:

  • CI 已通过

  • 三个 AI 审查器都批准了代码

  • 截图展示了 UI 变更

  • 所有边界情况都记录在审查评论里

我的评审只需 5-10 分钟。很多 PR 我不看代码就直接合并,截图已经告诉我所需的一切。

第 8 步:合并

PR 合并。每天一个 cron 任务会清理孤立 worktree 和任务注册 JSON。

Ralph Loop V2

这本质上就是 Ralph Loop,但更好。

Ralph Loop 会从记忆提取上下文、生成输出、评估结果、保存学习。但大多数实现每一轮都用同一个提示词。提炼出的学习会改善未来检索,但提示词本身是静态的。

我们的系统不同。智能体失败时,Zoe 不会只用同样的提示词重启。她会结合完整业务上下文分析失败原因,并想办法解除阻塞:

智能体上下文不够?“只关注这三个文件。”

智能体方向跑偏?“停。客户要的是 X,不是 Y。下面是他们在会议中的原话。”

智能体需要澄清?“这是客户邮件和他们公司的业务。”

Zoe 会把智能体一路“看护”到完成。她拥有智能体没有的上下文:客户历史、会议记录、之前尝试过什么、为什么失败。她会用这些上下文在每次重试时写出更好的提示词。

但她也不会等我派任务。她会主动找事做:

早晨:扫描 Sentry -> 发现 4 个新错误 -> 启动 4 个智能体调查并修复

会后:扫描会议记录 -> 标记客户提到的 3 个功能请求 -> 启动 3 个 Codex 智能体

晚上:扫描 git log -> 启动 Claude Code 更新变更日志和客户文档

我在客户电话后出去散步,回来就能在 Telegram 看到:“7 PRs ready for review. 3 features, 4 bug fixes.”

当智能体成功时,模式会被记录下来。“这种提示词结构适用于计费功能。”“Codex 需要先拿到类型定义。”“始终包含测试文件路径。”

奖励信号是:CI 通过、三个代码评审都通过、人工合并。任何失败都会触发循环。随着时间推移,Zoe 会因为记住了哪些东西真正发布上线,而写出更好的提示词。

选择合适的智能体

并非所有编码智能体都一样。快速参考:

Codex 是我的主力。后端逻辑、复杂 bug、多文件重构,任何需要跨代码库推理的任务都交给它。它更慢,但更彻底。90% 的任务我都用它。

Claude Code 更快,也更适合前端任务。它的权限问题也更少,所以非常适合 Git 操作。(我过去更多用它处理日常,但现在 Codex 5.3 明显更好也更快。)

Gemini 有不同的超能力:设计感。要做漂亮 UI 时,我会先让 Gemini 生成 HTML/CSS 规范,再交给 Claude Code 在我们的组件系统里实现。Gemini 设计,Claude 落地。

Zoe 会为每个任务选择正确智能体,并在它们之间路由输出。计费系统 bug 给 Codex。按钮样式修复给 Claude Code。新仪表盘设计先从 Gemini 开始。

如何搭建这套系统

把这整篇文章复制到 OpenClaw,然后告诉它:“Implement this agent swarm setup for my codebase.”

它会读取架构、创建脚本、搭建目录结构并配置 cron 监控。10 分钟完成。

一个没人预料到的瓶颈

我现在碰到的上限是:RAM。

每个智能体都需要自己的 worktree。每个 worktree 都需要自己的 node_modules。每个智能体都会运行构建、类型检查、测试。5 个智能体同时运行意味着 5 个并行 TypeScript 编译器、5 个测试运行器,以及 5 套加载到内存的依赖。

我的 16GB Mac Mini 最多只能稳定跑 4-5 个智能体,超过后就开始交换内存,而且还得“运气好”它们别在同一时间触发构建。

下一步:单人百万美元公司

从 2026 年开始,我们会看到大量“单人百万美元公司”出现。对于懂得如何构建递归式自我改进智能体的人来说,杠杆效应极大。

它会是这样的:一个 AI 编排器作为你的延伸(就像 Zoe 对我),把工作委派给处理不同业务职能的专门智能体。工程。客户支持。运营。营销。每个智能体专注自己最擅长的事。你保持激光般聚焦和完全控制。

下一代创业者不会再雇一个 10 人团队来做“一个人配一套正确系统”就能完成的工作。他们会按这种方式构建:保持精干、快速推进、每天交付。

现在有太多 AI 生成的垃圾内容。围绕智能体和“任务中控”的炒作很多,但并没有做出真正有用的东西。华丽演示,却没有真实世界收益。

我在努力做相反的事:少炒作,多记录如何搭建一个真正的业务。真实客户、真实收入、真实提交并上线生产,也有真实损失。如果你想看我能把这件事做到多远,欢迎继续关注。

独自探索有天花板,交流碰撞才能打开思路。

一起探索 AICoding、Agent 编排、效率工具。

欢迎大家加微信~ 

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 每天94次提交,连编辑器都没打开:如何一个人打造成AI开发团队的?elvissun

评论 抢沙发

5 + 8 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮