AI Coding 开始进入“分工时代”:我做了一个 CodexSaver,把低成本任务交给 DeepSeek
过去一年,AI Coding 的叙事基本只有一个方向:
模型越来越强。
从代码补全,到 Chat 模式,再到 Agent 模式,大家都在追求一个更强的模型:更强的推理、更长的上下文、更好的代码理解、更自动化的执行能力。
这当然是对的。
但当我开始高频使用 Codex 之后,另一个问题变得越来越明显:
我们正在用一个非常强、也非常贵的模型,做大量并不需要它亲自完成的事情。
比如:
• 扫描 repo • 查找文件 • 总结代码 • 写单元测试 • 修 lint • 更新 README • 生成 boilerplate • 做一些局部、低风险的小改动
这些任务当然需要模型能力。
但它们真的需要最强模型来做吗?
这就是我做 CodexSaver 的起点。
GitHub 地址:
https://github.com/fendouai/CodexSaver
一、过去的 AI Coding:一个模型干所有事情
现在大多数 AI Coding 工作流,本质上还是:
User ↓One Powerful Model ↓Everything无论任务是架构设计、复杂 bug 定位、安全审查,还是写测试、扫文件、改文档,通常都交给同一个模型。
这个方式简单、直接,也符合我们对 AI Agent 的直觉:
“既然模型够强,那就让它全部做。”
但这里有一个隐藏问题:
软件开发任务并不是同质的。
写代码里面至少有几种完全不同的认知劳动:
第一类是高价值判断,比如:
• 要不要这样设计? • 这个抽象是否合理? • 这个变更有没有安全风险? • 这个 patch 是否会破坏边界条件? • 这个迁移是否可能造成数据问题?
第二类是低风险执行,比如:
• 找到某个函数 • 总结某个文件 • 给已有函数补测试 • 修几个格式问题 • 改 README • 生成重复性代码
这两类任务对模型的要求完全不同。
但今天我们经常用同一个模型做所有事。
这就像你请了一个非常贵的 Staff Engineer,然后让他每天帮你修 lint、补注释、扫目录。
不是不能做。
而是不划算。
二、真正贵的,不只是推理,而是吞吐量
很多人一开始以为 AI Coding 贵,是因为“推理贵”。
但我自己的体验是:
在实际开发中,大量成本并不是花在最复杂的推理上,而是花在吞吐量上。
比如一个任务让 Codex:
• 读一堆文件 • 理解目录结构 • 找相关模块 • 生成测试 • 再根据测试失败来回修改
这里面有很多 token 消耗,其实并不是高难度 reasoning,而是大量“读取、整理、生成、重复”。
尤其是在大 repo 里,context 一变大,成本就会快速上升。
这让我开始意识到:
AI Coding 的成本优化,不应该只看模型单价,而应该看任务分工。
不是所有任务都应该走同一个模型。
三、未来的 AI Coding:不同模型负责不同类型的认知劳动
我现在越来越相信一个判断:
AI Coding 正在进入“分工时代”。
过去的 AI Coding 是:
一个模型干所有事情未来的 AI Coding 会变成:
不同模型负责不同类型的认知劳动这其实很像真实的软件团队。
在真实团队里,不同人负责不同工作:
• Tech Lead 负责架构和关键判断 • Senior Engineer 负责复杂实现和 review • Junior Engineer 负责相对明确的执行任务 • CI/CD 负责机械化验证 • 工具链负责格式化、测试、构建
一个健康的软件团队,不会让最贵的人干所有事。
AI Coding 也一样。
未来的 AI Coding 系统里,也不应该只有一个“超级模型”。
更合理的结构应该是:
强模型负责判断便宜模型负责执行工具负责验证Router 负责调度这就是 CodexSaver 想验证的方向。
四、CodexSaver 是什么?
CodexSaver 不是另一个代码 Agent。
它更像是 Codex 的一个“成本优化外包层”。
它的核心思路是:
Codex 仍然是主 AgentDeepSeek 只是低成本 WorkerCodexSaver 负责判断哪些任务可以外包架构大概是这样:
User ↓Codex ↓CodexSaver Router ↓DeepSeek API ↓Codex Review ↓Final Output在这个体系里,Codex 的角色发生了变化。
它不再是“什么都自己干”的执行器,而是更像一个技术负责人:
• 判断任务类型 • 判断风险 • 决定是否外包 • 审查 DeepSeek 返回的结果 • 决定是否采用 patch • 做最终质量把关
DeepSeek 则负责相对低成本、低风险、高吞吐的任务:
• 搜索代码 • 解释代码 • 写测试 • 修 lint • 改文档 • 生成样板代码 • 做局部小改动
一句话:
DeepSeek does the work.Codex makes the decisions.五、为什么不是 Multi-Agent?
很多人第一反应可能是:
“这不就是 Multi-Agent 吗?”
其实不是。
我一开始也想过做成多 Agent 系统,但很快放弃了。
因为很多 Multi-Agent 项目最后会遇到几个问题:
第一,Agent 太多,context 爆炸。
第二,角色边界不清晰,几个模型互相聊天。
第三,debug 非常困难。
第四,成本不降反升。
所以 CodexSaver 故意做得非常克制:
CodexSaver 不是 Agent 系统,而是 Router 系统。
它不追求让多个 Agent 自主协作。
它只做一件事:
判断一个任务是否值得交给低成本模型如果值得,就调用 DeepSeek。
如果不值得,就留给 Codex。
这个设计简单,但非常关键。
因为成本优化系统最重要的不是“看起来智能”,而是“可控、可解释、可验证”。
六、Router 才是核心
CodexSaver 里最重要的部分,不是 DeepSeek API。
而是 Router。
Router 要回答一个问题:
这个任务,应该由谁来做?
比如:
适合交给 DeepSeek 的任务:
write_testsfix_lintdocscode_searchexplainboilerplatesimple_refactor不适合交给 DeepSeek 的任务:
architecturesecurityauthpaymentmigrationpermissionambiguous requirementsfinal review这背后有一个非常实际的判断:
低成本模型可以帮你节省成本,但不能把高风险决策交出去。
所以 CodexSaver 里会有一些保守规则:
• 涉及 auth,不轻易外包 • 涉及 payment,不轻易外包 • 涉及 migration,不轻易外包 • 涉及 security,不轻易外包 • 模糊需求,不轻易外包 • 大 patch,不轻易接受 • 测试失败,回退给 Codex
这不是因为 DeepSeek 不行。
而是因为在 AI Coding 里,真正危险的不是模型能力不足,而是模型过度自信。
一个低成本 Worker 可以写代码,但最终必须由 Codex 审。
七、为什么用 MCP?
CodexSaver 的另一个设计选择是:通过 MCP 接入 Codex。
MCP 的价值在于,它让模型可以用标准方式访问外部工具和上下文。OpenAI 的 Codex 文档也明确支持在 CLI 和 IDE extension 中使用 MCP server。(OpenAI Developers)
这意味着 CodexSaver 不需要做奇怪的终端注入,也不需要假装成一个人类用户去操作 Codex。
它就是一个标准工具:
codexsaver.delegate_taskCodex 可以自然调用它:
{ "instruction": "Add unit tests for user service", "files": ["src/user/service.ts"], "constraints": ["Do not modify production logic"]}CodexSaver 返回结构化结果:
{ "status": "success", "summary": "Added unit test draft", "patch": "...", "changed_files": ["tests/user/service.test.ts"], "commands_to_run": ["pytest"], "risk_notes": []}然后 Codex 做 review。
这个体验非常自然。
因为 CodexSaver 不是要取代 Codex,而是成为 Codex 的一个低成本工具。
八、为什么用 DeepSeek API?
一开始我也考虑过接 DeepSeek-TUI。
但后来发现,最优雅的方式其实是直接调用 DeepSeek API。
原因很简单:
• API 比 TUI 更稳定 • 输出更容易结构化 • 更容易做 JSON schema • 更容易统计成本 • 更容易重试和 fallback • 更适合作为 Codex 的 Worker
DeepSeek API 支持 OpenAI 兼容风格调用,这让接入成本很低:很多情况下只需要改 base_url 和 api_key,就可以用类似 OpenAI SDK 的方式调用。(DeepSeek API Docs)
这正好适合 CodexSaver 的定位:
DeepSeek 不需要成为一个完整 Agent。
它只需要成为一个稳定、便宜、可控的 Worker。
九、这不是个孤立想法,LLM Routing 正在变成方向
CodexSaver 不是凭空冒出来的想法。
更大的背景是:LLM routing 正在成为一个重要方向。
所谓 model routing,就是维护多个模型,然后根据任务复杂度、成本、延迟和质量要求,把请求路由给最合适的模型。
已有研究把 model routing 描述为一种降低 LLM 推理成本的方法:在多个候选模型中,把 prompt 路由给“足够完成任务的最小模型”。(OpenReview)
也有研究在讨论质量、成本、延迟之间的动态权衡,比如 MixLLM 会根据查询估计质量和成本,再决定交给哪个模型,以获得更好的质量/成本/延迟 trade-off。(ACL Anthology)
这说明一个趋势:
未来我们不会只问:
哪个模型最强?而会问:
这个任务,用哪个模型最划算?这正是 CodexSaver 想在 AI Coding 场景里做的事情。
十、CodexSaver 的实际效果
目前 CodexSaver 还是一个早期项目。
但在模拟 benchmark 和典型任务里,它已经展示出一个很有意思的方向:
Codex only: $0.52CodexSaver: $0.18Saved: 65%当然,这个数字不是要证明所有项目都能固定节省 65%。
真正重要的是:
它证明了 AI Coding 里有大量任务是可以被拆出去的。
尤其是:
• 写测试 • 修 lint • 更新文档 • 解释代码 • 搜索代码 • 小范围重构
这些任务非常适合交给低成本模型。
而 Codex 只需要保留在最重要的位置:
判断、验收、兜底十一、我认为这会改变 AI Coding 的产品形态
今天很多 AI Coding 产品还在比拼:
• 谁模型更强 • 谁上下文更长 • 谁 Agent 更自动 • 谁能一次改更多文件
但我觉得下一个阶段,大家会开始关注另一个问题:
AI Coding 的成本结构是否健康?
如果一个 AI Coding 系统所有任务都调用最强模型,那它一定很贵。
如果它完全依赖便宜模型,那质量和安全又不稳定。
真正合理的系统,应该是分层的:
高风险 → 强模型低风险 → 便宜模型机械验证 → 工具最终审查 → 强模型这就是“分工时代”的 AI Coding。
它不是一个模型的胜利,而是一个系统设计的胜利。
十二、CodexSaver 现在做到了什么?
现在 CodexSaver 已经有了一个最小可运行版本:
• MCP server • Router • DeepSeek API client • Context packer • Verifier • Cost estimator • AGENTS.md policy • Codex config 示例
项目结构大概是:
codexsaver/├─ codexsaver_mcp.py├─ codexsaver/│ ├─ router.py│ ├─ deepseek_client.py│ ├─ verifier.py│ ├─ cost.py│ └─ context.py├─ .codex/│ └─ config.toml├─ AGENTS.md└─ README.md使用方式也很简单:
export DEEPSEEK_API_KEY=sk-xxxpython cli.py "add unit tests for user service" \ --files src/user/service.ts \ --dry-run在 Codex 里,则通过 MCP 工具调用:
codexsaver.delegate_task十三、这个项目还很 early
我不会把它包装成一个已经完美解决问题的工具。
现在它还有很多可以改进的地方:
• Router 还是规则驱动 • 成本统计还可以更精确 • Verifier 还可以接真实 test runner • patch apply 还可以更安全 • routing policy 可以变成自学习 • 可以支持更多模型 • 可以做 dashboard • 可以沉淀真实 benchmark
但方向已经比较清楚了:
CodexSaver 不是为了替代 Codex。
它是为了让 Codex 更像一个技术负责人。
少干低价值重复劳动。
多做高价值判断。
十四、总结:AI Coding 的下一阶段,是分工
如果用一句话总结 CodexSaver,我会说:
它不是一个 DeepSeek wrapper。它是一个 AI Coding 分工实验。过去的 AI Coding:
一个模型干所有事情未来的 AI Coding:
不同模型负责不同类型的认知劳动强模型负责:
• 判断 • 架构 • 安全 • review • fallback
便宜模型负责:
• 搜索 • 解释 • 生成 • 测试 • 文档 • 重复执行
工具负责:
• lint • test • diff • benchmark • cost accounting
Router 负责:
• 分配任务 • 控制风险 • 平衡成本 • 保证质量
这才是我认为 AI Coding 接下来真正会发生的变化。
不是单点模型越来越强。
而是整个系统越来越像一个工程团队。
GitHub:
https://github.com/fendouai/CodexSaver
如果你也在研究 AI Coding、MCP、LLM routing、agent infra,欢迎一起交流。
我越来越确定:
AI Coding 正在进入分工时代。

夜雨聆风