OpenAI工程师把话挑明了:一个人盯3到5个Coding Agent,基本就到顶了!反手开源了一套「少盯人、多验收」的新系统-夜雨聆风

OpenAI工程师把话挑明了:一个人盯3到5个Coding Agent,基本就到顶了!反手开源了一套「少盯人、多验收」的新系统

导读OpenAI工程师公开发帖承认：哪怕用的是Codex，一个人能有效监督的coding agent也就3到5个，再多生产率直接往下掉。更劲爆的是，OpenAI没有选择”让人盯更多屏幕”，而是直接开源了Symphony——一套把人类从”实时盯盘”解放成”异步验收”的全新工作流系统。近40万人围观，近3000人收藏。

一个残酷的数字：3到5

故事要从一条推文说起。

2026年4月27日，Alex Kotliarskyi（@alex_frantic）在X上发了一条线程，开头就是一记重锤：

“Engineers at OpenAI experience the same problem as everyone else — we can supervise about 3–5 coding agents. After that productivity drops. Codex is smart, but our attention is limited.”

「OpenAI的工程师也遇到和所有人一样的问题：我们大概只能有效盯住3到5个coding agents，再往上生产率就掉了。Codex很聪明，但我们的注意力是有限的。」

注意，这不是某个路人在吐槽。这是跟OpenAI / Codex直接相关的工程实践者，在公开线程里坦承的一线体感。

这条帖子的热度也说明它戳中了痛点：66条回复，133次转发，2623个赞，2875人收藏，近40万次浏览。

为什么这个数字会引起这么大共鸣？因为每个实际用过coding agent的人都有类似体感：

单个agent，很爽
两三个agent，开始频繁切换注意力
真到五六个以后，你会开始忘记哪个分支改了什么、哪个任务卡在什么点、哪个diff里可能埋了雷

3到5，像一条隐形的天花板，所有人都感觉到了，但之前没人说破。

▲ 开发者@a_protsyuk回应：”在构建我们的平台时遇到了同样的瓶颈——3-5基本上是通用的”（1.9K次查看）

真正的瓶颈，从来都不在模型那一头

有一条回复把这件事浓缩成了一句话，传播力极强：

“Generation is solved. Supervision is the new bottleneck.”

「生成问题已经解决了。监督才是新的瓶颈。」

▲ @gpt3_eth的回复，一句话总结了整个讨论的核心

想想看——2024年大家还在比谁的模型能写更长的代码、谁的上下文窗口更大。到了2026年，代码生成越来越便宜，人的验证和注意力反而成了最贵的资源。

模型可以一秒写完一个函数，但人要花五分钟看懂它改了什么、会不会出问题。你同时开了五个agent，每个都在不同分支上噼里啪啦地改代码，你的大脑根本处理不过来。

AI编程真正的天花板，已经悄悄从”模型能力”转移到了”人脑带宽”。

OpenAI的解法：别再同步盯了

面对这个瓶颈，OpenAI给出的答案出乎很多人意料。

他们没有做一个更大的dashboard让你同时看20个窗口，也没有说”等下一代模型就好了”。他们做了一件更根本的事：重写了人和agent之间的协作流程。

这个方案叫Symphony，已经开源。

“So we built (and open sourced!) Symphony to remove that ceiling. Here’s how it works:”

Alex在线程里把Symphony的运作逻辑讲得非常清楚，核心就四步：

第一步：挂在任务系统上自动跑。

“Symphony uses a project management software to track work. For every open issue it guarantees that there’s a non-interactive Codex agent running in its own isolated workspace. If it crashes or gets stuck — Symphony restarts it.”

每个issue对应一个独立工作区，agent卡住了系统自动重启，不需要人肉盯着救火。

第二步：逼agent先交”工作证明”。

“We taught Codex to produce ‘proof of work’: green CI, deep reviews from specialist agents (security, safety, reliability, etc.), and—if the change touches user-facing surfaces—a recorded video.”

CI得绿、安全审查得过、改了界面的还得录个视频——agent必须先自证清白，才有资格来烦人类。

第三步：人只在最后环节介入。

“Codex moves the ticket to a special ‘Human Review’ status only if it has a convincing packet. Our job is now to go over and review the artifacts.”

人类的工作从”盯agent的每一步操作”变成了”看agent交上来的证据包”。CI状态、安全审查报告、diff、walkthrough视频——异步验收，按需审批。

第四步：不满意别去微操agent，回头改规则。

“If we are not happy, we don’t steer Codex. Instead we go back to our repository and provide more docs, rules, guardrails, and skills.”

这个思路很像什么？从”手把手带实习生”升级成”写制度、建SOP、定验收标准”。

▲ OpenAI Symphony的GitHub仓库页面，16.5K star，README开头就写明：”让团队管理工作，取代监督coding agents”

一句话看懂Symphony的野心

GitHub仓库README的第一句话已经把野心写得明明白白：

“Symphony turns project work into isolated, autonomous implementation runs, allowing teams to manage work instead of supervising coding agents.”

「Symphony把项目工作拆成隔离的自治实现运行，让团队管理的是工作本身，取代一直监督coding agents。」

关键词：manage work，取代supervising agents。

但OpenAI也很诚实。README底部有一行warning：

“Symphony is a low-key engineering preview for testing in trusted environments.”

翻译成大白话：这套东西目前还是高信任环境下的工程预览版，并不是扔给任何野生代码库都能飞的通用神药。

而且它有一个前提条件：你的仓库得先做好”harness engineering”——文档得机器可读，测试得足够自洽，架构得够模块化。你得先把仓库改造成agent-friendly的，这套工作流才有意义。

社区买账吗？三派人吵起来了

Symphony发出来之后，社区反应并不是一边倒的叫好。大致分成了三派：

赞同派：”3到5确实是通用上限”

前面提到的@a_protsyuk就是代表：”在构建我们的平台时遇到了同样的瓶颈——3-5基本上是通用的。”这说明这个数字并不是OpenAI一家的特例，更像行业共同体感。

质疑派：”你只是换了个瓶颈的位置”

@PrudhviDpp的批评很尖锐：

“Good ideas but does not solve the real problem — not orchestration of github/stuck jobs. The constraint is human limitation on the amount of context our brain can take with so many worktrees running.”

「想法不错，但没解决真正的问题。瓶颈在于人脑能处理的上下文量是有限的，再多worktree一起跑，人脑还是会卡。」

换句话说：你可以把stuck jobs、GitHub调度、agent重启做得再好，但只要最后人还是得理解一堆diff和上下文，人脑带宽还是会卡住。Symphony解决的是”看不完”的问题，但未必解决”看不准”的问题。

反例派：”我同时跑25个conversation”

@_sahilahuja直接亮出了自己的数据：

“I have been running > 25 conversations.”

▲ @_sahilahuja称自己已经在用另一个orchestration工具同时跑超过25个conversation

但这里有一个微妙的区别：conversation数量≠可有效验收的agent数量。你能同时开25个对话窗口，并不等于你能高质量review 25个工程改动。就像你能同时开30个浏览器tab，但你真正在看的永远只有两三个。

Hacker News的冷水：spec像”agent slop”？

在Hacker News上，开发者的评价更加直接。

有人说这份spec”像agent slop”——只是在罗列数据库字段，提到了状态机但根本没把状态机讲清楚。

“The specs are inscrutable agent slop. I want it to tell me what it does and instead it just lists database fields.”

还有人指出，Symphony本质上只是一个scheduler / runner / tracker reader，它解决了调度问题，但真正让软件可靠落地的harness，还得靠仓库本身的工程质量。

▲ Hacker News上的讨论，25 points，有人直接批评spec质量不够好

方向可以先讲对，但开源spec本身未必已经成熟到让所有开发者信服。

更深一层：AI编程的下一场竞赛

把这件事放到更大的图景里看，一个趋势已经非常清楚了：

2024年的AI编程竞赛，比的是谁的模型能写代码。2026年的AI编程竞赛，开始比谁能让人类更省力地验收代码。

Symphony讨论的关键词已经变了。不再是更大context、更强reasoning、更多token，取而代之的是：

issue tracker
isolated workspace
proof of work
Human Review
WORKFLOW.md
harness engineering

这些词放在一起，说明竞争重心已经从”模型会不会写”迁移到了”组织怎么让agent持续、可靠地写”。

正如SPEC.md里写的那样：

“A successful run can end at a workflow-defined handoff state (for example Human Review), not necessarily Done.”

「一次成功运行的终点可以只是某个工作流定义的交接状态，比如Human Review，不一定直接等于Done。」

连”成功”的定义都变了——agent跑完交上来让人审，这就算成功。

最后一个问题

这条讨论最让人细思极恐的一点在于：

如果OpenAI自己的工程师，用着全世界最好的coding model，都只能有效盯住3到5个agent——那些宣称”一个人带100个agent改造整个公司”的故事，到底有多少水分？

也许AI编程下一阶段真正稀缺的资源，从来就不是更强的模型。

而是人类愿意分出多少注意力，以及我们能不能设计出让这份注意力花得更值的流程。

— END —