

AI编程的下一道瓶颈:不是生成代码,而是审查债
与上次不同
前几天我们连续追踪了三层变化:
- 5 月 29 日,AI 编程进入平台战;
- 5 月 30 日,竞争开始转向 Agent 的自动执行权;
- 5 月 31 日,企业开始需要触发、编排、沙箱、治理和度量组成的 Agent 控制台。
今天的新角度不是继续写平台化。
Cursor 新发布的 Spring 2026 Developer Habits Report 给出了一个更现实的问题:
当 Agent 写代码越来越快、跑得越来越久、越来越少停下来等待人工确认时,团队真正稀缺的资源开始变成审查能力。
生成代码不再是瓶颈。确认哪些代码值得进入主干,才是。
一、代码流速翻倍,但工作并没有消失
Cursor 的官方报告基于平台真实使用数据,给出了一个非常明确的趋势:
开发者的编码速度同比已经翻倍。
但更值得关注的不是“写得更多”,而是工作形态正在变化:
- PR 变得更大;
- Agent 会话变得更深;
- AI 生成代码在代码库里存活更久;
- 更多任务开始端到端自动推进。
来源:https://cursor.com/insights
Cursor 报告中,单个 PR 的新增代码行数大约同比增长了 2.5 倍。包含至少 1000 行改动的 mega PR,在合并 PR 中的占比也从 2025 年初约 8% 上升到 2026 年 5 月的 13.8%。
这意味着一个很容易被忽视的问题:
Agent 提高了代码产能,也同步放大了团队的验证压力。
过去一个工程师一天写 200 行代码,review 是日常环节。现在 Agent 一次任务就可能修改十几个文件、生成上千行 diff。代码生成速度提升了,但人类理解系统、识别风险和承担责任的速度没有同比翻倍。
二、自动接受比例正在快速上升
Cursor 报告里最值得警惕的数据,是越来越多 Agent 改动不再经过单独的人工 diff 接受步骤。
2026 年 1 月 1 日,这个比例还是 7%。
到 2026 年 5 月 7 日,已经达到 38.5%。5 月 16 日仍为 36.3%。
Cursor 的判断是:开发者越来越愿意信任 Agent,把更多工作直接带进 commit 流程。
这当然是 Agent 成熟的信号。
但它同时意味着,团队必须重新定义“审查”。
过去的审查是:
> 人写代码,另一个人看 diff。
接下来的审查更像是:
> Agent 批量生成改动,系统先自动分级验证,人类只聚焦真正高风险的部分。
如果团队还把每一行 AI 代码都交给人类逐行看,review 队列一定会膨胀。如果团队完全跳过审查,技术债和安全风险又会迅速累积。
这就是 AI 编程时代的新问题:审查债。
三、不要把“合并率”直接当成 Agent 能力
近期一篇被 MSR 2026 接收的论文,专门研究了 Agent 提交的 PR 为什么被合并或拒绝。
研究分析了 11048 个已经关闭的 Agentic PR,并进一步观察 9799 个人工审查过的 PR。结论很重要:
- 被拒绝的 PR 里,只有 35.7% 能明确归因于 Agent 本身失败;
- 31.2% 来自工作流约束;
- 33.1% 缺少可观察的决策理由;
- 已合并 PR 中,也有 15.4% 明确需要 reviewer 反馈或直接修改。
来源:https://arxiv.org/abs/2605.22534
这说明,AI 编程的度量不能只看“生成多少代码”“提交多少 PR”“合并率多高”。
更应该看:
- 哪些风险被自动检查发现;
- 哪些 PR 需要人工返工;
- reviewer 花了多少时间;
- 被拒绝是代码错误,还是流程不匹配;
- Agent 能不能根据 review 结果继续修复;
- 最终进入主干的改动是否可追踪、可解释。
四、下一阶段最值钱的是审查基础设施
如果生成能力继续增长,团队必须把 review 从一个人工动作,升级为一套分层系统。
至少要有四层:
第一层:确定性检查
测试、lint、类型检查、构建、依赖扫描、secret scanning,能机器判断的先机器判断。
第二层:风险分级
文档修改、测试补充和局部重构可以快速通过;认证、支付、权限、数据库迁移和基础设施改动必须升级审查。
第三层:Agent 自审
让 Agent 在提交前解释修改范围、风险点、验收结果和失败记录。审查者不应该从一片 diff 里自己猜意图。
第四层:人工验收
人类不再逐行承担所有机械检查,而是专注业务正确性、架构边界和不可逆风险。
这和前几天写过的 Agent 控制台是一条工作链路,但今天更具体:
控制台不是为了让 Agent 跑得更多,而是为了让更多产出仍然可验证。
五、今天的结论
AI 编程最容易制造一种错觉:
代码写得越快,团队就越高效。
Cursor 的真实数据告诉我们,事情没有这么简单。
当编码速度同比翻倍、PR 体量增长约 2.5 倍、超过三分之一的 Agent 改动不再经过单独人工 diff 接受步骤时,新的瓶颈已经出现:
不是生成代码,而是消化代码。
未来真正有价值的 AI 编程产品,不只是能多写几千行代码。
它还必须回答:
- 哪些改动可以自动放行?
- 哪些风险必须升级?
- 哪些失败能够自动修复?
- 哪些结果需要人类最终拍板?
Agent 越强,审查基础设施越重要。
AI 编程的下一阶段,拼的不只是生产力,而是团队能不能控制住被放大的生产力。
来源
- Cursor: The Cursor Developer Habits Report, Spring 2026
https://cursor.com/insights
- Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study, submitted 2026-05-21, accepted for MSR 2026
https://arxiv.org/abs/2605.22534
夜雨聆风