AI编程的下一道瓶颈:不是生成代码,而是审查债

AI编程的下一道瓶颈：不是生成代码，而是审查债

与上次不同

前几天我们连续追踪了三层变化：

5 月 29 日，AI 编程进入平台战；
5 月 30 日，竞争开始转向 Agent 的自动执行权；
5 月 31 日，企业开始需要触发、编排、沙箱、治理和度量组成的 Agent 控制台。

今天的新角度不是继续写平台化。

Cursor 新发布的 Spring 2026 Developer Habits Report 给出了一个更现实的问题：

当 Agent 写代码越来越快、跑得越来越久、越来越少停下来等待人工确认时，团队真正稀缺的资源开始变成审查能力。

生成代码不再是瓶颈。确认哪些代码值得进入主干，才是。

一、代码流速翻倍，但工作并没有消失

Cursor 的官方报告基于平台真实使用数据，给出了一个非常明确的趋势：

开发者的编码速度同比已经翻倍。

但更值得关注的不是“写得更多”，而是工作形态正在变化：

PR 变得更大；
Agent 会话变得更深；
AI 生成代码在代码库里存活更久；
更多任务开始端到端自动推进。

来源：https://cursor.com/insights

Cursor 报告中，单个 PR 的新增代码行数大约同比增长了 2.5 倍。包含至少 1000 行改动的 mega PR，在合并 PR 中的占比也从 2025 年初约 8% 上升到 2026 年 5 月的 13.8%。

这意味着一个很容易被忽视的问题：

Agent 提高了代码产能，也同步放大了团队的验证压力。

过去一个工程师一天写 200 行代码，review 是日常环节。现在 Agent 一次任务就可能修改十几个文件、生成上千行 diff。代码生成速度提升了，但人类理解系统、识别风险和承担责任的速度没有同比翻倍。

二、自动接受比例正在快速上升

Cursor 报告里最值得警惕的数据，是越来越多 Agent 改动不再经过单独的人工 diff 接受步骤。

2026 年 1 月 1 日，这个比例还是 7%。

到 2026 年 5 月 7 日，已经达到 38.5%。5 月 16 日仍为 36.3%。

Cursor 的判断是：开发者越来越愿意信任 Agent，把更多工作直接带进 commit 流程。

这当然是 Agent 成熟的信号。

但它同时意味着，团队必须重新定义“审查”。

过去的审查是：

> 人写代码，另一个人看 diff。

接下来的审查更像是：

> Agent 批量生成改动，系统先自动分级验证，人类只聚焦真正高风险的部分。

如果团队还把每一行 AI 代码都交给人类逐行看，review 队列一定会膨胀。如果团队完全跳过审查，技术债和安全风险又会迅速累积。

这就是 AI 编程时代的新问题：审查债。

三、不要把“合并率”直接当成 Agent 能力

近期一篇被 MSR 2026 接收的论文，专门研究了 Agent 提交的 PR 为什么被合并或拒绝。

研究分析了 11048 个已经关闭的 Agentic PR，并进一步观察 9799 个人工审查过的 PR。结论很重要：

被拒绝的 PR 里，只有 35.7% 能明确归因于 Agent 本身失败；
31.2% 来自工作流约束；
33.1% 缺少可观察的决策理由；
已合并 PR 中，也有 15.4% 明确需要 reviewer 反馈或直接修改。

来源：https://arxiv.org/abs/2605.22534

这说明，AI 编程的度量不能只看“生成多少代码”“提交多少 PR”“合并率多高”。

更应该看：

哪些风险被自动检查发现；
哪些 PR 需要人工返工；
reviewer 花了多少时间；
被拒绝是代码错误，还是流程不匹配；
Agent 能不能根据 review 结果继续修复；
最终进入主干的改动是否可追踪、可解释。

四、下一阶段最值钱的是审查基础设施

如果生成能力继续增长，团队必须把 review 从一个人工动作，升级为一套分层系统。

至少要有四层：

第一层：确定性检查

测试、lint、类型检查、构建、依赖扫描、secret scanning，能机器判断的先机器判断。

第二层：风险分级

文档修改、测试补充和局部重构可以快速通过；认证、支付、权限、数据库迁移和基础设施改动必须升级审查。

第三层：Agent 自审

让 Agent 在提交前解释修改范围、风险点、验收结果和失败记录。审查者不应该从一片 diff 里自己猜意图。

第四层：人工验收

人类不再逐行承担所有机械检查，而是专注业务正确性、架构边界和不可逆风险。

这和前几天写过的 Agent 控制台是一条工作链路，但今天更具体：

控制台不是为了让 Agent 跑得更多，而是为了让更多产出仍然可验证。

五、今天的结论

AI 编程最容易制造一种错觉：

代码写得越快，团队就越高效。

Cursor 的真实数据告诉我们，事情没有这么简单。

当编码速度同比翻倍、PR 体量增长约 2.5 倍、超过三分之一的 Agent 改动不再经过单独人工 diff 接受步骤时，新的瓶颈已经出现：

不是生成代码，而是消化代码。

未来真正有价值的 AI 编程产品，不只是能多写几千行代码。

它还必须回答：

哪些改动可以自动放行？
哪些风险必须升级？
哪些失败能够自动修复？
哪些结果需要人类最终拍板？

Agent 越强，审查基础设施越重要。

AI 编程的下一阶段，拼的不只是生产力，而是团队能不能控制住被放大的生产力。

来源

Cursor: The Cursor Developer Habits Report, Spring 2026

https://cursor.com/insights

Why Are Agentic Pull Requests Merged or Rejected? An Empirical Study, submitted 2026-05-21, accepted for MSR 2026

https://arxiv.org/abs/2605.22534