过去两年,"AI 让开发效率提升 X 倍"的说法铺天盖地,但与此同时,METR 在 2025 年中的一项研究又给出了相反的结论:经验丰富的开发者在用 AI 工具处理自己熟悉的代码库时,反而比不用 AI 慢了 19%——尽管他们自己感觉变快了 20%。
两种叙事都不是凭空捏造,问题在于它们说的根本不是同一件事。"软件开发"不是一个原子动作,它是需求、设计、编码、评审、测试、部署、运维这一整条链路。AI 在这条链路上的渗透程度极不均匀:有的环节确实是结构性的加速,有的环节只是把成本从"现在"挪到了"两周后",还有的环节几乎没被改变。
这篇文章尝试按 SDLC(软件开发生命周期)的各个阶段,把目前比较扎实的研究和数据拆开来看,搞清楚 AI 到底在哪里真的帮上了忙。
一、先看一张总览表
| SDLC 阶段 | AI 的实际效果 | 确定性 |
|---|---|---|
| 需求 / 设计 | 从"写文档"变成"写规格",规格驱动开发(SDD)兴起 | 中——方法论本身仍在演化 |
| 编码(绿地新项目) | 简单、自包含任务提速明显,约 35%–40% | 较高 |
| 编码(存量 / 复杂代码库) | 提速有限,常低于 10%,部分场景反而更慢 | 争议最大 |
| 代码评审 | 评审周期缩短,常规问题被自动过滤 | 较高 |
| 测试 / QA | 用例生成速度提升 3–5 倍,覆盖率显著提高 | 较高,但维护成本是变量 |
| 部署 / 运维 / 故障排查 | MTTR(平均修复时长)下降明显 | 较高 |
| 维护 / 技术债 | 提速最弱的环节,代码 churn、重复率、技术债同步上升 | 反向效果明显 |
下面逐项展开。
二、需求与设计:从"写文档"到"写规格"
这是变化最隐蔽但可能影响最深远的一环。过去一年,"规格驱动开发"(Spec-Driven Development, SDD)从边缘实践变成了主流讨论对象,GitHub Spec Kit、AWS Kiro、Claude Code 的 Skills、Cursor 的 Plan Mode 都是这个方向上的产物。
核心逻辑很简单:AI 编码代理本身不缺执行力,缺的是上下文和约束。一份写清楚输入输出、边界条件、验收标准的规格文档,能让 AI 生成的代码少走很多弯路。于是开发流程从"prompt → 生成 → 改 → 再 prompt"的"氛围编程"(vibe coding),逐渐演变成"需求 → 详细规格 → AI 生成 → 校验"的结构化流程,规格文件本身(通常是 Markdown)成为版本库里和代码同等地位的一等公民。
一个典型的最小规格模板大致是这样:
# Feature: 用户登录
## 问题
当前缺少安全的登录入口
## 功能需求
- 邮箱+密码登录
- 密码重置(邮件验证)
## 非目标
- 本版本不做第三方登录
## 边界情况
- 连续失败 5 次锁定账户 15 分钟
## 验收标准
- 单测覆盖核心路径,包含锁定逻辑
这套方法论对绿地项目(新项目、新功能)效果明显——AWS 内部用 Kiro 把一个原本要两周的通知功能压缩到两天,是一个被反复引用的案例。但对存量系统,"先把现有行为还原成规格、再改"的逆向工程过程本身工作量就很大,很多团队尝试后发现,给整个老系统补规格不现实,只能针对要改动的局部区域补。
需求阶段真正被加速的不是"理解业务"这件事本身(这仍然需要人和人之间的对齐),而是"把理解转化为可执行约束"的效率。这是个真实的提速,但它的收益高度依赖团队是否愿意把这套纪律坚持下去——写规格这件事,跟写文档一样,很容易在赶进度的时候被第一个放弃。
三、编码:最热闹也最分裂的战场
这是争议最大的部分,值得把时间线捋清楚。
2025 年 7 月,METR 发布了一项随机对照实验:让 16 位经验丰富的开源贡献者,在自己熟悉的仓库上用最新的 AI 工具(Cursor + Claude 3.5/3.7 Sonnet)完成真实任务。结果是实验组反而比对照组慢了 19%,但参与者主观感觉自己快了 20%——这个"主观快、实际慢"的反差是当时最被广泛讨论的发现。
2026 年 2 月,METR 自己更新了说法。他们发现原实验存在选择性偏差:30%–50% 受邀的开发者拒绝参加,理由是"不愿意在没有 AI 的情况下工作",这意味着留下来参加实验的人,恰恰是从 AI 获益最少的那群人。换了一批样本(57 位开发者,800 多个任务)重新测量后,结果是放缓了 4%,置信区间覆盖 -15% 到 +9%,METR 自己的结论改成了"AI 在 2026 年初大概率带来了生产力收益"。再往后,METR 内部七位员工在 2026 年 1 月的实测数据显示,用编码代理处理工作任务的实测时间节省在 2 倍到 12 倍之间,并且开发者自己的主观估计普遍低于实测值——跟一年前的结论几乎反了过来。
这段反复说明一件事:编码阶段的提速幅度,极度依赖任务类型、代码库的熟悉程度、以及开发者本身的经验水平。几个相对稳定的规律是:
- 绿地 vs 存量:据斯坦福软件工程生产力项目的研究(被 Google Cloud DORA 团队 2026 年的 ROI 报告引用),AI 在简单、绿地任务上能带来 35%–40% 的生产力提升,但在复杂的存量代码上往往不到 10%。
- 初级 vs 资深:一项研究发现,AI 给初级开发者带来的 PR 产出提升约 40%,而资深开发者只有约 7%。资深开发者在"评估、引导、系统级判断"这类需要经验积累的环节获益更多,而不是单纯靠模型自动补全代码。
- 代码质量是隐藏成本:GitClear 对 2.11 亿行代码变更(2020–2024,样本包括 Google、Microsoft、Meta 等公司的仓库)的分析显示,AI 渗透率上升后,代码"churn"(写完两周内被删除或大改的代码占比)从 3.1% 上升到 5.7%,复制粘贴的代码行占比从 8.3% 升到 12.3%、并首次超过了"移动/重构"的代码行占比,而真正用于重构的代码行占比从 25% 跌到不足 10%。换句话说,AI 让"加代码"变得更便宜了,但"理代码"这件事并没有变便宜,甚至因为代码量暴涨而变得更贵——技术债务在这些研究里普遍被估算上升了 30%–40%。
把这两条线放在一起看,结论其实不矛盾:**AI 在"生成"这一步是真提速,但生成出来的代码默认是"草稿",而不是"成品"。**如果团队没有相应的评审、重构、清理机制兜底,速度收益会被后续的维护成本吃掉,只是这个账单不会马上到,通常要等几个月后才显现。
四、代码评审:确定性最高的提速环节之一
如果说编码阶段争议最大,代码评审大概是目前最少争议、收益最实在的一环。
GitHub Copilot 的代码评审功能、Claude Code 的多代理评审、CodeRabbit、Greptile、Qodo 等工具,已经在 2026 年从"试点"变成"标配"。它们的共同模式是:在 PR 提交后先做一轮自动化扫描——风格、命名、明显的逻辑问题、常见的安全模式(SQL 注入、硬编码密钥之类),把这部分"体力活"过滤掉,留给人工评审的是架构和业务逻辑判断。多份行业报告(来源以厂商为主,数字需要打个折扣,但方向一致)给出的评审周期缩短幅度大致在 30%–40% 左右,自动化预筛能拦掉相当一部分琢碎问题,把资深工程师的时间从"挑格式错误"挪到"判断设计是否合理"。
但这里有个容易被忽略的反转:AI 自己生成的代码,本身需要被更严格地审查。据 Veracode 2025 年的一项调研,AI 生成的 PR 缺陷率大约是人工编写 PR 的 1.7 倍,其中接近一半的 AI 生成代码至少包含一个 OWASP Top 10 级别的安全问题。也有分析显示,AI 生成的 PR 通过率明显低于人工 PR,且等待评审的时间反而更长——原因很直接:评审者对机器写的代码信任度更低,会更谨慎。
所以"AI 提速了评审"这句话需要加一个限定:它提速的是对人工代码的评审,对 AI 自己生成的代码,反而需要双层把关——自动化工具先筛一遍明显问题,资深工程师再针对 AI 代码的"幻觉式 API 调用"、"看起来合理但语义有问题"的特有错误模式做二次审查。把这一层去掉、直接信任绿色的测试结果就合并,是目前公开报道的几次 AI 相关生产事故(包括 2026 年 3 月一次涉及 AI 辅助代码改动的大型云服务故障)背后反复出现的模式。
五、测试与 QA:生成快,维护成本是变量
测试是另一个相对确定的受益环节。AI 根据需求、代码、API schema 自动生成测试用例,多份行业报告给出的提速幅度在 3–5 倍量级,开箱覆盖率能到 80%–90%,这个数字本身没什么争议——生成测试用例本来就是模式化程度很高的工作,正好是 LLM 的舒适区。
"自愈测试"(self-healing tests)是另一个真实进展:UI 元素变了,传统脚本化的端到端测试会直接断掉,需要人工去修复定位器;AI 驱动的测试工具能识别"这只是个外观变化"并自动适配,据多家测试平台的统计,这类能力能把测试维护成本压低 50% 左右。
需要警惕的是两个常见误区:一是"生成的测试数量"不等于"测试质量",很多团队用 AI 批量生成测试后,测试总量涨了,但真正能捕获回归缺陷的"信号密度"没有同步提升,反而增加了 CI 跑的时间和后期维护负担;二是探索性测试、边界场景挖掘这类依赖直觉和业务理解的工作,目前还是人类测试工程师的强项,AI 更适合接管的是"把已知场景批量铺开",而不是"发现未知场景"。
六、部署与运维:相对成熟的自动化区
故障排查和事件响应是这次拆解里数据最一致的一个环节。多个 AI SRE 工具(Datadog Bits AI、Azure SRE Agent、Rootly、incident.io 等)报告的 MTTR(平均修复时长)下降幅度普遍在 40%–70% 这个区间——行业基准的企业平均 MTTR 在 4–6 小时左右,AI 介入后压缩到分钟级别的案例已经不算新鲜。
原理也比较朴素:一次事故排查的大头时间花在"在七八个面板和日志系统里跳来跳去找相关性",这恰好是 AI 擅长的检索 + 关联匹配。把告警、日志、最近的代码变更、历史相似事件一次性丢给模型做关联分析,能省下大量"人工切换工具"的时间。目前主流的落地路径是分阶段授权——先让 AI 做根因分析和建议,人来批准;再逐步放开一些"可回滚、低风险"操作(重启、扩容、回滚)的自动执行权限,完全自主的修复仍然谨慎推进。
这一环之所以提速确定性较高,是因为它本质上是"信息检索+模式匹配"问题,跟编码阶段需要的"理解业务意图、做权衡判断"不是同一类认知负荷,AI 在这里的能力边界和任务需求匹配得更好。
七、维护与遗留系统:AI 最不擅长的环节
这是拆解到最后必须诚实面对的一点:AI 在软件全生命周期里加速最弱、甚至存在反向效果的环节,恰恰是大部分企业工程师时间花费最多的地方——维护存量系统。
前面提到的斯坦福研究里"复杂存量代码提速不到 10%"不是孤例。GitClear 的长期数据也指向同一个方向:AI 倾向于"添加新代码"而不是"复用、移动、重构已有代码",这跟传统软件工程提倡的 DRY 原则正好相反。一份基于 GitClear 数据的分析估算,未经治理的 AI 代码到第二年的维护成本可能膨胀到原来的 4 倍左右——这虽然是单一来源的估算,需要谨慎对待,但方向上和多份独立报告一致。
原因不难理解:LLM 在训练和推理时,对"写一段新代码"有天然的偏好,因为这是它最常见的训练信号;而"理解一个十万行的遗留系统里某个函数为什么这样写、改了会不会牵连别处",需要的是对完整上下文的深度推理和长期记忆,目前的模型在超长、跨文件、隐含业务规则的场景下仍然容易出错或者"读不全"。
这也是为什么"规格驱动开发"在面对存量系统(brownfield)时要分阶段处理:先把现有行为还原成规格、再针对要改的局部小范围打补丁,而不是奢望一次性给整个老系统"瘦身"。
八、为什么大家的体验差异这么大?
把以上几个环节放在一起,能解释一个常见现象:为什么同事 A 觉得 AI 把他的效率翻了几倍,同事 B 觉得 AI 没什么用甚至添乱——他们可能根本不是在同一类工作上使用 AI。A 可能在写绿地新功能、跑测试生成、查线上故障,B 可能整天在改一个十年历史的核心交易系统。
Google Cloud 的 DORA 团队在 2025–2026 年的系列报告里给出了一个我认为最站得住脚的框架:AI 不是均匀地提升生产力,它是一个放大器。工程基础好的团队——有清晰的工作流、成熟的 CI/CD、小批量交付习惯——AI 能放大他们原有的优势;而流程混乱、评审形同虚设的团队,AI 放大的是混乱本身:交付量看起来涨了,变更失败率也跟着涨,技术债积累得更快。DORA 的样本计算里有一个挺直观的例子:当变更失败率从 5% 升到 6%,单这一项导致的下线成本估算可以到 34.4 万美元——AI 带来的吞吐量提升,很容易被这类隐性成本部分抹平。
另外值得提一句平衡视角:2026 年 2 月一份覆盖近 6000 位企业高管的 NBER 调研发现,超过 80% 的企业表示过去三年 AI 对其生产力没有可观测的影响——这份调研针对的是企业整体、而不仅是软件工程场景,但它至少提示我们,行业头部案例(METR 内部、AWS Kiro 案例等)和大多数普通企业的实际体感之间,可能存在不小的落差。在评估任何一份"AI 提速 X 倍"的数据时,多问一句"这个样本是谁、衡量的是哪个环节",比直接采信结论更重要。
九、写给开发者的几条建议
把上面的拆解落到日常工作里,几条相对靠谱的判断:
- 优先在这些环节大胆用 AI:代码评审初筛、测试用例生成、运维故障的根因排查、绿地原型/脚手架代码——这几类任务的认知负荷和 AI 的能力边界匹配度高,收益相对确定。
- 这些环节保持人工主导:架构设计的关键决策、存量系统的大范围重构、认证/支付/权限相关的安全关键路径——出错成本高、且依赖对系统全局的理解,目前更适合"AI 起草、人来定稿"而不是"AI 自主完成"。
- 把规格当成一等公民:哪怕不上完整的 Spec Kit 流程,养成"先写清楚输入输出、边界条件再丢给 AI 生成"的习惯,能显著降低后续返工率。
- 度量陷阱要警惕:只看"完成了多少任务"或"AI 接受率"是危险的——这两个指标都是前置的,真正的成本(churn、重复代码、回归缺陷)是后置的,往往要一两个月才暴露。如果条件允许,定期看一下代码 churn 率和重构/新增代码的比例,比看"AI 用了多少"更有意义。
- AI 生成的 PR 要单独标记、单独审查:不要假设"测试通过=可以合并",AI 代码的典型错误模式(看似合理的幻觉调用、隐性安全漏洞)跟人类的典型错误模式不一样,需要不同的审查 checklist。
结语
回到最初的问题:AI 究竟提速了软件开发的哪些环节?比较负责任的答案是——它确定性地提速了代码评审的初筛、测试用例的生成、以及运维故障的根因定位;它在绿地编码任务上有真实但被夸大的提速,在存量系统维护上提速有限甚至带来反效果;它正在改变需求和设计阶段的工作方式(规格驱动开发),但这部分价值能不能兑现,高度依赖团队纪律而不是工具本身。
更准确的说法或许是:AI 没有让"写软件"这件事整体变快,而是把瓶颈从"写代码"挪到了"验证代码"。对个人开发者,这意味着花在"审"和"测"上的时间会相对增加;对工程组织,这意味着原本可以靠惯性运转的评审和质量流程,现在必须被认真对待——否则速度收益迟早会被技术债务吃干净。
夜雨聆风