先说结论
AI 编码革命是真的。
但团队级 10 倍提速,大概率是幻觉。
不是 AI 不行。
是你把两件完全不同的事混在了一起:
一个叫“把代码写出来”。
一个叫“让一个企业系统长期、稳定、合规地跑起来”。
前者,AI 确实越来越强。
后者,AI 只解决了其中一小段。
所以你会看到一个很反直觉的现象:
网红一个人,7 天做出一个 SaaS。
你的 200 人研发团队,上了 Copilot、Cursor、Claude Code,最后端到端只快了 20%-30%,甚至有些指标还变差了。
这不是研发团队在偷懒。
这叫复杂度守恒。
一、最容易误判的一件事:以为研发就是写代码
很多非技术决策者对研发的理解,是这样的:
需求来了。
程序员写代码。
代码写完。
产品上线。
所以他看到 AI 能写代码,就自然得出一个结论:
既然 AI 写代码快 10 倍,那研发也应该快 10 倍。
这个推理最大的问题是:
它默认“写代码”就是研发。
但这件事,从 50 年前开始就不成立。
Brooks 在《人月神话》里就说过,大型软件项目中,编码大约只占 1/6。剩下的是设计、测试、调试、集成、沟通和管理。
到了今天,这个比例没有发生根本变化。
Microsoft Research 对开发者工作日的研究显示,coding 平均约 15%,好工作日约 18%。
Stripe 的 Developer Coefficient 也发现,41.1 小时的开发者工作周里,约 17.3 小时消耗在技术债和坏代码上。
SPACE 框架(衡量开发者生产力的一套多维模型,包含满意度、绩效、活动、协作、效率五个维度)更直接:不要用单一编码活动指标衡量开发者生产力。
换句话说:
研发不是打字比赛。
研发真正消耗时间的地方,往往不是“这行代码怎么写”,而是:
需求到底是不是这个意思; 这个方案会不会破坏老系统; 数据口径和业务口径是否一致; 安全、合规、权限、审计是否过得去; 测试环境为什么和生产不一样; 上线后出了问题谁负责; 3 年后另一个团队还能不能改得动。
这些东西,网红 demo 里大多不存在。
但企业研发每天都在处理。
二、AI 很强,但它首先打穿的是“局部环节”
过去两年,AI 编码确实发生了质变。
先把态度说清楚:AI 在编码上的提效是真实的,而且很明显。
写样板代码、补测试、改接口、生成脚手架、解释陌生代码、做小型重构、写 SQL、写正则、补文档,这些场景里,AI 已经不是“有点帮助”,而是实实在在地把很多人的工作速度拉上去了。
很多过去要半小时、一小时的事情,现在几分钟就能完成。
这不是幻觉。
从补全几行代码,到读仓库、改文件、跑测试、生成 PR,再到基于 spec 的 agent 工作流。
这不是玩具。
这是真升级。
但问题在于:升级主要发生在“编码及其邻近环节”。
而企业交付是完整链条。
这里可以用一个简单的 Amdahl 定律(一个系统能提速多少,取决于最慢、占比最大的那部分;只优化小环节,整体不会成倍变快)理解。
如果编码只占端到端研发流程的 15%-20%,那你把编码效率提高 10 倍,也不可能让整个组织交付提高 10 倍。
因为剩下的 80% 还在那里。
需求还要对齐。
方案还要评审。
代码还要验证。
合规还要过。
事故还要有人背。
历史系统还要兼容。
这就是为什么很多公司上了 AI 以后,个人体感明显变快,但组织交付没有同比例变快。
局部快,不等于系统快。
甚至局部太快,还会把系统里真正的瓶颈暴露出来。
比如代码生成变快后,评审压力会增加。
PR 变多后,测试和发布压力会增加。
自动生成的代码变多后,维护和返工压力会增加。
GitClear 的研究观察到,代码 churn 从 2020/2021 年约 3% 上升到 2024 年 5.67%、2025 年 6.87%。这不能简单说“都是 AI 导致的”,但至少说明一件事:
代码产能提高之后,返工和可维护性压力也在上升。
业务侧看到的是代码变多了。
技术侧担心的是几年后谁来还债。
三、真实世界的数据,比短视频冷得多
如果只看短视频,你会觉得 AI 已经把软件开发干翻了。
如果看真实工程数据,结论会冷静很多。
McKinsey 2023 的判断是:生成式 AI 对软件工程直接生产率的潜力约 20%-45%;对整体 R&D 成本的潜在价值约 10%-15%。
Cui、Demirer 等人的 Copilot 随机实验显示,AI coding assistant 对任务完成有正向影响,但收益受采用率、经验和组织环境影响。
Anthropic 的客户案例里,Palo Alto Networks 报告 feature development velocity 提升 20%-30%。
DORA 2024 更有意思:AI 采纳度提高 25%,与交付吞吐 -1.5%、交付稳定性 -7.2% 相关。
最刺眼的是 METR 2025。
他们找了 16 位有经验的开源开发者,在熟悉的大型真实代码库里做 246 个真实任务。工具是当时很强的 Cursor Pro + Claude 3.5/3.7 Sonnet。
开发者以为自己快了 20%。
结果实际慢了 19%。
这不是说 AI 没用。
这说明在复杂、熟悉、长期维护的代码库里,AI 生成只是开始,不是结束。
你要读它。
你要验证它。
你要判断它有没有破坏隐含约束。
你要处理它不知道的历史包袱。
你要对它写出来的结果负责。
AI 没有免费午餐。
它只是把一部分工作从“写”转移到了“审、改、验、背责任”。
四、网红为什么快?因为他选的不是同一种问题
网红 7 天上架 SaaS,可能是真的。
但这不代表企业研发团队就应该 7 天交付一个核心系统。
因为两者的问题根本不同。
网红做的是低组织复杂度问题:
一个人拍板; 没有历史系统; 没有合规审计; 没有复杂权限; 没有 SLA; 没有跨部门扯皮; 做坏了最多重来。
企业研发面对的是高组织复杂度问题:
多个业务方要对齐; 历史系统要兼容; 数据口径要一致; 安全权限要完整; 审计链路要留痕; 上线要灰度; 故障要回滚; 出事要有人负责。
所以,网红不是用一个人替代了一个团队。
他是选了一个原本就不需要团队的问题。
这才是超级个体的真相。
不是所有问题都能被超级个体解决。
Midjourney、WhatsApp 这些小团队案例当然值得研究。
但它们不能直接外推到银行核心、央行清算、跨境支付、医疗影像、航空管制。
这些领域公开可验证的“一个人带 AI 替代团队”案例极少。
原因也很简单:
代码可以自动生成。
责任不能自动生成。
五、AI 真正改变的,不是“人还要不要”,而是“什么人更值钱”
很多人讨论 AI,总喜欢问:
程序员会不会被替代?
这个问题太粗了。
更准确的问题是:
什么样的程序员会被放大?
什么样的程序员会被削弱?
现有实证研究给出的答案并不简单。
Brynjolfsson 等人在客服场景中发现,AI 对新手和低技能员工帮助更大,对高技能员工帮助较小。
Cui、Demirer 等人在软件开发实验中也发现,收益受采用率、经验和组织环境影响。
METR 则显示,在资深开发者熟悉的大型代码库中,AI 甚至可能带来负收益。
所以不要急着得出“AI 让所有人 10 倍”这种结论。
更接近事实的判断是:
AI 会放大差异,但放大的方向取决于任务类型、上下文复杂度、工程纪律和使用者能力。
对于低上下文、低风险、边界清晰的任务,AI 非常强。
比如脚手架、样板代码、测试样例、文档草稿、数据清洗、小工具、原型页面。
对于高上下文、高风险、强约束的任务,AI 的价值取决于人能不能驾驭它。
比如架构演进、核心交易链路、权限模型、数据一致性、跨系统迁移、线上故障修复。
未来更值钱的,不是“会不会敲代码”的人。
而是这类人:
能把模糊问题拆成清晰任务; 能判断 AI 输出是否可靠; 能设计验证闭环; 能理解业务和系统约束; 能对长期维护负责。
AI 会让普通执行型岗位承压。
但它也会让真正懂业务、懂架构、懂工程纪律的人更稀缺。
六、真正该问的四个问题
“为什么网红 7 天能做出来,我们 200 人做不到?”
这是一个坏问题。
它会把组织带向错误方向:催进度、砍流程、压测试、绕合规,最后得到一个更快但更脆的系统。
更好的问题是下面四个。
第一,哪些业务其实是低组织复杂度问题?
这类问题应该交给小团队,用 AI 快速闭环。不要再用大公司流程折磨它。
第二,哪些系统是高责任复杂度问题?
这类系统不要幻想网红式速度。AI 可以提效,但不能省掉验证、审计和责任链。
第三,非编码的 70% 能不能用 AI 提效?
需求澄清、会议纪要、测试生成、日志分析、故障复盘、合规材料、知识库检索,这里才是企业级 AI 提效的蓝海。
第四,人才结构是不是该变了?
继续堆人头,收益会越来越低。
培养能带 AI 做复杂交付的人,才是正路。
最后
最后用三句话收尾。
第一,网红快,不是因为他替代了团队,而是因为他选了一个不需要团队的问题。
第二,你的研发慢,很多时候不是因为他们不会写代码,而是因为他们在替你处理 SLA、合规、历史包袱和生产责任。
第三,真想验证,不妨给研发一个“网红同款项目”:没有合规、没有 SLA、没有历史系统、没有跨部门评审、出了问题不用追责。
你大概率会发现:
原来慢的不是技术。
是问题本身。
软件研发的本质,是驾驭复杂度。
AI 是史上最强的工具之一。
但它不是复杂度的解药。
它只能放大你已有的能力。
也会放大你已有的问题。
夜雨聆风