AI 没有让软件工程变简单,只是换了种难法

如果明天起，写代码变得和打字一样廉价，什么会变得昂贵？

这不是假设。Kent Beck 最近提出了"编程通缩"理论^[1]：当开发成本趋近于零，代码会像互联网时代的内容一样泛滥——商品化代码淹没市场，而精心打造的软件反而愈加珍贵。他用出版业做类比：1995 年出版是稀缺资源，今天人人都能发布内容，但优质内容比任何时候都更值钱。

软件正在经历同样的转折：

• GitHub Copilot 拥有 2000 万用户^[2]
• Cursor 日活超过 100 万^[3]
• 85% 的开发者已经在使用 AI 工具（JetBrains 2025 调查^[4]）
• 41% 的代码由 AI 生成（JetBrains 2025 调查^[4]）
• Dario Amodei 预测这个数字很快会突破 90%

代码在通缩。但复杂度没有。

这就是第一性原理告诉我们的事情——也是这篇文章要回答的核心问题：当 AI 重塑了软件工程的"怎么做"，我们需要重新理解"做的是什么"。

一、回到第一性原理：软件工程的本质是什么

Brooks 的遗产：40 年前的预言

1986 年，Fred Brooks 发表了软件工程史上最有影响力的论文之一——《没有银弹》^[5]。他将软件开发的困难分为两类：

• 本质复杂度（Essential Complexity）：问题本身的固有难度——理解用户需要什么、建模业务领域、管理概念间的交互关系。这部分复杂度由问题决定，无法被任何工具消除。
• 偶然复杂度（Accidental Complexity）：实现过程的附带产物——语法规则、样板代码、构建配置、API 查阅、跨平台适配。这部分复杂度由工具和方法带来，理论上可以被更好的工具消减。

Brooks 的结论是：由于本质复杂度占了软件困难的大部分，没有任何单一技术能在十年内将生产力提升 10 倍。

40 年过去了，这个框架依然是理解 AI 对软件工程影响的最佳透镜。

AI：偶然复杂度的最强消解器

AI 编程工具在偶然复杂度上的消解能力是前所未有的：

• 语法和样板代码：AI 可以瞬间生成任何语言的模板代码，开发者不再需要记忆 API 签名
• 文档查阅：与其翻文档，直接问 AI"这个库怎么用"
• 重复性 CRUD：标准的数据库操作、表单验证、REST 端点，AI 生成的质量已经足够好
• 跨语言翻译：从 Python 到 Go、从 React 到 Vue，AI 让语言壁垒近乎消失

Addy Osmani 在 Google 观察到的"70% 问题"^[6]精确地描述了这个边界：AI 可以快速产出大约 70% 的代码——脚手架、明显的模式、标准的实现。但剩余的 30%——边缘情况、调试、生产系统集成、安全——和以前一样耗时。

这个 70/30 的分界线，本质上就是 Brooks 的偶然/本质复杂度分界线在 2026 年的投影。

复杂度守恒：被转移而非被消除

这里有一个关键的认知陷阱：AI 消除偶然复杂度，不等于消除复杂度。

一个直接应用 Kolmogorov 复杂度理论的分析^[7]指出：AI 工具可以降低表达的复杂度（用 10 页自然语言描述替代 2 万行代码），但无法突破系统描述所需的最小信息量。复杂度被转移了——从编写代码转移到了审查代码、从语法问题转移到了架构问题、从"写不出来"转移到了"分不清对错"。

DORA 2025 报告^[8]提供了组织级的证据：采用 AI 工具后，开发者个人产出提升了 21%，PR 合并数量增加了 98%——但组织级的交付指标几乎持平。报告的结论令人警醒：

AI 是一面"哈哈镜"，它放大你流水线中已有的好与坏。

Grady Booch 一语中的：

"Fear not, developers. Your tools are changing, but your problems are not."

实操：识别你工作中的本质/偶然复杂度

在你的日常工作中画一条线：

	偶然复杂度（放心交给 AI）	本质复杂度（必须亲自掌控）
需求	查文档、翻译语言	理解用户的真实需求（而非表面需求）
设计	生成测试用例的初始框架	决定系统边界——什么该做、什么不该做
编码	写样板代码、标准 CRUD	在矛盾约束中做取舍——性能 vs 成本
维护	格式化、重命名、机械性重构	判断 AI 代码在当前系统上下文中是否正确

一个简单的检验标准：如果你能用一句话精确描述预期结果，它大概率是偶然复杂度；如果你需要反复讨论才能定义"正确"是什么意思，它就是本质复杂度。

二、数据真相：感知与现实的 43 个百分点

在讨论"如何应对"之前，我们需要先校准认知。因为关于 AI 编程工具的生产力数据，存在一个惊人的感知-现实鸿沟。

METR 研究：最令人不安的发现

2025 年，METR 组织了迄今最严格的 AI 编程生产力随机对照试验^[9]。16 名经验丰富的开源开发者，在他们自己维护的成熟代码库上（平均 10 年历史、100 万行以上代码），分别在有和没有 AI 工具辅助的情况下完成 246 个真实任务。

结果：

• 使用 AI 工具的开发者比不使用的慢了 19%
• 实验前，开发者预测 AI 会让他们快 24%
• 实验后，开发者仍然相信自己快了 20%

开发者对 AI 效果的主观感受和客观测量之间，存在 43 个百分点的差距。 即使亲身经历了"变慢"，他们依然相信自己"变快了"。

这不是个例。McKinsey 2026 年调研^[10]也发现了类似的模式：AI 工具在常规编码任务上确实减少了 46% 的时间，但他们特别强调——仅仅提供 AI 工具"并不能真正推动指标"，公司必须重新架构整个构建方式。

代码质量：可度量地恶化

CodeRabbit 对 470 个 GitHub PR 的分析^[11]揭示了 AI 代码的质量代价：

维度	AI 代码 vs 人类代码
总体问题数	1.7 倍
逻辑/正确性错误	1.75 倍
可读性问题	3 倍
XSS 漏洞	2.74 倍
密码处理不当	1.88 倍

更令人担忧的是系统性数据^[12]：AI 辅助开发者的提交速率是同行的 3-4 倍，但引入安全问题的速率是 10 倍。到 2025 年 6 月，AI 生成代码每月新增超过 10,000 个安全发现——比 2024 年 12 月增加了 10 倍。

Adam Tornhill 的研究进一步揭示了一个非线性效应：LLM 在不健康代码库中的缺陷风险上升 30%，在遗留系统中恶化速度更快。Rachel Laycock 在 ThoughtWorks 2026 年峰会上总结道：

"AI 只是你已有能力的加速器。"好的实践被加速，坏的实践也被加速。

实操：建立你团队的 AI 生产力基准线

不要盲目相信感觉，建立可度量的基准：

第一步：选择度量维度

• 不要只看"代码行数"或"PR 数量"（这些被 AI 通胀了）
• 关注：需求到交付的端到端时间、生产环境缺陷率、代码审查返工率

第二步：做对照实验

• 在同类型任务上，对比 AI 辅助和非辅助的完成时间
• 重点关注成熟代码库上的复杂任务（不是绿地项目的脚手架搭建）
• 追踪 AI 生成代码在后续 30 天内引发的 bug 和返工

第三步：计算真实 ROI

• 将 AI 工具订阅费、审查时间、额外的 bug 修复时间纳入成本
• 与纯粹的"编码时间节省"做对比
• 你会发现真实的 ROI 远比供应商宣传的保守——但仍然是正的

三、五个关键转变与实操指南

3.1 从"写代码"到"编排代码"

Andrej Karpathy 2025 年提出 vibe coding，一年后自己宣布它"过时了"^[13]。关于 vibe coding 引发的开发者社区分裂，可以参考我之前的文章《Vibe Coding 的危与机：AI 编程正在撕裂开发者社区》。他的新框架是 agentic engineering：

"默认不再是你直接写代码，99% 的时间你在编排执行任务的 agent，充当监督者。"

Martin Fowler 在 ThoughtWorks 2026 年峰会^[14]上提出了"监督工程的中间循环"：在传统的内循环（写代码）和外循环（交付流水线）之间，出现了一个新的工作环节——指导 AI、评估输出、纠正偏差。

但讽刺的是，Karpathy 自己最新的项目是手写的。DHH 也经历了从强硬怀疑者到 agent-first 拥护者的戏剧性转变。这些案例说明：编排和手写不是二选一，而是一个根据场景动态调节的光谱。

实操：3 步转型编排工作流

1. 从"描述需求"开始，而非从"打开编辑器"开始。在写任何代码前，先用自然语言写清楚这段代码要做什么、边界条件是什么、与系统其他部分如何交互。这份"规格说明"既是给 AI 的输入，也是你自己思考的工具。关于规范驱动开发的深入实践，可以参考我之前的文章《AI 编程的下一站：规范驱动开发与 Spec Kit、OpenSpec 对比解析》。
2. 建立"分治-验证-集成"的节奏。将任务分解为 AI 可以独立完成的小块（每块不超过 200 行），逐块生成、逐块审查、逐块测试。不要让 AI 一次生成整个功能模块——那会超出你的审查能力。
3. 保留"手写"的肌肉。至少在核心业务逻辑、安全关键路径和架构决策点上亲自编写。就像飞行员必须保持手动操控能力一样，工程师需要保持"我能不依赖 AI 完成这件事"的能力。

3.2 从"信任默认"到"验证优先"

Kent Beck 在 AI 时代重新发现了 TDD 的价值^[15]。他说 TDD 是与 AI 协作的"超能力"——先写测试约束 AI 的输出空间，再让 AI 在约束内生成实现，测试自动验证正确性。

这不是理论上的优雅。Beck 在用 AI 构建 B+ 树库时失败了三次，因为早期的尝试积累了过多复杂度，导致 AI"完全停滞"。成功的第四次，他全程用 TDD 保持代码简洁、复杂度可控。

Martin Fowler 的比喻更直白：

"对待 AI 生成的每一段代码，都要像审查一个很高产但你不能信任任何东西的不靠谱合作者的 PR。"

Stack Overflow 2025 调查^[16]也印证了这一点：只有 29% 的开发者信任 AI 输出的准确性（比 2024 年的 40% 进一步下降）。59% 的开发者承认使用自己不完全理解的 AI 代码。这是事故的温床。

实操：AI 代码的验证清单

每次接受 AI 生成的代码前，过一遍这个清单：

• [ ] 我能用一句话解释这段代码的意图吗？ 如果不能，不要合并
• [ ] 边界条件被覆盖了吗？ AI 擅长 happy path，但经常忽略 null、空集合、并发、超时
• [ ] 有测试吗？测试是我写的还是 AI 写的？ 如果 AI 同时生成了代码和测试，测试大概率是同义反复的——它测试的是"代码做了什么"而非"代码应该做什么"
• [ ] 安全检查通过了吗？ AI 代码的 XSS 漏洞率是人类的 2.74 倍，密钥泄露率翻倍
• [ ] 这段代码在六个月后还能被理解吗？ AI 生成的代码可读性问题是人类的 3 倍

核心理念：先定义"正确"是什么，再让 AI 去实现它。 而不是先让 AI 写代码，再试图判断它对不对。

3.3 从 DRY 到"持久层 + 可再生层"

当重写代码的成本趋近于零，架构哲学也需要更新。

Google Cloud 的 Christina Lin 提出：当重构和重写变得廉价，软件从"静态纪念碑"变为"不断再生的有机体"。Denis Urayev 将其概括为从"可复用代码"到"可再生代码"的范式转换。

但这不意味着一切都可以随便重写。实际涌现的框架是一个双层架构：

• 持久层（人类掌控）：核心业务逻辑、不可变的 API 契约、安全关键路径、数据模型。这些代表了组织知识的结晶，难以被重新生成。
• 可再生层（AI 可以处理）：工具函数、适配器、UI 组件、样板代码、格式转换。这些可以按需重新生成，不需要为长期可维护性过度工程化。

DRY 原则并没有过时——在 AI 大量生成重复代码的时代，保持"每一条知识都有唯一权威来源"比以往更重要。但 DRY 的适用范围收缩到了持久层；在可再生层，可读性和可重新生成性比去重更重要。

实操：划分你代码库的持久/可再生边界

问三个问题：

1. 如果这段代码消失了，我能让 AI 在 10 分钟内重新生成一份功能等价的吗？ 如果能，它属于可再生层。
2. 这段代码里有没有只存在于团队成员脑子里、不在任何文档中的业务知识？ 如果有，它属于持久层。
3. 修改这段代码需要理解系统的多少上下文？ 上下文越多，越属于持久层。

持久层（人类掌控）	可再生层（AI 可处理）
支付结算逻辑	API 路由注册
权限模型	表单校验
数据迁移脚本	数据格式转换
领域模型定义	日志格式化

3.4 从"语言专家"到"领域专家"

Kent Beck 观察到一个技能价值的根本性转移：

AI 淘汰了曾经高杠杆的技能（语言专精、框架记忆），放大了愿景、策略、任务拆解和反馈循环的价值。

当 AI 可以流利地写任何语言的代码，"我是 Java 专家"或"我精通 React"不再是差异化优势。当 AI 可以秒查任何 API 文档，记忆力不再有溢价。

Addy Osmani 的"70% 问题"揭示了真正的瓶颈所在：AI 搞定了 70% 的脚手架和模式匹配，但剩余 30% 的边缘情况、生产集成和安全加固仍然是深水区。而这 30%，恰恰需要的不是语法知识，而是领域知识——理解支付系统的清算周期、医疗系统的合规要求、金融系统的风控逻辑。

Steve Yegge 的生产力曲线描绘了这个趋势的加速：代码补全带来小幅提升（2023），聊天编程带来约 5 倍提升（2024），Agent 编程再带来约 5 倍（2025）。每一次跃迁都让"写代码"的环节更不值钱，让"理解问题"的环节更值钱。

实操：技能投资组合调整

重新分配你的学习时间：

减少投资（被 AI 快速商品化）	增加投资（AI 无法替代且价值上升）
记忆语法和 API 细节	领域知识：深入理解行业业务逻辑、合规要求、用户行为
掌握第 N 种编程语言	系统思维：理解组件交互、全局影响、取舍判断
手写样板代码的速度	精确表达：用自然语言清晰描述需求和约束
背诵设计模式的实现	品味与判断：直觉感知脆弱代码、潜在崩溃点

3.5 从"个人效率"到"系统效率"

DORA 2025 报告揭示了一个反直觉的事实：AI 让个体更快了，但组织没有更快。

为什么？因为个人效率的提升被其他环节吞噬了：更多的代码意味着更多的审查负担，更快的提交频率带来更多的合并冲突，AI 引入的 bug 增加了后续的修复成本。开发者每人产出的 PR 数量增加了 20%，但每个 PR 引发的事故也增加了 23.5%。

Klarna 是最典型的教训^[17]。CEO 最初庆祝公司通过 AI 替代了约 40% 的员工，从 5000 人缩减到约 3000 人。但客户投诉上升、满意度下降、AI 无法处理需要同理心的复杂问题。不到 18 个月，CEO 公开承认"我们走得太远了"，开始重新招聘人类员工。

Phodal 将这称为"10 倍悖论"：AI 同时放大生产力和风险——"以前做得不好的，有了 AI 加速变得更糟"。

实操：团队级 AI 采纳框架

不要把 AI 工具采纳当成给个人买许可证的事。它需要系统级的规划：

1. 统一审查标准。AI 生成的代码和人类编写的代码，审查标准应该一样——甚至更严格。建立明确的 AI 代码审查指南，包括安全检查、测试覆盖率要求和可读性标准。
2. 投资工程基建。AI 在健康代码库上效果好、在遗留代码库上效果差。优先投资代码健康度（重构、测试覆盖率、文档），这是 AI 时代基础设施的"公路和桥梁"。
3. 保护初级人才管道。当前数据显示入门级招聘下降了 25%^[18]，70% 的招聘经理认为 AI 可以完成实习生工作。但 Addy Osmani 警告这是"缓慢衰变"——今天不培养初级开发者的公司，5-10 年后就没有高级开发者。刻意为初级工程师设计 AI 辅助下的学习路径，而非用 AI 替代他们的岗位。

四、不同角色的行动清单

初级工程师：在管道危机中生存

1. 打牢基本功，而非依赖 AI 跳过基本功。59% 的开发者在使用自己不理解的 AI 代码。你和他们的区别，就是你是否真的理解底层机制。花时间手写关键算法、理解框架源码、调试 AI 犯的错——这些"低效"的练习正是构建不可替代能力的过程。
2. 发展领域专长，而非追逐语言数量。当 AI 让任何人都能写任何语言的代码，"会写代码"不再是入场券。选一个行业深扎进去——理解业务逻辑、合规要求、用户痛点。领域知识是 AI 时代的护城河。
3. 学会与 AI 协作，但保持批判思维。使用 AI 工具提高效率，但对每段 AI 代码保持"我来证明它是错的"而非"我假设它是对的"的态度。这个习惯会让你在职业生涯中走得更远。

高级工程师：转型为编排者

1. 将你的经验编码为约束。你脑子里那些"这样做会出问题"的直觉，需要变成 AI 可以遵循的规则——测试用例、架构约束、代码审查检查项。Kent Beck 将 TDD 原则编码进了给 AI 的系统提示中，你也应该把你的工程判断编码成约束。关于如何通过 Skills、MCP、Rules、Agents 将工程规范系统化地传递给 AI，可以参考我之前的文章《AI 编程工具的四层能力体系》。
2. 掌握"监督工程"的中间循环。从"我来写代码"转变为"我来指导 AI 写代码、审查 AI 的输出、纠正 AI 的偏差"。这需要新的技能：更精确的需求表达、更快速的代码审查、更系统的验证方法。
3. 主动承担"教学"角色。在初级人才管道收缩的大背景下，Martin Fowler 特别强调高级工程师作为导师的价值。找到你的 AI 辅助下的教学方法——不是教他们怎么写代码，而是教他们怎么思考系统。

技术管理者：避免 DORA 陷阱

1. 度量端到端交付，而非编码速度。DORA 报告最大的教训：个人产出的提升不自动等于组织交付的提升。如果你的度量体系只看"代码产出量"，你会得到更多代码、但不一定得到更多价值。关注需求到上线的完整周期、生产环境缺陷率、客户交付价值。
2. 投资工程基建，而非许可证堆叠。给每个开发者买 AI 工具许可证很简单。让你的代码库健康到 AI 能高效工作于其上，才是真正的投资。Adam Tornhill 的数据显示 LLM 在不健康代码库上的缺陷风险上升 30%——你的代码库是否准备好接受 AI 了？
3. 为 Klarna 时刻做准备。不要把 AI 当作裁员工具。Klarna 用血泪教训证明了这条路的终点。用 AI 提升团队的交付能力而非减少团队的人数——重新定义角色，而非消灭角色。

结语：软件工程的不变量

回顾历史上的每一次范式转换，有一个清晰的元规律：

范式转换	什么变了	什么没变
汇编 → 高级语言	硬件抽象，生产力 5x+	底层知识仍是专家关注点
瀑布 → 敏捷	从大批次到小增量	设计、验证、迭代的核心活动
单体 → 微服务	部署独立、团队自治	复杂度从代码迁移到基础设施
手写 → AI 辅助	代码生成自动化	对本质复杂度的人类判断

每次转换都用一种复杂度换另一种，扩展了可尝试的范围，但从未消除对人类判断的需求。

AI 对软件工程的冲击，正在遵循同样的轨迹。它不会让软件工程消失——它会让软件工程重新定义自己。

Grady Booch 说得好：

"Your tools are changing, but your problems are not."

40 年前 Brooks 就看到了这个事实：软件工程的本质不是写代码，而是管理复杂度。 代码只是管理复杂度的手段之一。当 AI 接管了这个手段的大部分，软件工程师并没有失业——他们只是回到了这个职业最初始、最本质的角色：

理解混乱的现实世界，将其转化为有序的系统。

这个能力，从来都不廉价。

引用链接

[1]"编程通缩"理论:https://tidyfirst.substack.com/p/programming-deflation
[2]2000 万用户:https://techcrunch.com/2025/07/30/github-copilot-crosses-20-million-all-time-users/
[3]日活超过 100 万:https://www.digitalocean.com/resources/articles/github-copilot-vs-cursor
[4]JetBrains 2025 调查:https://devecosystem-2025.jetbrains.com/artificial-intelligence
[5]《没有银弹》:https://en.wikipedia.org/wiki/No_Silver_Bullet
[6]"70% 问题":https://addyo.substack.com/p/the-70-problem-hard-truths-about
[7]Kolmogorov 复杂度理论的分析:https://iamsweeper.com/2506-conservation-of-complexity-when-using-ai/
[8]DORA 2025 报告:https://dora.dev/research/2025/dora-report/
[9]METR 组织了迄今最严格的 AI 编程生产力随机对照试验:https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/
[10]McKinsey 2026 年调研:https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/unlocking-the-value-of-ai-in-software-development
[11]CodeRabbit 对 470 个 GitHub PR 的分析:https://www.coderabbit.ai/blog/state-of-ai-vs-human-code-generation-report
[12]系统性数据:https://labs.cloudsecurityalliance.org/research/csa-research-note-ai-generated-code-vulnerability-surge-2026/
[13]一年后自己宣布它"过时了":https://thenewstack.io/vibe-coding-is-passe/
[14]ThoughtWorks 2026 年峰会:https://martinfowler.com/bliki/FutureOfSoftwareDevelopment.html
[15]重新发现了 TDD 的价值:https://newsletter.pragmaticengineer.com/p/tdd-ai-agents-and-coding-with-kent
[16]Stack Overflow 2025 调查:https://survey.stackoverflow.co/2025/ai
[17]Klarna 是最典型的教训:https://www.fastcompany.com/91468582/klarna-tried-to-replace-its-workforce-with-ai
[18]入门级招聘下降了 25%: https://spectrum.ieee.org/ai-effect-entry-level-jobs