新的软件生命周期(New SDLC,Software Development Life Cycle)

我与他人合著了一份 Google 白皮书，讲 AI 如何改变软件生命周期。我不打算概括整份报告。下面是我认为真正重要的几个观点，外加六张插图，欢迎随意复用。

Google 本周发布了《Vibe Coding 时代的新 SDLC》。我与 Shubham Saboo 和 Sokratis Kartakis 合著了这份报告。它是一个短系列的第一篇。

这是 Day 1 报告，所以前几页覆盖了基础概念：什么是 Agent、什么是"vibe coding"、为什么工作的重心从写代码转向评判代码。如果你在读这个博客，这些你应该已经知道了。我跳过这些，只写我认为值得你花时间读的部分，外加六张抽出来的图。图你们随便用。

Agent = 模型 + 套件（Harness）

报告中有一个框架我反复回想：Agent 等于一个模型加上一个套件（Harness）。

模型只是一个输入。其他一切都是套件：指令和规则文件、工具和 MCP 服务器、它运行的沙箱、生成子 Agent 和在模型之间路由的编排逻辑、在指定节点运行确定性代码的钩子、以及告诉你它何时偏离轨道的可观测性。报告粗略划分为：10% 模型，90% 套件。这个比例听起来很高，直到你花了一周时间调试一个套件。

模型是引擎。套件是车、路和交通规则。

几个公开数据让关系变得具体。在 Terminal Bench 2.0 上，一个团队只改了套件——底层模型没变——就把一个编程 Agent 从 30 名开外提到了前 5 名。LangChain 的另一个实验在同一个基准上只改了系统提示词、工具和中间件，就加了 13.7 分。两者都没有碰模型。

所以当 Agent 做出蠢事时，我学会了先调试套件。通常原因是：缺少某个工具、规则写得太松、忘了加护栏、或上下文窗口里塞满了垃圾。大多数 Agent 失败本质上是配置失败。我发现这反而令人鼓舞——因为配置是我今天就能修的东西，不需要等一个更好的模型出来。反正模型迟早会被套件下面的东西换掉。我在《套件工程》和《工厂模型》中更详细地展开过。

上下文工程是决定你账单的部分

如果套件是系统，上下文工程就是系统中最重要的旋钮。报告将 Agent 上下文分为六类：指令、知识、记忆、示例、工具和护栏。真正有趣的决策——也是会体现在你账单上的决策——是什么放进静态上下文，什么放进动态上下文。

静态上下文每次对话回合都会加载，所以它可靠且昂贵。动态上下文按需加载，所以你只为当前任务需要的部分付费。

静态上下文每次对话回合都会加载：系统指令、规则文件（AGENTS.md、CLAUDE.md、GEMINI.md）、全局记忆、核心护栏。它可靠，也很贵——因为你在每一次调用中都在为它付费。动态上下文按需加载：任务匹配时触发的技能、工具结果、从 RAG 中拉取的文档。你只为某个任务触及到的部分付费。

把这个平衡搞错一个方向，你会烧掉 token 并淹没信号；搞错另一个方向，Agent 会忘记保证它安全运行的规则。报告的建议，我同意的是把边界当作一个真正的架构决策来处理：在 PR 中审查，像代码一样做版本管理。

让动态上下文可扩展的秘诀是渐进式披露的 Agent Skills。Agent 在启动时看到少量元数据，任务匹配时才加载完整的指令，只在确实需要时才拉入沉重的参考材料。这就是一个 Agent 可以携带十几个 skills，但只需为正在用的那一个付费的原因。

验证是 vibe coding 和工程之间的分界线

同一个 Agent 可以落在从 vibe coding 到 Agent 工程之间光谱的任何位置。决定你落在哪里的东西是验证。

在光谱上的正确位置取决于风险。技能在于知道每个任务该把线画在哪里。

有两种机制。测试覆盖确定性的部分：这个输入，那个输出。评估（Eval）覆盖非确定性的部分——报告对它们的分类我觉得很有用。输出评估问的是最终结果是否正确。轨迹评估问的是它到达那里的路径——工具调用和推理过程——是否合理。两者都需要。一个看起来正确但跳过了检查的答案，比一个明显坏掉的答案更危险。

如果要我给领导者一句话，那就是：把标准定在评估上，而不是演示上。 演示展示 Agent 能工作一次。一个带真实评分标准的评估套件展示它能可靠地工作。我一直在做这个论证。

每个阶段实际如何变化

AI 压缩了生命周期，但压缩得不均匀，而这种不均匀才是关键。实现从几周降到几小时。需求、架构和验证仍然很慢，因为它们是判断性工作。所以规范质量成为瓶颈，而验证被移到了中间。

相同阶段，不同瓶颈，不同比例。

逐个阶段看：

需求不再是团队间传递的文档。它们变成了一场同时产出规范和第一个原型的对话。Agent 从简短描述中起草用户故事、暴露边界情况，让一段描述在几分钟内变成能跑的东西。

架构是最顽固地保留给人类的阶段。一致性 vs 可用性这样的权衡依赖模型无法完全理解的业务上下文。开发者的工作变成做出并记录结构性的决策，然后由 Agent 来实现。

实现是增益和警示同时存在的地方。调查显示生产力提升在 25% 到 39% 之间。但 METR 的一项研究发现，有经验的开发者在某些任务上——把检查和修复的时间算进去之后——反而慢了 19%。两种说法都对。诚实的总结是：AI 把实现从书写变成了审阅。

测试和质量保障被翻转了过来。你的测试和评估成为你告诉 Agent"正确"是什么意思的主要方式，嵌入一个循环中：在基准上运行 → 对失败聚类 → 修复导致它们的提示词或工具 → 用回归套件检查 → 观察生产环境中的新问题。

维护——这是我认为最被低估的一个。那些"太冒险不敢动"的代码——因为只有它的作者才理解它——现在可以被 Agent 阅读、重构和现代化。那些因为太繁琐、太冒险而从未发生的迁移和废弃清理，开始发生了。

这一切的天花板仍然是 80% 问题：Agent 能快速完成一个功能的前 80%，但最后的 20%——边界情况和各系统之间的接缝——仍然需要模型通常不具备的上下文。

经济学：上下文和模型路由是财务杠杆

对领导者来说，重要的数字不是速度，而是总拥有成本（TCO）。AI 时代以一种颠覆直觉的方式拆解它。

越过交叉点后，vibe coding 每个功能的花费高出 3 到 10 倍。代码需要存活多久，决定了你是否会到达那个交叉点。

Vibe coding 前期便宜，运行起来贵。 启动时几乎不花什么钱：一个订阅和一些提示词。然后你之后付出代价。Token 烧钱——把非结构化的文件扔进模型让它修自己的错误。维护税——几个月后有人不得不逆向工程那些临时拼凑的代码。安全清理——因为快速生成的漏洞和功能一样快。

Agent 工程与之相反： 前期投入更多（模式、测试、结构化上下文），之后每个功能的成本更低。

"Vibe coding 每个功能贵 3 到 10 倍"这个交叉点是示意性的，不是一个精确常数。我希望开发者带走的是：上下文工程和模型路由是财务杠杆，不只是技术杠杆。 你不能把一个 10 万 token 的代码库塞进每个提示词里还指望它能扩展。把困难的推理路由到大模型，把常规工作——测试生成、代码审查、CI 检查——路由到小型廉价模型。质量保持不变，账单降下来。这就是我称为"编排税"的财务面。

原型正在变成生产 Agent

这是报告中我最关注的部分。同一个生成一次性脚本的终端工作流，现在可以产生一个生产级 Agent——在同一个地方，通常通过与你已经在用的编程 Agent 对话就能完成。

构建、评估和部署一个真正的 Agent——带持久记忆、限定权限、评估覆盖和可观测性——过去是一个独立的栈、一份独立的工作。现在它融入了你已经在跑的循环。Google 的 Agents CLI 就是围绕这个理念构建的。一次性安装后，你的编程 Agent 学会整个生命周期的技能，你用自然语言驱动它：

# one-time setupuvx google-agents-cli setup# then, in your coding agent:> Build a support agent that answers questions from our docs.> Evaluate it on the FAQ dataset.> Deploy it to Agent Engine.

在这条指令背后，它搭建项目、编写代码、生成评估集、运行评估、部署到托管运行时，然后回报结果。昨天你笔记本上的原型变成了今天服务用户的生产 Agent，无需重写。Agent 之间的协调基于开放标准：MCP 用于工具，A2A 用于将工作交给其他 Agent。

报告中有一个实验我一直在跟人提起。Anthropic 的一个团队让一群 Agent 在两周内用 Rust 构建了一个能用的 C 编译器——人类设定方向和审查，而不是写代码。这大致就是未来的方向。

日常中你在两种模式之间切换，报告称之为指挥（Conductor）和编排器（Orchestrator）。指挥是实时的、在 IDE 内、逐键交互，适合探索和不熟悉的代码。编排器是异步的：你把一个目标交给一个或多个 Agent，然后审查返回的结果，适合规范化、明确的工作——如迁移或测试生成。现在的工具两者都支持，有时在同一小时内。我认为从指挥到编排器的转变，首先是技能的转变，然后才是工具的转变。

给其他人的那张图

还有一张图，这张不是给你的。是给你想带动的人看的——那些仍然认为这不过是高级自动补齐的高管、那些还没跟上来的同事。

每一代都保留了前一代的能力，并提高了单个工程师能做到的天花板。

上面有那些通常会终结"这东西到底是不是真的"争论的采用数据。截至 2026 年初，85% 的专业开发者经常使用 AI 编程 Agent，51% 每天使用，约 41% 的新代码是 AI 生成的。

从哪里开始

报告最后有一组更长的建议，面向个人、领导者和组织。我不在这里全部复述。

如果要挑一句话带走，那就是：AI 放大了它所落脚的工程文化——好的部分和坏的部分都是。 生成现在很大程度上已经解决了。剩下的工作是规范制定和验证，以及将这两者维系在一起的那些系统。这是我会去精进的部分。

原文：The New Software Lifecycle — Addy Osmani^[1]

对话私信：The New SDLC，可获取51页原文pdf。

参考资料

[1]

The New Software Lifecycle — Addy Osmani: https://addyosmani.com/blog/new-sdlc-vibe-coding/