Vol.006 | AI技术分享
从 Vibe Coding 到 Agentic Engineering,企业真正要解决的,已经不是“能不能快速生成代码”,而是“能不能建立一套以 Spec 为边界、以 Harness 为验证、以 Human-in-the-loop 为底线的可持续交付体系”。

今天最不稀缺的,是几分钟做出一个 Demo,然后开始口嗨;最稀缺的,是把一个系统稳定送进生产,然后能够持续迭代。AI 正在重塑软件工程,但它改变的首先是“生成效率”,而不是“交付纪律”。从 Vibe Coding 到 Agentic Engineering,真正决定 AI 工程价值的,不是模型能生成多少代码,而是团队能否建立一套以 Spec 为边界、以 Harness 为验证、以 Human-in-the-loop 为底线的可持续交付体系。
01
AI 最先改变的,是“生成速度”
必须承认,AI 对软件开发的第一轮冲击非常真实,而且极具颠覆性。
过去,一个产品想法从界面原型到功能骨架,可能需要产品、设计、前后端来回协作几天;今天,很多事情在一个 IDE、一个对话框、一个 Agent 工作流里,就能迅速完成第一版。
AI 最擅长的,是把“开始”变得非常轻。
它能快速生成页面,快速补齐样板代码,快速搭起主流程,快速给出一套“看起来已经差不多”的解决方案。这也是 Vibe Coding 最让人上头的地方:它压缩了从 0 到 1 的启动时间,让“做一个 Demo”变得几乎没有门槛。
于是,很多团队自然会得出一个判断:既然第一步已经这么快了,后面的交付是不是也会一起变快?
现实通常不是这样。
因为 AI 压缩掉的,主要是最容易被看见、最适合展示的那一部分;而真正决定企业系统能不能上线、能不能长期运行、能不能承受真实业务压力的,往往是那些不在演示里发光、却在生产里决定生死的部分。
02
真正难的,从来不是做出来,而是交付进去
企业级系统的复杂度,从来不体现在“能不能先跑起来”,而体现在“能不能长期正确地跑下去”。
一个 Demo 只要主流程能通,就足以令人兴奋;但一个生产系统要面对的,是海面下那 80% 的真实复杂度:
权限是否严密 数据是否一致 状态是否可追踪 异常是否可处理 风险是否可审计 高并发下是否稳定 跨系统集成是否可靠 出了问题能否快速定位、回退、修复
这些问题,不会因为 AI 会写代码就自动消失。
恰恰相反,如果系统是靠“感觉差不多”堆出来的,它们只会在后期以更高成本集中爆发。很多团队的共同体验是:前面几天像在飞,后面几周像在填坑。
因为纯靠直觉驱动、由 AI 自由发挥生成出来的代码,本质上往往是局部成立、整体脆弱的。它可以很快搭出一个壳,但很难天然长出企业真正需要的边界、秩序、约束和责任链条。
Demo 不需要为错误负责,生产环境必须负责。
而企业真正购买的,从来不是“会动的演示”,而是“可被信任的交付”。
03
从 AI Coding 到 Agentic Engineering,复杂度不降反升
如果说早期的 AI Coding 主要还是“人主导、AI 辅助”,那么今天很多团队已经进入下一个阶段:Agentic Engineering。
在这个阶段里,AI 不只是补全代码,而是开始承担更完整的工程任务,比如:
理解目标 拆解步骤 调用工具 修改多文件 执行脚本 运行测试 根据结果继续迭代
这当然是效率上的巨大升级。但与此同时,它也把风险从“代码片段质量问题”升级成了“任务链路偏航问题”。
一个只会生成函数的模型,最多写出一段烂代码;一个能自主行动的 Agent,如果没有边界约束,就可能在错误前提上一路执行,把小问题放大成系统级问题。
所以从 AI Coding 走向 Agentic Engineering,真正变化的不是“AI 更强了”这么简单,而是工程的焦点变了:过去我们关心的是,AI 会不会写代码;现在我们更应该关心的是,AI 在什么边界内行动、依据什么规则行动、出了偏差如何被发现和纠正。
这才是企业落地的关键。
04
没有 Spec,Agent 只会把不确定性放大
很多团队以为,AI 足够强,就能自行补齐需求中的模糊地带。这对 Demo 有时成立,对企业交付往往是灾难。
因为 Agent 的行动力越强,模糊输入带来的放大效应就越明显。如果没有清晰的规格定义,所谓“自动化推进”,本质上只是更快地偏离目标。
所以,企业要真正用好 AI,必须从“凭感觉开发”转向 Spec-Driven Development。
这里的 Spec,不只是文档,更不是写给人看的形式主义。在 AI 时代,Spec 是给人和 Agent 共同使用的约束系统,至少要回答四个问题:
第一,业务上到底要解决什么问题
包括目标用户、业务规则、权限边界、关键流程、异常处理、验收标准。让 AI 理解“为什么做”以及“哪些东西不能乱碰”。
第二,系统应该如何组织
包括模块边界、数据模型、状态流转、接口契约、依赖关系。让 AI 不是随意拼接,而是在一个有结构的框架里生成和修改。
第三,Agent 可以怎么执行
包括能调用哪些工具、能改哪些范围、哪些步骤必须人工确认、失败后如何中断。让 AI 的行动被放进轨道,而不是放任其“自我发挥”。
第四,什么才叫真正完成
包括测试要求、性能下限、安全红线、日志要求、可观测要求。让 AI 知道,完成不等于跑通,而是达到可交付标准。
没有 Spec,AI 能生成很多东西;但没有 Spec 的生成,最终很难沉淀成真正可靠的系统。

05
没有 Harness,所谓自动化只是“自信地试错”
如果说 Spec 解决的是“应该做什么”,那么 Harness 解决的就是“怎么证明它做对了”。这是很多团队最容易忽视、但又最决定成败的一层。
因为 Agent 不只是会输出,它还会行动。一旦开始行动,就必须有一套围绕它运行的验证闭环。否则,所谓自动化,往往只是把试错过程包装得更流畅。
一个真正有价值的 Harness,至少应该具备几种能力:
1. 有边界的执行环境
Agent 能看什么、改什么、调什么,都应该被限定。没有边界的智能,不是效率,而是风险。
2. 可验证的中间产物
不要让 Agent 一口气“做完整个需求”,而要把过程拆成可检查的阶段:需求理解、方案输出、代码改动、测试结果、验收结论。这样错误才能被尽早拦住,而不是最后才集中爆炸。
3. 自动化测试与回归机制
单元测试、集成测试、lint、类型检查、安全扫描、关键路径验收,都应成为 Harness 的一部分。Agent 不能靠“我觉得差不多”来宣布任务完成。
4. 全过程可观测
它看了什么上下文、做了什么决策、调用了哪些工具、改了哪些文件、为什么判断自己成功——这些都必须可追踪。没有可观测性,就没有办法复盘、优化,也没有办法形成组织级能力。
5. Human-in-the-loop
再强的 Agent,也不应该绕开责任链条。高风险改动、关键业务流程、上线验收、异常结果确认,都必须留有人类介入点。AI 的价值是提高吞吐,不是绕开治理。
所以可以说:Spec 是方向盘,Harness 是刹车和仪表盘。只有两者同时存在,Agentic Engineering 才可能进入企业级可用阶段。
06
真正的落地,不是多接几个模型,而是重建交付秩序
很多团队谈 AI 落地,第一反应是接模型、接工具、接工作流。这些都重要,但它们还不构成真正的落地。
真正的落地,是把 AI 纳入一套可持续演进的交付体系里。
这套体系的核心,不是“让 AI 自动干活”,而是让组织逐步建立起以下能力:
把模糊需求转化为可执行规格 把单点编码升级为多角色、多工具的任务编排 把传统测试升级为面向 Agent 的持续评测 把交付过程升级为可观测、可复盘、可修正的闭环 把个人提效升级为组织级工程纪律
说到底,企业最终拼的从来不是“哪个模型更会写”,而是“谁能把智能能力放进稳定秩序中”。
未来最强的团队,不一定是写代码最快的团队;而是最懂得如何定义边界、设计约束、组织协同、验证结果、沉淀方法的团队。
因为当代码生成越来越便宜,真正昂贵的就变成了四件事:
你定义得是否足够清楚 你约束得是否足够严格 你验证得是否足够完整 你交付得是否足够稳定
这才是 AI 时代新的工程门槛。
07
结语:演示是起点,持续交付才是分水岭
AI 不会取消软件工程。恰恰相反,它会逼着软件工程回到本质。
因为当“生成”越来越容易,真正决定价值的就不再是做出一个东西,而是能否把一个复杂系统,以可控、可验证、可持续的方式交付给真实业务。
从 Vibe Coding 到 Agentic Engineering,企业真正需要的不是更多炫目的演示,不是更热闹的工具清单,也不是一句“AI 将替代开发者”的口号。
企业真正需要的,是一套新的交付秩序:
用 Spec 明确边界 用 Harness 构建验证 用 Human-in-the-loop 守住责任 用工程纪律换取持续交付能力
演示很容易,落地靠体系。生成只是起点,持续交付才是 AI 工程真正的分水岭。
只有跨过这一步,AI 才不会停留在“看起来很聪明”的层面,而会真正成为组织进化的新基础设施。
Reference
[1] OpenAI Platform Documentationhttps://platform.openai.com/docs
[2] Model Context Protocolhttps://modelcontextprotocol.io/
[3] Anthropic — Claude Code / Agent engineering related materialshttps://www.anthropic.com/
[4] 本文为编辑性技术评论,重点在于讨论 AI Coding、Agentic Engineering、Spec 与 Harness 如何走向企业级落地与可持续交付。
夜雨聆风