每一次编程革命,都把问题留给了验证
——从雷奥到 LLM:软件工程三十年的轮回与验证危机
摘要:本文试图梳理一条隐秘的脉络——从 30 多年前的 DOS 工具“雷奥(Layout)”,到 90 年代轰轰烈烈的 CASE 浪潮,再到 DevOps 的反馈革命,直至今天的大模型(LLM)编程。我们并非在单纯回顾历史,而是在揭示一个残酷的工程守恒律:每一次试图消灭“编码”的努力,都只是在把复杂度转移到“验证”环节。 软件研发能否像芯片设计那样严肃?所谓的“软件工厂”究竟是愿景还是歧途?
一、历史的幽灵:雷奥(Layout)与“可视化”的诱惑
将时钟拨回 30 多年前。在那个 DOS 占据主导的年代,存在着一个名为 雷奥(Layout) 的工具。它不是一门语言,而是一个套件:Desktop 外壳、Flowchart(流程图)、Cards(卡片数据)、Paint(绘图)和 HelpMaker。
雷奥代表了早期 4GL(第四代非过程化编程语言) 精神的具象化:可视化即编程。你不再需要记忆复杂的 C 语言语法,只需在画布上拖拽流程图节点、设计卡片字段、摆放按钮。雷奥承诺:“你配置,我生成。”最终,它会吐出 C、BASIC 或 Pascal 的源代码。
这与我们今天用自然语言描述需求、LLM 吐出代码的过程,在结构上惊人地相似:
1. 输入形态:从“流程图/卡片”变成了“自然语言 Prompt”。 2. 生成机制:从“模板替换”变成了“概率预测”。 3. 信任路径:依然依赖于最终人类对生成物的理解与调试。
雷奥的失败不仅是因为 DOS 环境的局限,更因为它暴露了 4GL 的根本缺陷:表达空间的狭窄与生成物的不可辩论性。一旦你的需求超出了预设构件(流程图节点、卡片类型)的语义范围,工具就束手无策,而生成的代码往往晦涩难读,成为“黑箱”。
二、CASE 的狂想与遗产:死于“试图建模一切”
雷奥之后,更大的野心登场了——CASE(计算机辅助软件工程)。在中国,这股浪潮催生了北大青鸟工程和中科院软件所的 CASE 系统,甚至出现了以音译命名的“开思(CASE)”公司。
CASE 试图将软件研发升级为“软件工厂”。其核心逻辑是:
• 分离关注点:分析师画 DFD(数据流图)、ER 图(实体关系图),设计师负责结构,程序员只负责填空。 • 自动化生成:模型画好,代码自动生成,文档自动产出。
然而,这场运动最终以失败告终。但我们必须公正地评价:CASE 失败的不是“建模”本身,而是“试图建模一切”。
CASE 的深远遗产至今活跃:
今天的软件工程基础设施中,充满了 CASE 的影子:
• UML / ER 图:依然是架构师沟通复杂系统的语言。 • PowerDesigner / Enterprise Architect:仍在核心系统中用于数据建模。 • OpenAPI (Swagger):用 YAML 描述接口,自动生成 SDK、文档和 Mock,这本质上就是 CASE 的当代形态。 • Terraform / Kubernetes:用声明式配置(HCL/YAML)描述基础设施和应用编排,然后由系统生成具体的运行状态。
CASE 死于边界的无限扩张:
它试图把所有软件逻辑都塞进模型的格子里,甚至幻想消除程序员。它忽略了软件中最活跃的部分——业务逻辑和异常处理——往往是最难被模型化的。当模型无法表达现实时,程序员就开始在生成的代码上打补丁,最终导致图与代码的双向漂移。
CASE 的遗产是:建模是有价值的,但试图用模型取代代码是行不通的。
三、大模型时代:局部规范,全局割裂
今天,LLM 正在以摧枯拉朽之势席卷编程领域。正如前文所述,它正在做当年雷奥和 CASE 想做但没做成的事——极大地降低“想法到代码”的摩擦力。
如果说雷奥是“刀耕火种”,LLM 就是“现代化农机”。它拥有前所未有的输入带宽(自然语言几乎无约束)和生成粒度(从函数到整个项目)。
但历史的幽灵并未散去,反而变本加厉。我们迎来了新的危机,正如业内所担忧的:
大模型以数倍甚至数十倍的速度生产代码,超出了人类单位时间的评审能力。
这导致了验证瓶颈(Verification Bottleneck):
• 局部规范,全局割裂:LLM 生成的代码往往风格统一、命名规范,甚至比人类写的更“漂亮”。但这只是局部的正确。 在系统层面,它经常破坏现有的架构约束、忽视隐式的业务不变量,导致代码库在微观上整洁,在宏观上腐烂。 • 隐性 Bug 更难发现:LLM 擅长模仿模式,但不理解物理世界的约束(内存边界、并发锁、业务不变量)。它生成的代码往往“看起来对”,但一跑就崩,或者更糟,潜伏着逻辑炸弹。 • 技术债的高速堆积:当生成速度远快于消化速度,代码库会变成一座无法维护的迷宫。 • Prompt 与代码的漂移:正如当年图与代码脱节,如今人修改了代码却忘了更新 Prompt,导致生成逻辑逐渐失效。历史再次重演:一旦生成物(代码)脱离了生成源(Prompt/模型)独立演进,源头就会迅速沦为失去约束力的“废纸”。
人们从未解决问题,只是转化了问题。我们从“写不出代码”的危机,转化成了“审不过代码”的危机。
四、被忽略的转折点:DevOps 与反馈回路
在 CASE 失败(90 年代)到 LLM 崛起(2020s)之间,软件工程经历了一场静默但更成功的革命——DevOps。
CASE 试图解决的是编码效率,但它失败了。
DevOps 解决的是验证反馈效率。
DevOps 的核心不是工具,而是缩短反馈回路:
写代码 → 提交 → 构建 → 测试 → 部署 → 监控 → 反馈通过 CI/CD、自动化测试、蓝绿部署和可观测性,DevOps 让“验证”这件事变得廉价且高频。它承认:代码一定会出错,但我们可以通过快速的反馈和回滚来控制损失。
LLM 与 DevOps 的分工:
• LLM 解决了“从想法到代码”的瓶颈(生成速度)。 • DevOps 解决了“从代码到可信”的瓶颈(验证速度)。
如果没有 DevOps 打下的基础设施,LLM 生成的海量代码将是一场运维灾难。正是 DevOps 建立的这套“软性流片”机制,勉强承接住了 LLM 的冲击。
五、思辨:软件研发能像芯片设计那样“严肃”吗?
这里触及了一个核心痛点。芯片到达"流片(Tape-out)"——即设计数据最终交付晶圆厂制造的那道关口——是成本不可撤回的起点。一次错误可能意味着数百万美元的损失和数月的延误。因此,芯片行业拥有近乎偏执的验证文化:形式验证、等价检查、数十亿时钟周期的仿真。
软件业被称为 “Soft”ware,修改似乎很容易,代价似乎很小。但这是一种错觉。软件的代价往往以另一种形式支付:
1. 数据灾难:一次错误的 Schema 变更或数据迁移,可能导致千万级用户数据污染,修复成本不亚于流片失败。 2. 依赖坍塌:Log4j、XZ 后门这类事件证明,软件供应链的“流片”是全球性的,且代价巨大。 3. 认知破产:这是最昂贵的代价。当代码量超过团队的理解能力,系统就进入了“无法维护”状态。你可以改代码,但没人敢改,因为不知道会炸在哪里。
结论:软件确实需要像芯片一样严肃,但我们不能指望物理掩膜(Mask)来倒逼我们严肃。我们必须人为建立等效流片机制。
但这必须是一场基于经济学的动态博弈:
• 核心骨干系统(金融交易、基础架构、核心链路):故障具有级联效应,一次错误可能引发连锁数据污染。因此,必须选择高成本的“硬性流片”(严格契约、形式化验证)。 • 边缘系统(营销页、活动插件、内部工具):容错成本低,故障影响范围小。因此,最优解是选择低成本的“软性流片”(DevOps 的快速迭代、秒级回滚)。
一刀切地要求所有软件都“等效流片”,是不经济的;一刀切地放任所有软件“随意修改”,是危险的。
六、重构“软件工厂”:从装配线到工程纪律
“软件工厂”这个提法本身没有错,错的是对其的解读。
• 错误的理解(CASE 之路):工厂 = 流水线 = 人可替换。试图消除人的主观判断,将软件变成标准件装配。 • 正确的理解(工程之路):工厂 = 工程纪律与可重复体系。
真正的“软件工厂”不应该聚焦于如何更快地生成代码(那是农机的任务),而应聚焦于如何确保生成的代码是可信的。它需要建立以下门禁:
1. 契约前置(Design by Contract):代码不仅仅是代码,必须附带不变量(Invariants)、前置条件(Preconditions)和后置条件。LLM 不仅要写函数,还要写证明它为什么对的证据(测试、属性、类型约束)。 2. 可追溯性:建立从 Prompt/Issue->Code->Test->Review的强关联。当代码变更时,能自动评估影响面。3. 验证自动化(中度流片):将人类的评审压力卸载给机器。利用静态分析、模糊测试(Fuzzing)、差分测试等手段,对 LLM 生成的代码进行“暴力体检”。 4. 弹性发布(软性流片):承认软件不同于芯片的特质——弹性。通过 CI/CD、渐进式发布(灰度、蓝绿部署)和生产环境可观测性(Observability),在发现错误时能秒级回滚,用流程的流动性对抗代码的不确定性。
七、未来图景:从“所见即所得”到“所证即所得”
回看历史,雷奥的梦想是“所见即所得”(WYSIWYG)的可视化编程;CASE 的梦想是“模型即所得”;LLM 的梦想是“所说即所得”。
这三个阶段,其实都在试图缩短“意图”与“产物”之间的路径。但历史的启示是:也许正确的方向并非进一步缩短路径,而是改变“所得”的定义。
未来的软件工程,将从代码即产物转向证据即产物。这要求我们建立一种新的权力结构:
| 雷奥/CASE | |||
| 3GL/LLM | |||
| 未来(所证即所得) | 证据+构件 | 规范制定者 / 契约裁判 | 混合验证体系 |
在这个新结构里,LLM 不再是“副驾驶”,而是取证官。它最重要的产出不再是 main.c,而是 proof.log 和 test_report.html。
随之而来的是职业角色的演化:
• 规范工程师(Spec Engineer):专门负责把模糊的业务意图,翻译成机器可验证的契约( .spec文件、.invariant断言)。• 验证工程师(Verification Engineer):不再写单元测试,而是写反例生成器和模糊测试策略,专门试图打破 LLM 生成的代码与契约的一致性。
这里有一个关键疑问需要解答:为什么“所证即所得”在过去(如 Eiffel、TLA+)失败了,而在 LLM 时代可能成功?
历史上,形式化验证之所以未能普及,是因为编写证明的复杂度往往高于编写代码本身。但在 LLM 时代,这个逻辑可能反转:
1. 翻译成本的转移:人类负责用自然语言描述清晰的业务规则和边界(这是人类擅长的),LLM 负责将这些规则翻译成机器可执行的契约、测试用例和形式化属性(这是机器擅长的)。人类的评审精力得以从“逐行阅读代码实现”解放出来,聚焦于“评估契约与边界是否完备”。 2. 混合验证体系的崛起:我们不再奢望全量的形式化验证。未来将是类型系统 + 静态分析 + 高密度仿真(Fuzzing) + 关键路径形式化的混合体。LLM 负责生成覆盖边界的测试用例,人类负责审核关键契约。
自然语言只是交互的表面,真正的质量锚点将是一套机器可判定的规范语言。这或许才是下一代“4GL”应有的样子:不是更强大的生成器,而是更严格的裁判。
八、结语:从“图书馆”到“工作台”
回望 30 多年前图书馆里那本关于雷奥的书,再到今天满屏的 AI 生成代码,我们仿佛走了一个闭环。
雷奥试图用“流程图”封装复杂性,CASE 试图用“模型”封装复杂性,LLM 试图用“自然语言”封装复杂性。它们都在试图跳过“人理解复杂性”这一步。
但软件工程的残酷真理在于:复杂性不能被消除,只能被转移。 你要么在写代码时直面它,要么在调试和维护时偿还它。
未来的出路,不在于寻找更聪明的“雷奥”,而在于建立更严苛的“流片厂”。我们必须学会敬畏每一行代码背后的逻辑重量——无论它是人写的,还是机器生成的。
毕竟,软件之所以“Soft”,不是因为它脆弱,而是因为它承载着人类思想中最柔软、也最易变的部分。 守住这份严肃,才是对历史最好的致敬。
夜雨聆风