开发者如今借助 AI 工具发布的代码量是过去的十倍。但我们理解这些代码实际在做什么的能力几乎没有提升。于是,我花了几周时间深入研究这一现象。
代码生成正在指数级增长,人类对系统行为的理解却停滞不前。团队发布的 PR 数量可能是去年的四倍,但 QA 规模没变,测试覆盖率没增加,真正懂得复杂业务逻辑的资深工程师也没有被复制。每天数千条警报中,大约三分之二因为疲劳被忽略,仍有大量缺陷进入生产环境。
我们为‘现在是什么是真的’建立了复杂基础设施,却几乎没有为‘为什么会这样’留下记录。这导致 AI 编码工具生成的代码看似完美,却在生产环境中频繁崩溃——它们只能访问状态时钟(state clock),而真正积累系统推理的事件时钟(event clock)则完全缺失。

理解的鸿沟
即便 AI 可以迅速生成代码,我们仍然缺少理解系统行为的能力。两个月后,另一个工程师接手同一模块时,可能需要从零开始分析。PR 已合并,但审阅者只看了前几十行,辅助函数中的边界情况被忽略。曾经认真讨论过的架构替代方案和权衡,也可能只存在于离职员工的记忆里。
这种现象导致每个组织都在支付我称之为碎片化税(fragmentation tax)的代价:手动拼接分散在各种工具中的上下文,每个工具只看到现实的一部分,而整体理解被严重削弱。
事件时钟与系统行为
软件系统不像物理世界,它的‘物理规律’不是质量和动量,而是数据流动力学。一个请求如何在微服务间传播?当功能开关开启时更改配置会发生什么?当前依赖状态下的部署影响范围有多大?这些问题的答案依赖于事件时钟,而不仅仅是静态状态。
缺乏事件时钟意味着系统的历史决策、修复和架构选择背后的推理被遗失。测试套件只能验证孤立组件,却无法告诉你真实用户操作下的系统表现。这正是为什么仅靠测试、CI 检查和代码评审,无法填补理解鸿沟。

代码模拟:弥补认知盲点
在机器人学中,世界模型允许在实际执行前模拟动作,在想象中安全探索危险场景。软件也可以类似:建立一个能够理解代码行为的世界模型,不只是‘读代码’,而是模拟整个系统在各种交互下的表现。
通过这样的模拟,我们可以识别最脆弱的代码路径、可能导致事故的配置、关键客户工作流的风险,并恢复过去被遗失的决策推理。系统使用过程中积累的证据,让它比单纯的重训练更聪明,就像资深工程师在脑中建立的内部模型一样。
生产级应用与成果
实际应用中,类似 PlayerZero 的系统能在生产前预测问题,90% 的缺陷在触达客户前就被发现和修复。它不是在生产环境燃烧时才报警,而是在点燃火柴前告诉你哪里可能出问题。
通过 Code Simulations,公司减少了工程支持工时 80%,将 bug 复现周期从几周缩短到几分钟。这些不仅是试点,而是生产规模的系统性变革。
过去,开发工具关注的是速度:写得快、交付多。现在,真正的挑战是理解能力,而不是生成能力。只有建立系统的世界模型,才能让代码不仅能运行,还能被团队理解、预测和控制。
AI 写代码带来的效率提升是巨大的,但如果没有同步提升理解和模拟能力,整个软件生态将继续为隐性缺陷和技术债付出代价。建立事件时钟、模拟系统行为,是弥补这一认知鸿沟的唯一途径。
英文原文:The $1 Trillion Blind Spot In Software Engineering
阅读原文,请前往:https://digest.grandeaihub.com
更多免费AI工具,请前往:https://grandeaihub.com
#软件工程 #AI编程 #代码理解 #技术债务 #系统模拟
夜雨聆风