研究人员认为:AI 智能体并未取代软件工程,而是将其扩展到了代码之外的广阔领域

关键要点
· 研究人员认为,AI 代理不会让开发者变得过时。相反,它们正在用所谓的“半可执行工件”(如提示词、工作流和决策程序)来扩展软件工程。
· 为了描绘这一图景,他们提出了一个由六个层级构成的“半可执行堆栈”,从核心的传统代码开始,一直延伸到最外层的如欧盟《人工智能法案》等社会因素。
· 该研究表明,开发人员的核心工作正在从仅仅编写代码发生转变。现在的重点在于决定构建什么、如何验证它以及如何保持其运行。
流行的说法是,AI 代理正在吞噬越来越多的编程工作,开发者将走向过时。查尔姆斯理工大学和沃尔沃集团的研究人员发表的一篇新论文认为,这种观点没有抓住要点。
研究人员提出了不同的看法:基于代理的 AI 系统用他们所谓的“半可执行工件”扩展了软件工程。这些包括提示词、工作流、策略、升级规则和决策程序。它们与代码一样直接地塑造系统行为,但它们依赖于人类或概率性的解释才能实际运行。
六个层级,而不仅仅是代码
该论文的核心是“半可执行堆栈”,一个由六个层级构成的诊断模型。最中心是第 1 层:经典代码。向外依次是,第 2 层:提示词和自然语言规范;第 3 层:编排好的代理工作流;第 4 层:控制系统,如护栏和监控;第 5 层:操作性的组织逻辑,如决策程序;第 6 层:社会与制度适配性,包括像欧盟《人工智能法案》这样的框架。

“半可执行堆栈”将软件工程的工程对象扩展为六个层级,从中心的可执行代码到边缘的社会适配性。越往外层,执行就越依赖于人类解释,而非确定性的机器逻辑。 | 图片来源:Feldt 等人
作者指出,软件工程历来关注第 1 层和第 2 层。现在,第 2 层至第 5 层正在变成高优先级的工程对象,而第 6 层则愈发决定什么在实践中真正有效。
研究人员认为,最大的缺口在于外层的第 5 层和第 6 层。针对代码的工程方法已经存在了几十年,但针对决策程序、治理和制度适配性的工程方法仍然缺失。
大多数研究仍然集中在第 1 层到第 3 层的代码生成、错误修复、测试和基准测试上。
研究人员用三个观察结果支持他们的论点:第一,AI 不需要达到顶尖工程师的水平就能改变团队的工作方式;它只需要“足够好”。
第二,规模比峰值性能更重要。对于一个组织来说,许多小规模的、日常的 AI 部署比罕见地接触顶级专家能带来更多价值。
第三,随着越来越多的领域专家使用自然语言构建自己的系统,对清晰工程实践的需求不降反增。
常见的反对意见转化为工程问题
研究人员没有回避关于可靠性、代码混乱等方面的常见批评,而是将它们重新定义为工程任务。当代理产生幻觉时,测试和监控变得更加重要,而不是减弱。当 AI 更快地产出代码时,维护成本也随之上升。
比如“提示词漂移”:某人调整了提示词,系统行为开始变化,之后没人能搞清原因。
当组织难以应对这种转变时,过渡本身就成为一项工程挑战。研究人员写道,精细判断难以自动化这一事实,无疑会使其在低级任务变得更便宜、更自动化的过程中,变得更有价值,而不是更无价值。
对实践者而言,这篇论文阐明了一点:“稀缺技能正从‘更快地构建’转向决定:什么值得构建或改变、哪个层级实际被改变了、该变更如何被验证、如何被治理,以及如何长期维护。”
将 AI 仅仅视为提升第 1 层和第 2 层效率的工具的团队,或许能看到局部的生产力提升,但会错过关于组织重构的更大问题。
该论文与 Robert Feldt 在里约热内卢举行的“Agentic Engineering 2026”研讨会上的主题演讲相辅相成,并部分借鉴了与沃尔沃合作伙伴在汽车行业的工业成果。
夜雨聆风