软件开发生命周期中的智能体式 AI:架构、经验证据与软件工程的重塑

软件开发生命周期中的智能体式 AI：架构、经验证据与软件工程的重塑

论文地址：https://arxiv.org/pdf/2604.26275作者：Happy Bhati

摘要

具备多步推理、工具使用和长程规划能力的大语言模型出现后，软件工程正在发生一次质变。早期的代码补全工具，例如 GitHub Copilot，主要作用于代码行或函数粒度；而现代智能体式系统，包括 Claude Code、OpenAI Codex CLI、Google Jules、Devin、OpenHands、SWE-agent、MetaGPT、ChatDev 和 DeepMind 的 AlphaEvolve，已经开始作用于代码仓库、功能需求或算法层面。

本文综合 Anthropic、OpenAI、Google DeepMind、Microsoft Research、Princeton、Stanford 以及更广泛学术社区的研究成果，对这一转变进行刻画。我们提出了一个面向智能体式软件工程系统的六层参考架构，对传统软件开发生命周期 SDLC 与新兴的智能体式软件开发生命周期 A-SDLC 进行了对比，并整合了关于性能、生产力和劳动力市场影响的经验证据。其中，SWE-bench Verified 上的表现从 2023 年 10 月的 1.96% 提升到 2026 年 4 月的 78.4%；受控研究显示生产力节省时间为 13.6% 到 55.8%；Anthropic 2026 年抽样数据显示，49% 的岗位中，AI 已经被用于至少四分之一的任务。

我们认为，研究的中心对象已经从代码生成转向人在监督下的委托式执行。本文识别出五个开放问题：评估、治理、技术债、技能再分配以及注意力经济。这些问题将决定智能体式转型是否最终对软件工程学科产生净正向影响。本文既面向实践者提供综合性梳理，也为该领域提出研究议程。

关键词： 智能体式 AI，大语言模型，软件工程，SDLC，自主智能体，SWE-bench，开发者生产力，多智能体系统，人机协作

1 引言

2021 年 GitHub Copilot 的发布，标志着多数软件工程师第一次在日常工作流中接触到生成式 AI 工具。Copilot 以及之后的 Tabnine、Codeium、Amazon CodeWhisperer，本质上都是编辑器内的补全系统：开发者编写代码，模型给出建议，开发者接受或拒绝。这里的认知契约非常清晰：人类仍然是工程师，模型只是一个具备判断辅助能力的自动补全工具。

五年后，这个契约已经被显著重写。Anthropic 的 Claude Code、OpenAI 的 Codex CLI、Google 的 Jules、Cognition 的 Devin，以及开源项目 OpenHands 和 SWE-agent，已经不只是补全代码，而是在执行工程工作。它们会阅读代码仓库，跨多个文件制定计划，执行 shell 命令，运行测试，观察失败，修正方案，并交付一次提交级别的变更。Anthropic 报告称，其内部大部分代码现在由 Claude Code 生成。在 Princeton 的 SWE-bench Verified 基准上，该基准旨在测试系统解决来自流行开源仓库的真实 GitHub issue 的能力，最先进系统的表现已经从 2023 年 10 月的 1.96% 提升到 2026 年春季的大约 78%。

这种变化不仅仅是数量上的。它改变了软件工程师一天中的实际工作内容，改变了 SDLC 所产生的工件，也改变了哪些技能能够获得工资溢价。同时，它也提出了治理问题，包括确定性、可审计性、安全性和知识产权等，而这些问题尚未被软件工程学科充分消化。

本文做出四项贡献。第一，在第 2 节，我们综合了主要工业实验室与学术团队在智能体式编码方面的核心工作。第二，在第 3 节，我们提出了一个六层参考架构，用于组织智能体式软件工程系统的设计空间。第三，在第 4 节，我们对传统 SDLC 与智能体式 SDLC 进行了对比。第四，在第 5 节和第 6 节，我们整合了关于性能和劳动力市场影响的经验证据，并在第 7 节识别出五个开放问题，构成该领域近期研究议程。

2 背景与相关工作

2.1 从代码补全到智能体能力

最早一批基于 LLM 的编码工具，主要训练于大规模公共源代码语料，并通过 HumanEval 和 MBPP 等基准进行评测。这些基准测试的是根据文档字符串生成单个函数的能力。此类基准很快被突破：到 2024 年，前沿模型在 HumanEval 上的 pass@1 已经超过 90%。

单函数评测趋于饱和后，Princeton 的 Jimenez 等人在 2023 年 10 月提出了 SWE-bench。该基准包含来自 12 个成熟 Python 仓库的 2,294 个 GitHub issue。SWE-bench 要求系统能够浏览真实代码库，定位相关文件，编写补丁解决 issue，并通过项目隐藏测试套件。最初的报告发现，无论系统是否使用检索增强，都无法解决超过约 2% 的 issue。

性能上限被突破，并不是因为模型单纯变得更大，而是因为模型周围的支架发生了变化。SWE-agent 由同一 Princeton 团队在 NeurIPS 2024 上提出，它表明定制化的智能体—计算机接口 ACI，即用于导航、编辑和测试的结构化命令，即使在底层模型不变的情况下，也能将问题解决率提升到 12.5%。这一发现表明，面向智能体的接口设计与模型能力本身同等重要，并成为此后该领域的组织性洞见。

2.2 工业界前沿系统

Anthropic。 Anthropic 在 2025 年初与 Claude 3.7 Sonnet 一起发布了 Claude Code 的研究预览版。Claude Code 工作于项目粒度：它读取完整代码库，规划跨文件变更，执行 shell 命令，运行测试并进行迭代。Anthropic 报告称，Claude Opus 4.7 在 SWE-bench Verified 上以 78.4% 的成绩领先。该产品将自身定位为一种委托界面，工程师定义目标并审查结果，而不是指导每一个步骤。

OpenAI。 OpenAI 的贡献呈括号状展开。2021 年，最初的 Codex 论文提出了 HumanEval。2024 年，OpenAI 与 SWE-bench 作者合作发布了 SWE-bench Verified，这是一个包含 489 个任务的子集，经过可解性与清晰度筛选。到 2026 年，GPT-5.4-Codex 支撑的 Codex CLI 已经直接与 Claude Code 竞争，并在 Terminal-Bench 2.0 和 SWE-bench Pro 上取得高分。

Google DeepMind。 DeepMind 在 2025 年 5 月推出的 AlphaEvolve，代表了另一种智能体式编码观念。它不是解决 GitHub issue，而是使用一种演化循环：由 Gemini Flash 和 Pro 模型组成的集成系统提出程序变体，自动评估器为其评分，最优变体进入下一代。AlphaEvolve 发现了一种新的 4×4 复数矩阵乘法算法，使用 48 次标量乘法，改进了 Strassen 1969 年的结果；它还推进了 50 个开放数学问题中 20% 的进展，帮助 Google 数据中心回收 0.7% 的计算资源，并让训练 Gemini 本身的 FlashAttention 内核获得了 23% 的加速。

Cognition / Devin。 Cognition 在 2024 年 3 月展示的 Devin，是第一个将 AI 软件工程师这一叙事推向商业产品主流的系统。Devin 运行在沙箱化的云虚拟机中，拥有浏览器、终端和编辑器，并可通过 Slack、Jira 或 Web UI 接收任务。尽管 Devin 最初的 SWE-bench 头部成绩已被前沿模型智能体超越，但它确立了一种产品模式，此后的商业和开源竞争者基本都沿用了这一模式。

Microsoft / GitHub。 Microsoft Research 进行了最早一批关于 Copilot 的严谨生产力研究。在一项受控实验中，使用 Copilot 的开发者完成一个 HTTP server 任务的速度比对照组快 55.8%；后续对 934,533 名 Copilot 用户的分析发现，建议接受率约为 30%，并预测到 2030 年累计 GDP 影响可达 1.5 万亿美元。Microsoft 基于 Azure 的智能体式 SDLC 参考架构，将由核心编排器协调的专用阶段智能体形式化。

2.3 学术界与开源工作

关于智能体式软件工程的学术文献正在迅速扩张。MetaGPT 和 ChatDev 都将软件开发编码为一种多智能体过程：MetaGPT 实例化产品经理、架构师、工程师和 QA 等角色，并让它们在标准作业流程下运行；ChatDev 则模拟一家虚拟软件公司，不同智能体通过聊天链进行通信。AgileCoder 在此基础上进一步引入 sprint 和动态代码依赖图。

OpenHands，原名 OpenDevin，是领先的开源通用平台，它提供 Docker 沙箱化执行环境，并支持多个 LLM 后端。AutoCodeRover 和 HyperAgent 专注于仓库级程序修复。近期综述沿着规划、记忆、工具增强和自反思等轴线，对这些工作进行了组织。

3 面向智能体式软件工程的参考架构

在异构系统中，我们观察到了一种反复出现的分层结构，可概括为六层 L0 到 L5。

L0：基础模型

基础 LLM 提供系统的推理能力与代码生成能力。Claude Opus 4.7、GPT-5.4 和 Gemini 3.1 Pro 当前锚定前沿能力；开源权重模型如 Llama、DeepSeek 和 Qwen-Coder 则支撑自托管部署。

L1：推理、记忆与自反思

这一层构成认知支架，包括思维链与 ReAct 风格规划、短期与长期记忆机制，包括 Claude Opus 4 原生生成的 memory files，以及自我批判循环。自反思在很大程度上解释了零样本模型准确率与智能体式解决率之间的差距。

L2：智能体—计算机接口 ACI

ACI 负责在 LLM 的文本 token 输出与真实计算机上的具体操作之间进行转换。Princeton 团队的核心发现是：ACI 设计质量在经验上与模型规模同等重要。

L3：工具与环境

这一层包括文件系统与编辑器操作、shell 与进程管理、Web 浏览、测试运行器与编译器，以及版本控制和 CI/CD 集成。

L4：编排

当前存在两种主导模式。单智能体循环，例如 SWE-agent 和 Claude Code，维持一个认知中心。多智能体系统，例如 MetaGPT、ChatDev、AgileCoder 和 AgentMesh，则将工作拆分给具备角色专长的多个智能体。

L5：治理与安全

这一层包括权限边界、沙箱、审计日志，以及针对敏感操作的策略。我们将在第 7 节论证，L5 当前是最不成熟的一层，并正在迅速成为企业部署的瓶颈。

4 从 SDLC 到智能体式 SDLC

经典 SDLC，无论是瀑布、迭代还是敏捷，都默认行为可以在构建时被完全指定，并在发布前完成验证。智能体式系统从两个方面打破了这一假设。

第一，系统本身具有随机性：提示漂移、上下文截断和模型更新，会在名义上相同的输入下产生非确定性行为。第二，开发过程本身也变得随机：同一个任务在不同运行中，智能体可能走出不同路径。

我们遵循近期行业框架，将智能体式 SDLC A-SDLC 与仅由 AI 助手加速的增强型 SDLC 区分开来。图 2 展示了二者差异，表 1 给出了阶段级映射。

有三个结构性差异值得强调。

第一，工作单元变小。团队不再只估算两周一个 sprint，而是将工作切分为智能体能够在几分钟到几小时内完成的任务，并在边界处由人类审查。

第二，开发者角色从生产者转向编排者、审查者和方向设定者，这更接近资深工程师或技术负责人，而非传统个人贡献者。

第三，行为指标，例如智能体接受率、升级质量和监督负担，开始替代但并不完全取代周期时间和缺陷率等流程指标。

表 1：传统 SDLC 与智能体式 SDLC 的阶段对比

阶段	传统 SDLC	智能体式 SDLC
需求	分析师撰写规格说明；干系人评审	意图规格化；智能体起草规格
设计	架构师产出图和 ADR	智能体提出并批判方案；人类选择
实现	工程师逐文件编写代码	编码智能体执行计划；人类审查
测试	QA 编写并运行测试	测试智能体生成测试套件；沙箱执行
部署	手动或流水线晋级	CI 智能体把关；人类批准生产发布
维护	On-call、工单、热修复	监控智能体分诊；修复智能体打补丁
KPI	周期时间、缺陷率	接受率、升级质量

5 经验证据

5.1 能力

图 1 展示了 2023 年 10 月到 2026 年 4 月之间，各时间点主导智能体系统在 SWE-bench Verified 上的问题解决率。该轨迹近似呈 logistic 曲线：从 1.96% 的 RAG 基线，到 SWE-agent 的 12.5%，再到 Anthropic 围绕 Sonnet 3.5 构建的首个支架系统的 33.2%，再到 Claude 3.5 Sonnet new 的 49%，Claude 3.7 Sonnet + Claude Code 的 62.3%，Claude Sonnet 4 的 72.7%，以及 Claude Opus 4.7 的 78.4%。前沿非智能体系统在约 20% 附近进入平台期，这进一步确认收益主要由支架设计驱动，而不是由原始模型能力单独驱动。

图 5 将主要系统放置在能力—自治程度二维平面上。当前前沿由前沿实验室智能体栈锚定：Claude Code、GPT-5.4 + Codex CLI 和 Gemini 3.1 Pro + Jules。AlphaEvolve 并不完全位于 SWE-bench 前沿线上，因为它针对的是算法发现任务。

5.2 生产力

生产力证据可以分为三类。

受控实验报告了最大的效果。Peng 等人发现，在 JavaScript HTTP-server 任务上，完成时间减少了 55.8%。Brandebusemeyer 等人发现，中等程度使用 Copilot 能提升效率，而过度使用会侵蚀收益。

现场实验方面，Cui 等人观察到，Microsoft 每周 pull request 数量增加了 12.92% 到 21.83%，Accenture 增加了 7.51% 到 8.69%。长期团队研究发现，即使 commit 指标保持平稳，团队绩效和感知效率也会上升。

这些数字需要与两个警示性发现一并阅读。第一，近期研究认为，AI 辅助代码可能会增加长期技术债。第二，生产力收益分布并不均匀：有经验的 Claude 用户明显比新手更成功，这表明学习曲线会进一步放大既有技能分布差异。

5.3 采用情况与劳动力市场信号

Anthropic 的季度 Economic Index 报告是当前最系统的公共使用数据来源。截至 2026 年 2 月，计算机与数学任务约占 Claude.ai 对话的 35%，并占 API 流量接近一半。在 Anthropic 的样本中，49% 的岗位已经将 Claude 用于至少四分之一的任务，这一比例高于 2025 年 1 月的 36%。

不过，当使用一种有效覆盖率指标进行加权时，软件开发者受到的影响相对于朴素任务覆盖率估算要更低。这是一个反直觉发现，原因在于开发者实际委托给 AI 的任务本身具有更高难度。

Anthropic 的劳动力市场分析发现，截至 2026 年初，高暴露职业尚未出现明确失业信号，但 22 至 25 岁劳动者进入最高暴露岗位的招聘，相对于反事实情形已经放缓约 14%。在另一项覆盖 81,000 名受访者的调查中，大约五分之一处于 AI 暴露岗位的劳动者表达了对经济替代的担忧；软件工程师属于最担忧的群体之一。

6 前沿项目的比较分析

表 2 总结了各主要项目的战略姿态。可以观察到三个显著模式。

Anthropic 主要强调委托使用场景，即具备明确人工审批关口的长程智能体式编码。OpenAI 已经收敛到相似的产品形态 Codex CLI，并在基准上展开直接竞争。Google DeepMind 则通过 AlphaEvolve 走出了一条独特的演化式路径。Microsoft / GitHub 拥有最广泛的用户基础。Princeton 和 Stanford 围绕 SWE-agent 与 SWE-bench 的开源工作，则构成了评估基础设施的底座。

尽管战略不同，收敛趋势已经很明显。所有主要项目现在都提供以下能力：第一，常驻 CLI 或 IDE 的智能体，并具备 shell、文件和测试运行器访问能力；第二，对高影响操作提供人在环路的审批；第三，某种形式的长期记忆；第四，面向非平凡任务的并行或多智能体执行；第五，关于安全和审计的完整叙事。

表 2：约 2026 年 4 月前沿智能体式编码项目

项目	旗舰系统	重点	SWE-bench
Anthropic	Claude Code，Opus 4.7	委托、记忆、安全	约 78%
OpenAI	Codex CLI，GPT-5.4	通用智能体能力	约 73%
DeepMind	AlphaEvolve + Jules	演化式发现	约 70%
Microsoft / GitHub	Copilot，Azure	企业广度	约 50%
Cognition	Devin	沙箱化 AI 软件工程师	约 14%
Princeton	SWE-agent / SWE-bench	基准与 ACI	12.5%
学术界	MetaGPT，ChatDev	多智能体 SOP	不适用

7 开放问题与研究议程

最后，我们识别出五个开放问题。我们认为，它们将主导未来两到三年的研究与实践。

7.1 超越 SWE-bench 的评估

SWE-bench 一直是不可或缺的驱动力，但它存在局限：它以 Python 为主，聚焦缺陷修复，并且提供了真实世界任务通常并不具备的标准答案测试。SWE-bench Multimodal、SWE-bench Pro、Terminal-Bench 和 SWE-Compass 正在将覆盖范围扩展到 JavaScript、多语言、多模态和生产对齐任务。

未来需要研究能够捕捉长程委托、与人类评审者协作、对既定意图的忠实性，以及避免奖励黑客行为的基准。

7.2 治理、安全与审计

2025 AI Agent Index 记录了已部署智能体系统的快速扩散，同时也指出治理文档明显不足。ADLC 框架提出人—智能体责任映射，即明确分配权限等级和审批关口，并将其作为不可选的设计步骤。如何将这一理念落地为审计员可以验证的机制，仍然是开放问题。

7.3 技术债假说

Bauer 等人认为，AI 辅助编程可能通过增加维护负担，降低有经验开发者的生产力。智能体天然偏向生产更多代码，因为生产成本很低，也偏向局部修复，因为全局重构在 token 成本上更昂贵。因此，迫切需要对智能体持续贡献下的仓库健康状况开展长期研究。

7.4 技能再分配

Anthropic 的数据表明，一个双轨市场正在形成：有经验的工程师获得复利式收益；新手则使用智能体完成工作但表现欠佳。未来需要教育研究明确训练编排技能，包括任务分解、提示、评审，以及判断何时不应委托的能力，才能保持人才管道开放。

7.5 注意力经济

如果一个智能体每小时可以产生十个看似合理的补丁，那么限速资源就变成了人类评审。面向高吞吐评审的工具研究，例如自动化 diff 摘要、行为测试生成、智能体轨迹的原则性抽样，将自然成为 2023 到 2026 年智能体研究之后的下一个研究项目。

8 结论

软件工程正处于一次非连续性跃迁之中。2021 年，问题还是语言模型是否能够可信地自动补全一个函数；到 2026 年，前沿智能体式系统已经能够解决来自成熟仓库的真实 GitHub issue 中大约五分之四的问题，并且主要 AI 实验室中有相当一部分代码由此类系统编写。

我们的判断是谨慎乐观的。智能体式系统是真实的生产力工具，而不是玩具；关于节省时间和任务委托的经验证据是实质性的，尽管分布并不均匀。但代码生成并不是正确框架。正确框架是人在监督下的委托式执行。长期赢家将是那些最早投资于委托所需流程、治理和技能的组织。

我们勾勒出的研究议程，本质上是一套确保人在环路中保持牢固位置，同时让机器承担打字工作的研究议程。

致谢

感谢 SWE-bench、SWE-agent 和 OpenHands 的开源维护者，也感谢 Anthropic、OpenAI、Google DeepMind、Microsoft Research 和 Cognition 的公共文档团队。正是他们发布的报告，使本文的综合分析成为可能。

参考文献

[1] Anthropic. Claude 3.5 Sonnet 在 SWE-Bench 上的表现，2024。[2] Anthropic. 发布 Claude 3.7 Sonnet 与 Claude Code，2025。[3] Anthropic. 发布 Claude 4，Opus 4 与 Sonnet 4，2025。[4] Anthropic. Anthropic Economic Index：来自 Claude 对话的洞察，2025 年 1 月基线。[5] Anthropic. 理解 AI 使用方式的新构件，2025。[6] Anthropic. 81,000 人告诉我们的 AI 经济学，2026。[7] Anthropic. Claude Code：Anthropic 的智能体式编码系统，2026。[8] Anthropic. AI 的劳动力市场影响：一种新度量与早期证据，2026。[9] Anthropic. Claude Opus 4.7 模型卡与系统报告，2026。[10] Anthropic. Anthropic Economic Index 报告：学习曲线，2026 年 2 月数据。[11] Jacob Austin 等. 使用大语言模型进行程序综合，2021。[12] S. Bauer 等. AI 辅助编程通过增加技术债和维护负担降低有经验开发者生产力，2025。[13] Charlotte Brandebusemeyer、Tobias Schimmer、Bert Arnrich. 开发者使用生成式 AI 的经验：来自经验混合方法现场研究的初步洞察，2026。[14] S. Casper 等. 2025 AI Agent Index：记录已部署智能体式 AI 系统的技术与安全特征，2026。[15] Mark Chen 等. 评估经过代码训练的大语言模型，2021。[16] Neil Chowdhury 等. SWE-bench Verified 简介，OpenAI 技术报告，2024。[17] Codebridge. 智能体式 AI 软件开发生命周期：安全 ADLC 手册，2026。[18] Cognition Labs. 介绍 Devin，首个 AI 软件工程师，2024。[19] Thomas Dohmke、Marco Iansiti、Greg Richards. 软件开发中的巨变：AI 驱动开发者生命周期的经济与生产力分析，2023。[20] EPAM. 智能体式开发生命周期 ADLC：面向超越 SDLC 的 AI 系统新模型，2026。[21] X. Gao 等. SWE-Bench-CL：面向编码智能体的持续学习，2025。[22] Google DeepMind. AlphaEvolve：由 Gemini 驱动、用于设计高级算法的编码智能体，2025。[23] Sirui Hong 等. MetaGPT：面向多智能体协作框架的元编程，ICLR，2024。[24] Carlos E. Jimenez 等. SWE-bench：语言模型能否解决真实世界 GitHub issue？ICLR，2024。[25] Sourena Khanzadeh. AgentMesh：用于软件开发自动化的协作式多智能体生成式 AI 框架，2025。[26] Y. Liu 等. 关于 LLM 赋能智能体式系统的软件工程基准与解决方案综述，2025。[27] Minh-Hoang Nguyen 等. AgileCoder：基于敏捷方法论的软件开发动态协作智能体，2024。[28] Alexander Novikov 等. AlphaEvolve：用于科学与算法发现的编码智能体，2025。[29] OpenAI. GPT-5.4-Codex 与 Codex CLI 0.120：技术概览，2026。[30] Shashikanta Parida. 使用智能体式 AI 现代化 SDLC 流程，Microsoft Data Science Blog，2025。[31] Sida Peng 等. AI 对开发者生产力的影响：来自 GitHub Copilot 的证据，2023。[32] Huy Nhat Phan 等. HyperAgent：用于规模化解决编码任务的通用软件工程智能体，2024。[33] Chen Qian 等. ChatDev：用于软件开发的通信式智能体，2024。[34] R. Sapkota 等. 智能体式 AI：架构、应用与未来方向综合综述，2025。[35] Xingyao Wang 等. OpenHands：面向通用智能体式 AI 软件开发者的开放平台，ICLR，2025。[36] Yanlin Wang 等. 软件工程中的智能体：综述、格局与愿景，2025。[37] Jason Wei 等. 思维链提示激发大语言模型推理能力，NeurIPS，2022。[38] John Yang 等. SWE-agent：智能体—计算机接口使自动化软件工程成为可能，NeurIPS，2024。[39] John Yang 等. SWE-bench Multimodal：AI 系统能否泛化到视觉软件领域？2024。[40] Shunyu Yao 等. ReAct：在语言模型中协同推理与行动，ICLR，2023。[41] Yuntong Zhang 等. AutoCodeRover：自主程序改进，ISSTA，2024。[42] Y. Zhao 等. SWE-Compass：迈向大语言模型智能体式编码能力的统一评估，2025。