软件工程智能体在运行中自我进化？-夜雨聆风

本文最后更新于2025-11-26，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

软件工程智能体在运行中自我进化？

论文旨在突破现有软件工程智能体“静态脚手架”瓶颈，提出并验证一种可在运行时持续自我进化的通用范式。核心待解决问题可归纳为：
静态脚手架局限现有 LLM 智能体依赖人工预设的固定工具集与流程，面对多样化、跨语言、跨仓库的真实软件任务时，常因工具不匹配或流程僵化而表现次优。
离线自我改进代价高且泛化差近期“自改进”方法（DGM、SICA、HGM）需在特定基准上离线训练数百小时，生成静态代理后无法随任务变化继续演化，跨 LLM、跨基准迁移能力弱，单轮成本高达数万美元。
手工设计空间爆炸为每类任务手工扩展工具与流程极其昂贵，几乎无法穷尽无限设计空间。
LIVE-SWE-AGENT 的解决思路：将“智能体即软件”这一洞察形式化为运行时自我进化机制——从仅含 bash 的最小脚手架出发，让 LLM 在解决真实问题的每一步自主决定“是否即时合成/修改工具”，无需任何离线训练或额外管道。通过轻量级“步骤后反思”提示，把工具创造提升为与普通动作同等级的显式决策，实现：
任务级工具定制：针对当前 issue 动态生成最契合的脚本工具
在线持续迭代：工具随理解深入而被反复修正，避免一次性设计失误
零额外成本：不改动底层循环、不引入训练开销，对任意 LLM 与脚手架即插即用
实验表明，该范式在 SWE-bench Verified 与 SWE-Bench Pro 上分别取得 75.4 % 与 45.8 % 的 SOTA 开源成绩，逼近最佳商业系统，同时较离线自改进方法节省千小时级 GPU 时间与数万美元成本，从而验证了“运行时自我进化”可有效解决静态脚手架高成本、低泛化、难维护的核心痛点。

软件工程智能体在运行中自我进化？

wang

猜你喜欢