软件工程智能体在运行中自我进化?

论文旨在突破现有软件工程智能体“静态脚手架”瓶颈,提出并验证一种可在运行时持续自我进化的通用范式。核心待解决问题可归纳为:
静态脚手架局限 现有 LLM 智能体依赖人工预设的固定工具集与流程,面对多样化、跨语言、跨仓库的真实软件任务时,常因工具不匹配或流程僵化而表现次优。
离线自我改进代价高且泛化差 近期“自改进”方法(DGM、SICA、HGM)需在特定基准上离线训练数百小时,生成静态代理后无法随任务变化继续演化,跨 LLM、跨基准迁移能力弱,单轮成本高达数万美元。
手工设计空间爆炸 为每类任务手工扩展工具与流程极其昂贵,几乎无法穷尽无限设计空间。
LIVE-SWE-AGENT 的解决思路: 将“智能体即软件”这一洞察形式化为运行时自我进化机制——从仅含 bash 的最小脚手架出发,让 LLM 在解决真实问题的每一步自主决定“是否即时合成/修改工具”,无需任何离线训练或额外管道。通过轻量级“步骤后反思”提示,把工具创造提升为与普通动作同等级的显式决策,实现:
任务级工具定制:针对当前 issue 动态生成最契合的脚本工具
在线持续迭代:工具随理解深入而被反复修正,避免一次性设计失误
零额外成本:不改动底层循环、不引入训练开销,对任意 LLM 与脚手架即插即用
实验表明,该范式在 SWE-bench Verified 与 SWE-Bench Pro 上分别取得 75.4 % 与 45.8 % 的 SOTA 开源成绩,逼近最佳商业系统,同时较离线自改进方法节省千小时级 GPU 时间与数万美元成本,从而验证了“运行时自我进化”可有效解决静态脚手架高成本、低泛化、难维护的核心痛点。
静态脚手架局限 现有 LLM 智能体依赖人工预设的固定工具集与流程,面对多样化、跨语言、跨仓库的真实软件任务时,常因工具不匹配或流程僵化而表现次优。
离线自我改进代价高且泛化差 近期“自改进”方法(DGM、SICA、HGM)需在特定基准上离线训练数百小时,生成静态代理后无法随任务变化继续演化,跨 LLM、跨基准迁移能力弱,单轮成本高达数万美元。
手工设计空间爆炸 为每类任务手工扩展工具与流程极其昂贵,几乎无法穷尽无限设计空间。
LIVE-SWE-AGENT 的解决思路: 将“智能体即软件”这一洞察形式化为运行时自我进化机制——从仅含 bash 的最小脚手架出发,让 LLM 在解决真实问题的每一步自主决定“是否即时合成/修改工具”,无需任何离线训练或额外管道。通过轻量级“步骤后反思”提示,把工具创造提升为与普通动作同等级的显式决策,实现:
任务级工具定制:针对当前 issue 动态生成最契合的脚本工具
在线持续迭代:工具随理解深入而被反复修正,避免一次性设计失误
零额外成本:不改动底层循环、不引入训练开销,对任意 LLM 与脚手架即插即用
实验表明,该范式在 SWE-bench Verified 与 SWE-Bench Pro 上分别取得 75.4 % 与 45.8 % 的 SOTA 开源成绩,逼近最佳商业系统,同时较离线自改进方法节省千小时级 GPU 时间与数万美元成本,从而验证了“运行时自我进化”可有效解决静态脚手架高成本、低泛化、难维护的核心痛点。
夜雨聆风
