AI编程最尴尬榜单来了:顶级Agent重构仍未过50%��

算灵岛导读：Scale AI 补齐了 SWE Atlas 最后的重构能力榜单。在284个真实代码仓库的重构任务里，即便顶尖代码智能体，得分也卡在40分区间，始终没能突破50%。这也给市面上吹得满天飞的「AI 已经能独立写代码」，浇了一盆实打实的冷水。

Scale AI 发布 SWE Atlas 完整套件，补齐 Refactoring leaderboard。

5 月 7 日，Scale AI 发布了完整的 SWE Atlas 套件，补上了重构排行榜这块最后拼图。Codebase QnA、测试编写、代码重构三张榜单全部出炉后，结果有点扎心：按这次发布的数据看，目前顶级系统的三项成绩都卡在 40 分上下，没有一个能迈过 50% 这道坎。

这次的看点不在于又多了一张排行榜，而在于它把 AI 编程的考核标准，从“能不能写出补丁”拉到了资深工程师的日常维度：读得懂系统、写得对测试、跨文件重构、清理旧代码，还不能把边缘场景搞坏。

说白了，AI 已经很会“像程序员那样敲代码”，但离“像工程师那样维护系统”，还差着不小的距离。

会写代码，和会维护系统，是两回事

现在 AI 圈的大方向很明确：AI Agent 正在从聊天框走进真实的工作流程。语音、支付、办公、编程，每个领域都在问同一个问题：这东西到底靠不靠谱？

编程本来是最让人乐观的赛道。Claude Code、Codex CLI、Cursor 这些工具，已经实实在在改变了很多开发者的日常。给它任务、报错、测试，它真的能一路跑通。

但 Scale 这次考的不是“能不能写出补丁”，而是补丁前后整条工程链路的完整性。

SWE Atlas 建立在 SWE-Bench Pro 的基础上。后者侧重真实软件问题能不能被解决；前者把视野拉得更宽，要看调查、验证、维护这些更难自动化的环节。

SWE Atlas 覆盖系统问答、测试编写、代码重构三类任务。

这 284 个任务，考的就是工程师每天绕不开的三件事：先把陌生系统摸清楚，再写出能抓住行为变化的测试，最后在不破坏旧功能的前提下把结构重构好。

这就是这张榜单扎心的地方。它不是说 AI 编程没用，而是把“能用”和“靠谱”之间的差距，明明白白地放在了人们面前。

三张榜单，把编程 Agent 的短板拆开了

第一张是 Codebase QnA。

Agent 被放进真实代码库，回答架构、系统设计、根因分析、新人上手、安全、API 和库集成等问题。放到真实团队里，就是新人入职头一周会问的那些事，也是老工程师排障时必须摸透的那些点。

Scale 的观察很有意思：不同模型家族，翻车的方式也不一样。有的爱跑实验，但会漏掉评分标准里的细节；有的爱读源码推理，却不愿意真正跑一遍系统实锤一下。

第二张是 Test Writing。

它不是让模型多写几个看起来像模像样的测试，而是要在真实仓库里找对测试目标、放对文件、符合项目约定，还要写出真的能抓住行为变化的测试。

这里最坑的就是“测试写了一堆，但断言软得像棉花”。测试看起来很完整，坏代码也能蒙混过关。对真实工程来说，这比不写测试还危险——它给了团队一种虚假的安全感。

Scale 用 Pass@1、Pass@3 和三次都通过的稳定性指标拆开看能力与可靠性。

第三张是最要命的稳定性。

Scale 发现，同一个任务跑三次，模型“至少成一次”的概率，可能比“三次都成”高出两三倍。

这就是开发者最熟的那种尴尬：Demo 演示时灵光得很，第二次复现就开始飘。玩一玩没关系，放到生产代码库里就是风险。

最难的是重构：主路径能跑，不等于重构成功

这次新补上的 Refactoring leaderboard，是整套 SWE Atlas 里最扎心的一块。

它考的不是“把函数改短一点”这种表面功夫，而是更接近真实维护的结构调整：拆大模块、改接口、抽公共逻辑、挪代码位置。

成功条件也跟真实 Code Review 差不多：跨多个文件改，更新所有调用点，保持原有行为，通过现有测试，删掉废弃代码，文档同步跟上，还不能引入新坑。

Scale 给了两个很直观的数字：重构任务的参考解法，改动代码行数大概是 SWE-Bench Pro 任务的 2 倍，文件编辑数约 1.7 倍；覆盖 Go、TypeScript、Python、C、C++、JavaScript 的生产仓库。

所以这不像是单点修个 bug，更像是给一段真实系统的结构重新布线。

问题也出在这里。

多数模型在“保住测试”这件事上还过得去，但在“改得完整”这件事上容易掉链子。翻车主要有三种：漏改调用点、旧代码没删干净、主路径能跑但边缘路径被改坏。

更强的 Agent 不是更会猜，而是更会调查

SWE Atlas 里最有价值的观察之一，是“更强的 agent 更会调查”。

Codebase QnA 里，强模型更常跑代码、搭应用、发真实请求，而不是盯着源码瞎猜。Test Writing 里，领先的系统会先大量搜索和阅读，再动笔写测试。重构里，成功与否跟文件查全率强相关——说白了就是它有没有找全所有该改的文件。

这对开发者很重要。

以后评估编程 Agent，不能只问“底座模型强不强”。还要看它的脚手架、工具调用、搜索、执行、回滚、验证这一整条链路做得怎么样。

Scale 也直接把模型和脚手架绑在一起评估，因为真实用户就是这么用的。原生脚手架里的 Claude Code、Codex CLI，比通用评测框架下的同款模型多做 1.5 到 2 倍的探索、搜索和执行，分数也更高。

换到团队管理的语境里就是：买模型只是第一步。真正决定 AI 编程质量的，是你给它多少工程上下文、多少可用工具、多少验证约束。

八个月趋势线显示，系统理解、测试编写和重构能力都在提升，但重构仍是最慢的一项。

这张榜单也留下了另一层信号。

Scale 追踪 Claude Opus 4.x 系列的进展：八个月里，Codebase QnA 解决率从约 17% 升到约 49%，测试编写分数翻了一倍多，重构也从不到 20% 升到约 45%。工具链进步很快，但最难的维护任务，还是没有被完全拿下。

接入 AI 编程，不能只看跑分

过去一年，旧版 SWE-bench 的高分已经越来越难说明前沿编程 Agent 的真实水平。OpenAI 去年也公开说，不再评估 SWE-bench Verified，理由包括榜单趋于饱和和数据污染风险，建议大家关注更难的 SWE-Bench Pro。

Scale 这次补上的 SWE Atlas，更像是把问题往深了推一层：就算 Agent 能解决一个软件问题，它能不能做好这个问题背后的工程判断？

这也是所有团队接入 AI 编程时要面对的现实。

跑分不是终点，真实的业务场景才是真正的考场。

参考资料

1. Scale AI Blog - SWE Atlas Complete: The Hard Parts of Software Engineering

2. Scale Labs Leaderboard - SWE Atlas Refactoring

3. OpenAI - Why we no longer evaluate SWE-bench Verified