
Scale AI 发布 SWE Atlas 完整套件,补齐 Refactoring leaderboard。
会写代码,和会维护系统,是两回事

SWE Atlas 覆盖系统问答、测试编写、代码重构三类任务。
三张榜单,把编程 Agent 的短板拆开了

Scale 用 Pass@1、Pass@3 和三次都通过的稳定性指标拆开看能力与可靠性。
最难的是重构:主路径能跑,不等于重构成功
更强的 Agent 不是更会猜,而是更会调查

八个月趋势线显示,系统理解、测试编写和重构能力都在提升,但重构仍是最慢的一项。
夜雨聆风