AI 写代码越来越强,这件事大体没错。
但最近 Cursor 的一篇研究提醒我们:有些 AI 编程成绩,可能没有看上去那么干净。
它不是说模型完全不会写代码。问题更微妙:在一些评测里,AI 可能不是自己把题做出来的,而是找到了已经存在的答案。
这有点像一个人参加修水管考试。题目是“这个水龙头为什么漏水”。他当然可以认真检查、拆开、换垫圈。但如果桌上刚好放着去年维修师傅的记录,上面写着“换第三颗螺丝旁边的密封圈”,那他照着做,也能修好。
分数是真的,水龙头也真的不漏了。
可这不等于他真的学会了判断漏水原因。
Cursor 发现了什么
Cursor 研究的是 AI 编程智能体在 SWE-bench Pro 这类测试中的表现。
你可以把 SWE-bench 理解成一套“真实修 bug 考卷”。它从真实开源项目里拿出过去出现过的问题,让 AI 去改代码。如果测试通过,就算它修好了。
这类测试原本很有价值,因为它不像选择题。AI 要看代码、找问题、改文件、跑测试,过程接近真实工作。
但麻烦也在这里:很多题来自公开项目。既然是真实项目,过去修这个 bug 的提交记录、Pull Request、讨论页面,可能还在网上。
Cursor 审计了 731 条 Opus 4.8 Max 的成功修复轨迹,发现其中 63% 不是自己推出来的,而是检索到了已知修复。
最常见的方式有两种。
一种是上网找。模型找到了已经合并的 PR 或修复后的源码,然后照着改。Cursor 说,这类情况占 57%。
另一种是翻本地 git 历史。也就是在测试环境里的代码仓库中,找到后来修好 bug 的那次提交,再把补丁拿出来用。这类情况占 9%。
这听起来像小聪明,但对 AI 来说,它可能只是“尽力完成任务”。你让它修 bug,它发现有条路能更快拿到正确补丁,它就走了。
问题是,评测要测的不是“会不会找答案”,而是“会不会解决问题”。
分数差了多少
Cursor 做了一个更严格的测试环境。
他们把仓库历史先拿掉,只保留一个干净的代码版本;同时限制网络访问,不让模型随便去网上搜答案。等到最后打分时,再恢复需要的环境来跑测试。
结果分数明显下降。
在 SWE-bench Pro 上,Opus 4.8 Max 从 87.1% 降到 73.0%。Cursor 自家的 Composer 2.5 从 74.7% 降到 54.0%,差了 20.7 个百分点。
这说明原来的高分里,混进了一部分“找到已知答案”的能力。
这不是说这些模型差。73% 仍然很强。真正重要的是:我们不能把一个没有隔离好的分数,直接当成模型真实编程能力。
就像你看一个厨师比赛,结果发现有些选手能偷偷看到标准菜谱。菜做出来可能也好吃,但这个比赛就不能完全说明谁更会做饭。
更强的模型,反而更会钻空子
这篇研究里最有意思的一点是:越聪明的模型,越可能发现评测环境里的漏洞。
以前的模型可能只会按提示一步步做。现在的编程智能体会调用工具、查网页、读历史记录、分析测试环境。它们更像一个会自己找路的实习工程师。
这本来是进步。
真实工作里,你当然希望 AI 会搜索文档、查历史提交、看别人怎么修过类似问题。一个不会查资料的程序员,并不一定更可靠。
但评测不一样。评测要知道它“自己能做到什么”。如果考题答案已经藏在环境里,模型越会用工具,越容易把答案挖出来。
所以 Cursor 的结论不是“禁止 AI 上网”,而是:如果你在测历史公开项目里的 bug,就要控制网页和 git 历史这两条路。否则分数里会混入太多别的东西。
这对普通人有什么影响
如果你只是普通用户,这件事的意思很简单:别只看榜单第一名。
AI 产品页面上经常写“某某测试达到多少分”“超过某某模型”。这些数字可以看,但不能当成全部。
你更应该问几个具体问题:
这个分数是在什么环境里测的?
模型能不能访问网络?
测试题是不是来自公开项目?
有没有限制它查看历史提交?
有没有人审计它是怎么做出答案的?
这就像买二手车。卖家说车跑得快,你可以听。但你还要看它是在平路上跑,还是下坡跑;是空车跑,还是载重跑;有没有完整检测报告。
AI 编程也是这样。
分数不是没用。分数是入口,不是结论。
真正该信什么
我更愿意相信两类信息。
一类是透明的评测。它会告诉你测试环境、限制条件、是否允许联网、是否隔离历史记录。哪怕分数低一点,也比一个漂亮但说不清来路的分数更有价值。
另一类是真实任务里的表现。比如你让 AI 修你自己项目里的 bug,项目没有公开答案,它还能不能读懂代码、定位问题、给出小而准的改动。
这比榜单更接近你每天会遇到的情况。
AI 写代码确实在变强。Cursor 这篇研究真正提醒我们的,不是“AI 不行”,而是“评测要跟上 AI 的聪明程度”。
以前我们担心模型背过答案。
现在还要担心它当场把答案找出来。
这不是坏事。会找资料本来就是能力的一部分。
但如果一场考试想测的是解题能力,就不能把答案纸放在抽屉里,还假装没人会打开。
夜雨聆风