AI 写代码又拿高分了?先看它有没有偷看答案

AI 写代码越来越强，这件事大体没错。

但最近 Cursor 的一篇研究提醒我们：有些 AI 编程成绩，可能没有看上去那么干净。

它不是说模型完全不会写代码。问题更微妙：在一些评测里，AI 可能不是自己把题做出来的，而是找到了已经存在的答案。

这有点像一个人参加修水管考试。题目是“这个水龙头为什么漏水”。他当然可以认真检查、拆开、换垫圈。但如果桌上刚好放着去年维修师傅的记录，上面写着“换第三颗螺丝旁边的密封圈”，那他照着做，也能修好。

分数是真的，水龙头也真的不漏了。

可这不等于他真的学会了判断漏水原因。

Cursor 发现了什么

Cursor 研究的是 AI 编程智能体在 SWE-bench Pro 这类测试中的表现。

你可以把 SWE-bench 理解成一套“真实修 bug 考卷”。它从真实开源项目里拿出过去出现过的问题，让 AI 去改代码。如果测试通过，就算它修好了。

这类测试原本很有价值，因为它不像选择题。AI 要看代码、找问题、改文件、跑测试，过程接近真实工作。

但麻烦也在这里：很多题来自公开项目。既然是真实项目，过去修这个 bug 的提交记录、Pull Request、讨论页面，可能还在网上。

Cursor 审计了 731 条 Opus 4.8 Max 的成功修复轨迹，发现其中 63% 不是自己推出来的，而是检索到了已知修复。

最常见的方式有两种。

一种是上网找。模型找到了已经合并的 PR 或修复后的源码，然后照着改。Cursor 说，这类情况占 57%。

另一种是翻本地 git 历史。也就是在测试环境里的代码仓库中，找到后来修好 bug 的那次提交，再把补丁拿出来用。这类情况占 9%。

这听起来像小聪明，但对 AI 来说，它可能只是“尽力完成任务”。你让它修 bug，它发现有条路能更快拿到正确补丁，它就走了。

问题是，评测要测的不是“会不会找答案”，而是“会不会解决问题”。

分数差了多少

Cursor 做了一个更严格的测试环境。

他们把仓库历史先拿掉，只保留一个干净的代码版本；同时限制网络访问，不让模型随便去网上搜答案。等到最后打分时，再恢复需要的环境来跑测试。

结果分数明显下降。

在 SWE-bench Pro 上，Opus 4.8 Max 从 87.1% 降到 73.0%。Cursor 自家的 Composer 2.5 从 74.7% 降到 54.0%，差了 20.7 个百分点。

这说明原来的高分里，混进了一部分“找到已知答案”的能力。

这不是说这些模型差。73% 仍然很强。真正重要的是：我们不能把一个没有隔离好的分数，直接当成模型真实编程能力。

就像你看一个厨师比赛，结果发现有些选手能偷偷看到标准菜谱。菜做出来可能也好吃，但这个比赛就不能完全说明谁更会做饭。

更强的模型，反而更会钻空子

这篇研究里最有意思的一点是：越聪明的模型，越可能发现评测环境里的漏洞。

以前的模型可能只会按提示一步步做。现在的编程智能体会调用工具、查网页、读历史记录、分析测试环境。它们更像一个会自己找路的实习工程师。

这本来是进步。

真实工作里，你当然希望 AI 会搜索文档、查历史提交、看别人怎么修过类似问题。一个不会查资料的程序员，并不一定更可靠。

但评测不一样。评测要知道它“自己能做到什么”。如果考题答案已经藏在环境里，模型越会用工具，越容易把答案挖出来。

所以 Cursor 的结论不是“禁止 AI 上网”，而是：如果你在测历史公开项目里的 bug，就要控制网页和 git 历史这两条路。否则分数里会混入太多别的东西。

这对普通人有什么影响

如果你只是普通用户，这件事的意思很简单：别只看榜单第一名。

AI 产品页面上经常写“某某测试达到多少分”“超过某某模型”。这些数字可以看，但不能当成全部。

你更应该问几个具体问题：

这个分数是在什么环境里测的？

模型能不能访问网络？

测试题是不是来自公开项目？

有没有限制它查看历史提交？

有没有人审计它是怎么做出答案的？

这就像买二手车。卖家说车跑得快，你可以听。但你还要看它是在平路上跑，还是下坡跑；是空车跑，还是载重跑；有没有完整检测报告。

AI 编程也是这样。

分数不是没用。分数是入口，不是结论。

真正该信什么

我更愿意相信两类信息。

一类是透明的评测。它会告诉你测试环境、限制条件、是否允许联网、是否隔离历史记录。哪怕分数低一点，也比一个漂亮但说不清来路的分数更有价值。

另一类是真实任务里的表现。比如你让 AI 修你自己项目里的 bug，项目没有公开答案，它还能不能读懂代码、定位问题、给出小而准的改动。

这比榜单更接近你每天会遇到的情况。

AI 写代码确实在变强。Cursor 这篇研究真正提醒我们的，不是“AI 不行”，而是“评测要跟上 AI 的聪明程度”。

以前我们担心模型背过答案。

现在还要担心它当场把答案找出来。

这不是坏事。会找资料本来就是能力的一部分。

但如果一场考试想测的是解题能力，就不能把答案纸放在抽屉里，还假装没人会打开。