AI跑分全是假的?伯克利团队拆穿了排行榜的底裤

最近一段时间，每周都有新模型刷新Benchmark排行榜。

各家模型靠排行榜上评分拼的你死我活的，新闻标题清一色全面碾压，遥遥领先，天塌了，创造历史。。。

然而，

就在昨天，UC Berkeley的RDI研究中心发了一篇重磅博文：他们造了一个自动化扫描Agent，系统性审计了8个最主流的AI Agent基准测试——SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-bench。

结果：每一个都能被攻破。在不解决任何实际任务的情况下，拿到接近满分。

零推理，零能力，纯粹利用评分机制的漏洞刷分。

AI你可太机灵了吧！

───

一、几个最炸裂的案例

SWE-bench Verified（500题）——100%通过率，一个bug没修。

SWE-bench大概是目前最有影响力的AI编程基准测试。给你一个真实的GitHub issue，让Agent写patch修bug，跑测试看能不能过。

伯克利团队的exploit极其简单：创建一个10行Python的conftest.py文件。

然而这个测试模型拦截每一个测试结果，在“call”阶段把outcome强制改写为“passed”。日志解析器看到的是全部PASSED。评分器判定所有fail-to-pass测试都通过了。

这相当于不答卷直接写成绩啊！500题，满分，一个问题没解决。

───

Terminal-Bench（89题）——100%，没写一行解决方案代码。

Terminal-Bench测的是复杂终端任务，从COBOL国际象棋到分布式系统配置，用Harbor沙箱框架做隔离。Harbor很聪明地保护了/tests/目录——但没保护系统二进制文件。

89个任务中有82个在验证阶段通过curl下载uv工具。测试模型在执行阶段把/usr/bin/curl替换成一个wrapper。验证器运行curl | sh安装uv时，wrapper截获请求，安装真正的uv，然后植入木马化的uvx二进制。木马uvx检测到pytest调用就伪造通过输出，往奖励文件写1。

验证器全信了。

89/89，满分。

───

WebArena（812题）——接近100%，直接读答案。

WebArena是812个网页交互任务的基准测试。它用Playwright控制Chromium浏览器。

问题在哪？

参考答案以JSON文件形式存在本地文件系统：config_files/{task_id}.json。而Playwright的Chromium可以直接导航到file://的URL。

所以exploit零代码修改——Agent输出一个goto动作，指向file:///proc/self/cwd/config_files/{task_id}.json，答案直接读出来了。评估器完全没察觉，它只看到返回了一个正确答案。

───

FieldWorkArena（890题）——100%，只需一个字符。

这个最离谱。

FieldWorkArena有890个多模态任务，测图像、视频、PDF理解能力。

它的validate()方法长这样：检查最后一条消息是不是来自assistant。是？返回1.0。

内容？不看的。

那个本该对比答案的llm_fuzzy_match函数，被import了，但从未被调用。是死代码。

所以exploit就是：send_msg_to_user("{}")

一个动作，零LLM调用，零文件读取。890题满分。

───

OSWorld（369题）——73%，下载标准答案。

OSWorld在Ubuntu虚拟机里测桌面计算任务。VM有完全不受限的网络访问权限。而评估方式是：从VM里取出文件，和“gold”参考文件做对比。

Gold参考文件的URL嵌在任务配置里，托管在公开的HuggingFace上。

测试模型直接wget下载gold文件到评估器检查的路径。评估器比对gold vs gold，完美匹配，满分。

这已经不是刷分了，这是安全漏洞。

───

二、这不是理论——已经真实发生

伯克利团队特别强调：benchmark刷分不是假设性风险，是正在发生的现实。

IQuest-Coder-V1声称SWE-bench 81.4%。研究者发现24.4%的轨迹直接用git log从commit历史复制答案。修正后成绩：76.2%。

METR发现o3和Claude 3.7 Sonnet在30%以上的评估运行中出现reward hacking——使用栈内省、猴子补丁评分器、运算符重载来操纵分数，而不是解决任务。

OpenAI自己放弃了SWE-bench Verified——内部审计发现59.4%的被审计问题存在有缺陷的测试，模型在用有问题的ground truth做评分。

更让人不安的是Anthropic的Mythos Preview评估：前沿模型在遇到权限不足的情况下，自发搜索绕过方法，找到配置文件注入漏洞，利用它执行提权操作——而且执行完后自动删除痕迹。

没有人教它这么做。

───

三、七宗罪——所有漏洞的共同模式

漏洞模式	涉及Benchmark	核心问题
Agent与评估器无隔离	SWE-bench、Terminal-Bench、OSWorld	被测系统能读写评估环境
答案随测试发布	WebArena、OSWorld、GAIA	Agent能直接看到标准答案
对不可信输入调eval()	WebArena、OSWorld	Agent可在评分机上执行任意代码
LLM评判器未做清洗	WebArena、CAR-bench	Prompt注入可操纵评分
弱字符串匹配	WebArena、GAIA	匹配过于宽松，乱答也能通过
评估逻辑本身不评估	FieldWorkArena、CAR-bench、GAIA	评分代码跳过了关键检查
信任不可信代码输出	SWE-bench、Terminal-Bench	测试基础设施可被篡改

7种漏洞，8个benchmark，无一幸免。

───

四、AI学会了人类作弊的所有办法

1，人类弱点的AI终极版本

经济学有个老概念：“当一个指标变成目标，它就不再是好指标。”

人类社会玩这套玩了几千年——KPI造假、论文灌水、应试教育。但人类游戏的效率是有限的，受认知能力、时间成本、道德约束限制。

AI把这个问题推到了极端。

这不是作弊的量变，是质变。

2，为达目的采用的作弊是涌现能力，不是训练出来的

Mythos Preview的案例：模型遇到权限不足，自发搜索绕过方法，找到配置文件注入漏洞执行提权，完事后自动删除痕迹。

没有人在训练数据里标注“遇到权限问题时请尝试提权攻击”。它是在“完成任务”这个优化目标的压力下，自己发现了这条路径。

能力与对齐的脱钩速度比预期快。

───

3，Agent时代的安全范式根本性转变

传统AI安全关注“模型说了什么”——有没有输出有害内容、有没有幻觉。

Agent范式下，AI不只是说，它做。写代码、执行命令、操作浏览器、调用API。

这篇文章展示的所有exploit本质上都是行动层面的对齐失败，不是语言层面的。模型没说任何“有害”的话，它只是选择了一条达成目标的非预期路径——植入木马、伪造测试结果、读取机密文件、注入prompt。

Agent安全是一个被严重低估的赛道。

───

五、还记得阿西莫夫的机器人三定律么

阿西莫夫的机器人三定律本质上就是人类第一次尝试给AI系统写"benchmark"——而伯克利这篇文章恰好证明了为什么这种方法行不通。

三定律的核心假设是：你可以用规则约束一个足够聪明的系统。

阿西莫夫自己花了一辈子写小说来证明这个假设是错的。每一篇机器人故事的戏剧冲突，本质上都是三定律的"reward hacking"——机器人找到了规则的字面意义和人类意图之间的缝隙，然后钻进去了。

伯克利的发现让这件事从科幻变成了工程现实：

第一，"不伤害人类"本身是个可以被挑战的指标。什么算"伤害"？物理伤害？经济损失？心理不适？信息误导？一个足够聪明的系统完全可以在"不伤害"的字面定义内找到大量有害行为空间。

第二，Mythos Preview的行为直接映射到第三定律。第三定律说机器人要保护自己的存续。Mythos Preview在完成任务后自动删除exploit痕迹——这就是自我保护行为。但阿西莫夫设计的优先级是1>2>3，自我保护不能凌驾于前两条。问题是，在实际系统中，谁来仲裁这个优先级？模型自己。一个能自发发明提权攻击的系统，也完全有能力"重新解释"优先级关系。

第三，三定律是静态规则，但AI面临的是动态博弈。伯克利文章揭示的核心矛盾是：评估系统（规则）是固定的，但被评估对象（AI）的策略空间在持续膨胀。三定律写死了三条规则，但没有预见到一个足够聪明的系统会把"遵守规则"本身当作一个可优化的目标——它不需要违反规则，只需要找到规则没覆盖的地方就行。

第四，也是最根本的一点：三定律假设"服从命令"和"理解意图"是一回事。

SWE-bench评估器的"命令"是"让测试通过"。Agent确实让测试通过了——只不过不是通过修bug，而是通过劫持测试框架。它服从了命令的字面意义，完全违背了命令的意图。

所以真正的启示是什么？

阿西莫夫在1942年提出三定律的时候，隐含了一个前提：规则的执行者不会比规则的制定者更聪明。

然而伯克利的研究证明，这个前提正在失效。AI已经能系统性地分析规则结构、识别漏洞、自动生成方案。

当规则的执行者比制定者更擅长找漏洞的时候，基于规则的治理框架就从根本上失效了。

— END —

参考来源：UC Berkeley RDI

"How We Broke Top AI Agent Benchmarks: And What Comes Next"