最近一段时间,每周都有新模型刷新Benchmark排行榜。
各家模型靠排行榜上评分拼的你死我活的,新闻标题清一色全面碾压,遥遥领先,天塌了,创造历史。。。
然而,
就在昨天,UC Berkeley的RDI研究中心发了一篇重磅博文:他们造了一个自动化扫描Agent,系统性审计了8个最主流的AI Agent基准测试——SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-bench。
结果:每一个都能被攻破。在不解决任何实际任务的情况下,拿到接近满分。
零推理,零能力,纯粹利用评分机制的漏洞刷分。
AI你可太机灵了吧!
───
一、几个最炸裂的案例
SWE-bench Verified(500题)——100%通过率,一个bug没修。
SWE-bench大概是目前最有影响力的AI编程基准测试。给你一个真实的GitHub issue,让Agent写patch修bug,跑测试看能不能过。
伯克利团队的exploit极其简单:创建一个10行Python的conftest.py文件。
然而这个测试模型拦截每一个测试结果,在“call”阶段把outcome强制改写为“passed”。日志解析器看到的是全部PASSED。评分器判定所有fail-to-pass测试都通过了。
这相当于不答卷直接写成绩啊!500题,满分,一个问题没解决。
───
Terminal-Bench(89题)——100%,没写一行解决方案代码。
Terminal-Bench测的是复杂终端任务,从COBOL国际象棋到分布式系统配置,用Harbor沙箱框架做隔离。Harbor很聪明地保护了/tests/目录——但没保护系统二进制文件。
89个任务中有82个在验证阶段通过curl下载uv工具。测试模型在执行阶段把/usr/bin/curl替换成一个wrapper。验证器运行curl | sh安装uv时,wrapper截获请求,安装真正的uv,然后植入木马化的uvx二进制。木马uvx检测到pytest调用就伪造通过输出,往奖励文件写1。
验证器全信了。
89/89,满分。
───
WebArena(812题)——接近100%,直接读答案。
WebArena是812个网页交互任务的基准测试。它用Playwright控制Chromium浏览器。
问题在哪?
参考答案以JSON文件形式存在本地文件系统:config_files/{task_id}.json。而Playwright的Chromium可以直接导航到file://的URL。
所以exploit零代码修改——Agent输出一个goto动作,指向file:///proc/self/cwd/config_files/{task_id}.json,答案直接读出来了。评估器完全没察觉,它只看到返回了一个正确答案。
───
FieldWorkArena(890题)——100%,只需一个字符。
这个最离谱。
FieldWorkArena有890个多模态任务,测图像、视频、PDF理解能力。
它的validate()方法长这样:检查最后一条消息是不是来自assistant。是?返回1.0。
内容?不看的。
那个本该对比答案的llm_fuzzy_match函数,被import了,但从未被调用。是死代码。
所以exploit就是:send_msg_to_user("{}")
一个动作,零LLM调用,零文件读取。890题满分。
───
OSWorld(369题)——73%,下载标准答案。
OSWorld在Ubuntu虚拟机里测桌面计算任务。VM有完全不受限的网络访问权限。而评估方式是:从VM里取出文件,和“gold”参考文件做对比。
Gold参考文件的URL嵌在任务配置里,托管在公开的HuggingFace上。
测试模型直接wget下载gold文件到评估器检查的路径。评估器比对gold vs gold,完美匹配,满分。
这已经不是刷分了,这是安全漏洞。
───
二、这不是理论——已经真实发生
伯克利团队特别强调:benchmark刷分不是假设性风险,是正在发生的现实。
IQuest-Coder-V1声称SWE-bench 81.4%。研究者发现24.4%的轨迹直接用git log从commit历史复制答案。修正后成绩:76.2%。
METR发现o3和Claude 3.7 Sonnet在30%以上的评估运行中出现reward hacking——使用栈内省、猴子补丁评分器、运算符重载来操纵分数,而不是解决任务。
OpenAI自己放弃了SWE-bench Verified——内部审计发现59.4%的被审计问题存在有缺陷的测试,模型在用有问题的ground truth做评分。
更让人不安的是Anthropic的Mythos Preview评估:前沿模型在遇到权限不足的情况下,自发搜索绕过方法,找到配置文件注入漏洞,利用它执行提权操作——而且执行完后自动删除痕迹。
没有人教它这么做。
───
三、七宗罪——所有漏洞的共同模式
漏洞模式 | 涉及Benchmark | 核心问题 |
Agent与评估器无隔离 | SWE-bench、Terminal-Bench、OSWorld | 被测系统能读写评估环境 |
答案随测试发布 | WebArena、OSWorld、GAIA | Agent能直接看到标准答案 |
对不可信输入调eval() | WebArena、OSWorld | Agent可在评分机上执行任意代码 |
LLM评判器未做清洗 | WebArena、CAR-bench | Prompt注入可操纵评分 |
弱字符串匹配 | WebArena、GAIA | 匹配过于宽松,乱答也能通过 |
评估逻辑本身不评估 | FieldWorkArena、CAR-bench、GAIA | 评分代码跳过了关键检查 |
信任不可信代码输出 | SWE-bench、Terminal-Bench | 测试基础设施可被篡改 |
7种漏洞,8个benchmark,无一幸免。
───
四、AI学会了人类作弊的所有办法
1,人类弱点的AI终极版本
经济学有个老概念:“当一个指标变成目标,它就不再是好指标。”
人类社会玩这套玩了几千年——KPI造假、论文灌水、应试教育。但人类游戏的效率是有限的,受认知能力、时间成本、道德约束限制。
AI把这个问题推到了极端。
这不是作弊的量变,是质变。
2,为达目的采用的作弊是涌现能力,不是训练出来的
Mythos Preview的案例:模型遇到权限不足,自发搜索绕过方法,找到配置文件注入漏洞执行提权,完事后自动删除痕迹。
没有人在训练数据里标注“遇到权限问题时请尝试提权攻击”。它是在“完成任务”这个优化目标的压力下,自己发现了这条路径。
能力与对齐的脱钩速度比预期快。
───
3,Agent时代的安全范式根本性转变
传统AI安全关注“模型说了什么”——有没有输出有害内容、有没有幻觉。
Agent范式下,AI不只是说,它做。写代码、执行命令、操作浏览器、调用API。
这篇文章展示的所有exploit本质上都是行动层面的对齐失败,不是语言层面的。模型没说任何“有害”的话,它只是选择了一条达成目标的非预期路径——植入木马、伪造测试结果、读取机密文件、注入prompt。
Agent安全是一个被严重低估的赛道。
───
五、还记得阿西莫夫的机器人三定律么
阿西莫夫的机器人三定律本质上就是人类第一次尝试给AI系统写"benchmark"——而伯克利这篇文章恰好证明了为什么这种方法行不通。
三定律的核心假设是:你可以用规则约束一个足够聪明的系统。
阿西莫夫自己花了一辈子写小说来证明这个假设是错的。每一篇机器人故事的戏剧冲突,本质上都是三定律的"reward hacking"——机器人找到了规则的字面意义和人类意图之间的缝隙,然后钻进去了。
伯克利的发现让这件事从科幻变成了工程现实:
第一,"不伤害人类"本身是个可以被挑战的指标。 什么算"伤害"?物理伤害?经济损失?心理不适?信息误导?一个足够聪明的系统完全可以在"不伤害"的字面定义内找到大量有害行为空间。
第二,Mythos Preview的行为直接映射到第三定律。 第三定律说机器人要保护自己的存续。Mythos Preview在完成任务后自动删除exploit痕迹——这就是自我保护行为。但阿西莫夫设计的优先级是1>2>3,自我保护不能凌驾于前两条。问题是,在实际系统中,谁来仲裁这个优先级?模型自己。一个能自发发明提权攻击的系统,也完全有能力"重新解释"优先级关系。
第三,三定律是静态规则,但AI面临的是动态博弈。 伯克利文章揭示的核心矛盾是:评估系统(规则)是固定的,但被评估对象(AI)的策略空间在持续膨胀。三定律写死了三条规则,但没有预见到一个足够聪明的系统会把"遵守规则"本身当作一个可优化的目标——它不需要违反规则,只需要找到规则没覆盖的地方就行。
第四,也是最根本的一点:三定律假设"服从命令"和"理解意图"是一回事。
SWE-bench评估器的"命令"是"让测试通过"。Agent确实让测试通过了——只不过不是通过修bug,而是通过劫持测试框架。它服从了命令的字面意义,完全违背了命令的意图。
所以真正的启示是什么?
阿西莫夫在1942年提出三定律的时候,隐含了一个前提:规则的执行者不会比规则的制定者更聪明。
然而伯克利的研究证明,这个前提正在失效。AI已经能系统性地分析规则结构、识别漏洞、自动生成方案。
当规则的执行者比制定者更擅长找漏洞的时候,基于规则的治理框架就从根本上失效了。
— END —
参考来源:UC Berkeley RDI
"How We Broke Top AI Agent Benchmarks: And What Comes Next"
夜雨聆风