把一道数学题里的数字从 237 改成 238,某个在 GSM8K 上拿了满分的模型,答错了。
不是偶然,不是边缘case——是它根本没有真正"会"这道题,只是见过原版答案。
这就是 AI 评测的暗面。上篇我们聊了 [benchmark 七宗罪],今天来说更具体的:评测作弊到底怎么发生的,你看不到的那些测试藏着什么,以及面对一份满分评测报告,你该怎么不被骗。
一、评测是一门天然有作弊空间的生意
AI 评测的逻辑很简单:出一套题,让模型答,算分,排榜。
问题在于:题是公开的,训练数据会抓取全网,而那道题恰好在某个论坛上被人讨论过——连解题过程都有。
这叫数据污染(Data Contamination)。它不是个边缘问题,是整个 AI 评测生态最根本的诚信危机。
2023年底 EleutherAI 的一项检测研究对主流模型的训练数据进行了系统分析,结论让人不舒服:绝大多数公开 Benchmark 的测试题,在互联网上都能以某种形式被找到。你以为在出考题,其实在帮模型备考。
二、污染的三条路,第一条最隐蔽
路径一:答案直接进了训练集
Common Crawl 这类大规模网络爬取数据集,会抓下几乎所有网页,包括:
• GSM8K 数学题的解题讨论帖 • MMLU 选择题的题库整理站 • HumanEval 代码题在 GitHub 上的参考实现
训练前的数据清洗,通常过滤的是"重复内容",而不是"和评测集语义相关的内容"——两者不一样,这个区别很重要。
路径二:结构被学进去了
即便题目本身没有出现在训练数据里,同类题目的答题格式和推理路径可能出现过几万次。
这叫"分布污染"——模型学的不是答案,而是这类题的回答模板。遇到真正的新问题,它仍然用记住的模板"猜"出一个看起来正确的东西,碰巧猜对了。
路径三:评测目标被反向注入(这条最难察觉)
在 RLHF(基于人类反馈的强化学习)阶段,如果标注人员用"这个回答像不像 benchmark 标准答案"来打分,那么模型会被训练成"在 benchmark 上表现好",而不是"真正有能力"。
本质上,这是把验收标准写进了评分器本身。
读到这里你已经知道了污染怎么发生——接下来这部分更重要,因为它说的是另一种你根本看不到的测试。
三、那些被刻意藏起来的题
不是被污染的题,而是刻意不公开的题。
主流 AI 实验室都有内部私有评测集(Private Evals),这些题从不发布,专门用来对抗上面说的污染问题。Anthropic 有,OpenAI 有,Google 也有。
它们测的是什么?
• 真实对话中的错误率(而不是选择题正确率) • 对抗性输入下的鲁棒性(故意出有歧义、有陷阱的题) • 分布偏移下的泛化能力(同一概念换个表述,还会不会)
这些测试的结果,只在内部使用,偶尔在技术报告里用一句"internal private evaluation"带过。
你在任何公开榜单上,看不到这些分数。
公开榜单上的满分,不代表私有测试也满分。反过来——如果一个模型连自家内部私有集都拿高分,那才真的值得信任。只是你永远看不到那个数字。
四、从安全视角看:公开 Benchmark 是已知攻击面
切换到安全视角来看这件事,逻辑就清晰很多。
安全圈有个共识:公开的东西就是可被攻击的。漏洞公告发出之后就是竞速攻防,CTF 题目公开之后就有解题脚本。
Benchmark 也一样。
一旦一个评测集发布,它就从"标尺"变成了"靶点"。模型提供方可以:
1. 在训练数据里增加同类题的密度 2. 在后训练阶段(SFT / RLHF)专门针对这类题型做强化 3. 在推理时用能"唤醒"相关记忆的 prompt 格式
这三步合法合规,没有任何协议规定不能这么做。但评测的信号价值,就被这样一步步稀释掉了。
每发布一个公开 Benchmark,它的有效生命周期就开始倒计时。
以 MMLU 为例:从 2021 年发布到现在,它基本已经完成了历史使命——不是因为题太简单,而是因为主流模型的训练数据早就把它包含进去了。分数还在涨,但涨的不一定是能力。
五、面对一份高分评测报告,四个快速判断
实际选型决策时,用这四个问题过滤:
① 检查时间线
评测集发布时间 vs 模型训练截止时间。如果评测集发布得早,模型完全可能在训练时"见过"这些题。两个时间越近,污染风险越低。
② 问有没有污染检测说明
好的技术报告会明确说明如何过滤与测试集重叠的训练数据,以及使用了什么去重策略(MinHash、n-gram overlap 等)。没提这个,分数参考价值大打折扣。
③ 找变体测试结果
真实能力 ≠ benchmark 能力。如果有独立机构做了"换个数字 / 换个表述 / 换个语言"的变体测试,优先参考那个。数字稍微一改就答错的模型,能力的含水量你心里有数。
④ 看第三方复现
自家测自家,分数总是好看的。LMSYS Chatbot Arena 的人工盲测数据,或独立研究团队的复现结果,可信度要高出一个数量级。
结语
真正可信的 AI 能力,不藏在它会做的题里——而藏在你让它现场作答、它从没见过的那道题里。
评测诚信不是学术问题,是你每次选型决策的地基。地基是空心的,上面建的楼再高也危险。
文末 CTA
你们团队在内部选 AI 工具、或者做 AI 能力评测的时候,有没有做过"变体测试"——换个表述或者改改数字,看分数会不会掉?
这个坑你踩过没有?评论区说说。
夜雨聆风