AI评测的作弊手法,比你想的隐蔽多了

把一道数学题里的数字从 237 改成 238，某个在 GSM8K 上拿了满分的模型，答错了。

不是偶然，不是边缘case——是它根本没有真正"会"这道题，只是见过原版答案。

这就是 AI 评测的暗面。上篇我们聊了 [benchmark 七宗罪]，今天来说更具体的：评测作弊到底怎么发生的，你看不到的那些测试藏着什么，以及面对一份满分评测报告，你该怎么不被骗。

一、评测是一门天然有作弊空间的生意

AI 评测的逻辑很简单：出一套题，让模型答，算分，排榜。

问题在于：题是公开的，训练数据会抓取全网，而那道题恰好在某个论坛上被人讨论过——连解题过程都有。

这叫数据污染（Data Contamination）。它不是个边缘问题，是整个 AI 评测生态最根本的诚信危机。

2023年底 EleutherAI 的一项检测研究对主流模型的训练数据进行了系统分析，结论让人不舒服：绝大多数公开 Benchmark 的测试题，在互联网上都能以某种形式被找到。你以为在出考题，其实在帮模型备考。

二、污染的三条路，第一条最隐蔽

路径一：答案直接进了训练集

Common Crawl 这类大规模网络爬取数据集，会抓下几乎所有网页，包括：

• GSM8K 数学题的解题讨论帖
• MMLU 选择题的题库整理站
• HumanEval 代码题在 GitHub 上的参考实现

训练前的数据清洗，通常过滤的是"重复内容"，而不是"和评测集语义相关的内容"——两者不一样，这个区别很重要。

路径二：结构被学进去了

即便题目本身没有出现在训练数据里，同类题目的答题格式和推理路径可能出现过几万次。

这叫"分布污染"——模型学的不是答案，而是这类题的回答模板。遇到真正的新问题，它仍然用记住的模板"猜"出一个看起来正确的东西，碰巧猜对了。

路径三：评测目标被反向注入（这条最难察觉）

在 RLHF（基于人类反馈的强化学习）阶段，如果标注人员用"这个回答像不像 benchmark 标准答案"来打分，那么模型会被训练成"在 benchmark 上表现好"，而不是"真正有能力"。

本质上，这是把验收标准写进了评分器本身。

读到这里你已经知道了污染怎么发生——接下来这部分更重要，因为它说的是另一种你根本看不到的测试。

三、那些被刻意藏起来的题

不是被污染的题，而是刻意不公开的题。

主流 AI 实验室都有内部私有评测集（Private Evals），这些题从不发布，专门用来对抗上面说的污染问题。Anthropic 有，OpenAI 有，Google 也有。

它们测的是什么？

• 真实对话中的错误率（而不是选择题正确率）
• 对抗性输入下的鲁棒性（故意出有歧义、有陷阱的题）
• 分布偏移下的泛化能力（同一概念换个表述，还会不会）

这些测试的结果，只在内部使用，偶尔在技术报告里用一句"internal private evaluation"带过。

你在任何公开榜单上，看不到这些分数。

公开榜单上的满分，不代表私有测试也满分。反过来——如果一个模型连自家内部私有集都拿高分，那才真的值得信任。只是你永远看不到那个数字。

四、从安全视角看：公开 Benchmark 是已知攻击面

切换到安全视角来看这件事，逻辑就清晰很多。

安全圈有个共识：公开的东西就是可被攻击的。漏洞公告发出之后就是竞速攻防，CTF 题目公开之后就有解题脚本。

Benchmark 也一样。

一旦一个评测集发布，它就从"标尺"变成了"靶点"。模型提供方可以：

1. 在训练数据里增加同类题的密度
2. 在后训练阶段（SFT / RLHF）专门针对这类题型做强化
3. 在推理时用能"唤醒"相关记忆的 prompt 格式

这三步合法合规，没有任何协议规定不能这么做。但评测的信号价值，就被这样一步步稀释掉了。

每发布一个公开 Benchmark，它的有效生命周期就开始倒计时。

以 MMLU 为例：从 2021 年发布到现在，它基本已经完成了历史使命——不是因为题太简单，而是因为主流模型的训练数据早就把它包含进去了。分数还在涨，但涨的不一定是能力。

五、面对一份高分评测报告，四个快速判断

实际选型决策时，用这四个问题过滤：

① 检查时间线

评测集发布时间 vs 模型训练截止时间。如果评测集发布得早，模型完全可能在训练时"见过"这些题。两个时间越近，污染风险越低。

② 问有没有污染检测说明

好的技术报告会明确说明如何过滤与测试集重叠的训练数据，以及使用了什么去重策略（MinHash、n-gram overlap 等）。没提这个，分数参考价值大打折扣。

③ 找变体测试结果

真实能力 ≠ benchmark 能力。如果有独立机构做了"换个数字 / 换个表述 / 换个语言"的变体测试，优先参考那个。数字稍微一改就答错的模型，能力的含水量你心里有数。

④ 看第三方复现

自家测自家，分数总是好看的。LMSYS Chatbot Arena 的人工盲测数据，或独立研究团队的复现结果，可信度要高出一个数量级。

结语

真正可信的 AI 能力，不藏在它会做的题里——而藏在你让它现场作答、它从没见过的那道题里。

评测诚信不是学术问题，是你每次选型决策的地基。地基是空心的，上面建的楼再高也危险。

文末 CTA

你们团队在内部选 AI 工具、或者做 AI 能力评测的时候，有没有做过"变体测试"——换个表述或者改改数字，看分数会不会掉？

这个坑你踩过没有？评论区说说。