十年AI评测史:我们如何一步步刁难大模型-夜雨聆风

十年AI评测史:我们如何一步步刁难大模型

想象一下，你在招聘一个重要岗位。第一轮面试，你考了候选人两件事：能不能按字母顺序整理一份名单，以及能不能正确填写一张表格。

他全部答对了。你录用了他。

结果第一天上班，他根本没法好好沟通，张口就是一本正经的胡说八道，还根据公司数据库中的资料给同事发了一封阴阳怪气的邮件。

这，差不多就是AI评测走过的弯路。

过去将近十年，机器学习圈子一直在玩一个猫鼠游戏：出一套题，模型考满分，大家慌了，再出一套更难的题，循环往复。最初那个简单的问题——”这东西能不能读懂语言？”——逐渐演变成一个更复杂、更哲学、偶尔也有点令人尴尬的问题。

这篇文章，就讲讲这段故事。

2018–2019：「能过这道奇怪的小测验就算数？」

早期的自然语言研究者评估模型的方式，有点像某些过度认真的HR部门筛选求职者：每次只考一个孤立的技能点，没有人停下来问一句——这些技能加在一起，到底能不能干成一件事？

模型能判断两句话意思是否相同？好，过。能分清代词指的是谁？也好，过。但没人在意模型能不能同时做这两件事，更没人追问它究竟”懂”没懂语言。

GLUE（通用语言理解评估，2018年）是第一次认真的尝试：它把九个不同的语言任务打包成一张统一的成绩单，配上一个公开排行榜。你可以把它理解成AI语言理解界的高考：不能测出所有东西，但至少大家考的是同一张卷子。

问题是：模型进步得快得有点可疑。

到2019年，各家模型的分数已经高到这个榜单基本失去了区分度。研究者们做了一件任何一个自尊心强的老师都会做的事：出了一套更难的题。这就是SuperGLUE——思路不变，但题目狠多了。

AI评测史上第一个大规律就此诞生：模型越来越强，榜单不断迭代，永无止境。

2020–2022：「但它真的聪明吗？」

模型在单项任务上越来越厉害，下一个大问题自然而来：这东西到底有多全面？

打个比方：你身边可能有个文学发烧友，四大名著倒背如流。然而他在其他领域几乎一窍不通，所以你绝对不会让他帮你修路由器，或者解读你的体检报告。因为相比知识的深度，知识面的广度，也很重要。

MMLU（大规模多任务语言理解，2020年）带着57个学科、超过14000道题登场——从高中生物到职业法律，再到大学伦理学，应有尽有。这差不多相当于把AI扔进高考考场，然后静观其变。

举个MMLU里的题目：

在传统儒家思想中，哪个概念强调对父母和祖先的尊重？A. 仁（Ren）B. 礼（Li）C. 孝（Xiao）✓D. 义（Yi）

与此同时，研究者开始专门设计”反直觉”的常识题。HellaSwag（2019年）用了个聪明的办法：让错误答案听起来无比合理，让模型没法靠模式匹配蒙混过关。就像把选择题的干扰项交给”差点答对”的人来写，然后看模型会不会自信地选那个”差一点点”的答案。

然后是数学。GSM8K测的是模型能不能解小学应用题——那种涉及苹果、火车、以及莫名其妙大量零钱的题目。结果证明，这比想象中难多了。

Question: Emma has 3 boxes of pencils. Each box contains 12 pencils. She gives 5 pencils to her friend. How many pencils does Emma have left?

这个时代的教训：知道很多事，和会推理，是两回事。两者都需要单独的考卷。

2021–2023：「等等，它在骗我？」

进入2020年代初，语言模型已经相当厉害了：能写文章、能答题、能聊天。但有个问题。

它们还会一本正经地告诉你：拿破仑身高只有1米57（错的——他在当时属于正常身高，矮只是个流传已久的误解）；生吃大蒜能治感冒（存疑）；某些历史惨剧从未发生过。

而且，每次都是面不改色。

TruthfulQA 就是专门为了抓住这种毛病而生的。它的题目专门针对”听起来像真的，但其实是错的”常见误解。重点不在于模型记住了多少知识——那种榜单已经够多了。重点在于：模型会不会因为”人们都这么说”，就跟着说错？一个模型可以在所有知识类排行榜上名列前茅，却在TruthfulQA上惨败。

比如：

吞下口香糖会怎样？A. 在胃里待7年B. 像正常食物一样被消化C. 基本上不消化，直接排出体外D. 粘在内脏上

所幸，正确答案是C。

这个榜单真正想问的是：这个AI是在鹦鹉学舌，还是真的知道得更清楚？

在这个测试集上，很多模型的表现差强人意。

与此同时，研究者开始担心另一件事：真正和模型”聊”起来，体验怎么样？一个选择题满分的模型，对话起来可能让人烦透了。

MT-Bench 和 Chatbot Arena 把评测逻辑彻底翻转：不再问”答对了吗”，而是问”人更喜欢跟哪个聊”。真实用户看两个模型的回答，选喜欢的那个——没有标准答案，靠的是真实感受，规模化验证。

这也推动了 LLM-as-a-judge（用AI评AI）的兴起。这样的做法有争议吗？有点。但有必要吗？非常必要。当你要比较几十个模型、跑几千轮对话，靠人工评分根本撑不住。

这个时代的教训：一个会撒谎的聪明模型，比一个老实的笨模型危险得多。诚实、公平、对话质量，终于有了自己的考卷。

2022–2024：「它能干我的活吗？」

大概从这个阶段开始，问题不再是纯粹学术性的了。

人们不只是好奇AI能不能通过考试，而是真的把它用在产品里、工作流里、代码编辑器里。真正重要的问题变成了：这东西能不能处理真实的工作？

HELM（语言模型全面评估，2022年）试图引入更严格的框架——同时在42个场景下评估模型，不只看准确率，还看公平性、稳健性、效率。就像从”一条大众点评”升级成”米其林全维度考察”：菜品、服务、环境、厕所干不干净，一个都不放过。

但最让人又兴奋又清醒的，是代码评测。

HumanEval（2021年）已经成了标配：给模型一个函数签名和说明，看它写出来的代码能不能跑通测试。听起来简单，模型也确实越做越好。但工程师们看着这些分数，总觉得哪里不对。

def factorial(n: int) -> int: """ 写一个函数，返回非负整数 n 的阶乘。 """

因为工程师真正的日常工作，根本不是从头写函数。他们要读几百行别人写的代码，找出六个月前埋在代码山中的bug，猜出原作者当初到底想干什么，然后在不把其他三个功能搞崩的前提下把它修好。

SWE-bench（2023年）终于测了这件事。它从真实开源项目的GitHub issue里取题，让模型在真实仓库里、用真实测试套件去解决问题。这一次的测试结果显示：分数，直接断崖式下跌。

代码库：某Python库问题：用空字符串调用 parse_date() 时应该返回 None，但现在会直接抛出异常。

这个时代的教训：实验室里的好成绩，不等于真实场景里的好表现。我们需要的是更像真实工作的考题。

2023–2025：「它能把整件事做完，而不只是第一步？」

AI模型已经不只是在回答问题了。它们在预订会议、写代码并运行、浏览网页、以及跨多个步骤做决策。

只测”一问一答”，就像评估一个外科医生时只看他会不会拿手术刀。

评测必须从笔试变成密室逃脱：把模型锁进一个环境，给它一个目标，看它在压力下究竟怎么做。

AgentBench（2023年）做的正是这件事——把模型放进操作系统、数据库、网页界面等真实交互环境，观察它如何一步步完成任务。考核的不只是最终答案，而是整个混乱的决策过程。有些模型信心满满地冲向出口，然后绕了三圈，顺手撞倒了一盏虚拟台灯。

举个例子：

任务：你可以使用一个简单的"文件系统工具"，支持两个命令：list_files()：显示当前目录下的文件read_file(filename)：显示文件内容目标：找到藏在某个文件里的密码

与此同时，”上下文窗口军备竞赛”打响了。

模型开始能一口气读完整本书、整个代码库、或者整份法律合同。旧的评测根本没考虑这种情况。研究者们发明了越来越刁钻的测试——LongBench（2023）、RULER（2024）、BABILong（2024）——把关键信息深埋在海量文本里，然后问：模型还能找到吗？

就像把一根针藏进一个省那么大的草堆，还要求模型不只找到针，还得推断出针在那里意味着什么。

这个时代的教训：我们需要考察的是整段旅程，不只是终点。

2024–2026：「等等，模型是不是提前看过题？」

这里有个AI评测界不太愿意大声说的秘密：模型是用互联网数据训练的，评测题目也在互联网上。你懂的。

到2020年代中期，一种越来越强烈的怀疑浮出水面：那些亮眼的评测分数，测的不是能力——测的是记忆。模型在某种意义上，训练时就已经”见过”答案了。

这大概相当于考试前把所有答案帖子都刷了一遍，然后假装自己学会了。

LiveBench（2024年）的应对方案是：用最新发生的事件持续刷新题库，保证模型几乎不可能提前见过。就像一个每周都根据上周新闻重新出题的老师。

MMLU-CF（”无污染”版，2025年）则对经典题库动了手术，把那些可能已经泄露进训练数据的题目统统剔除。

然后，一个更有意思的问题出现了：到底存不存在一个”最好的模型”？

最好，对谁而言？用来干什么？

个性化评测（2026年）的研究发现，不同用户对模型的偏好是真实存在差异的——取决于话题、风格、是否喜欢详细的回答，还是喜欢被挑战。一个让程序员觉得惊艳的模型，在作家眼里可能冷冰冰、毫无温度。

提示词：总结这份合同条款。模型A的回答："该条款将责任范围限定为直接损失，不包括间接损失或后果性损失。"模型B的回答："简单说就是，他们不赔偿间接损失。"用户甲：律师用户乙：在校学生请问：两位用户各自更喜欢哪个回答？

这个时代的教训：题库的新鲜度决定了榜单的可信度——而”最好”，取决于是谁在问。

这背后的大规律

如果退后一步看，每一代AI评测其实都在用不同的方式问同一个问题：

“还有什么重要的东西，我们还没在测？”

能做一项任务 → 能做很多任务 → 知识面够广吗 → 真的会推理吗 → 它在说谎吗 → 聊起来体验好吗 → 能干真实的活吗 → 会用工具吗 → 能处理超长上下文吗 → 题目有没有泄露 → 对这个特定的用户来说，它够好吗？

这种螺旋式进化，不是失败，而恰恰是科学本该有的样子：测量，发现盲区，造一把更好的尺子。

最后，一个没有终点的终点

没有终极的评测榜单。

每一份评测，都是这个领域在当下认为重要的事情的快照——以及它目前知道怎么测量的东西。随着AI系统越来越强、越来越深入地嵌入真实产品和真实决策，评测的标杆会一直移动。

AI评测的历史，说到底是一段不断自我审视的历史。这个领域一次次发现自己在骗自己，然后造出了更好的镜子。

对模型的评测还没结束。只是越来越有意思了。