乐于分享
好东西不私藏

一篇文章讲清楚AI评测是什么,怎么做

一篇文章讲清楚AI评测是什么,怎么做

做 AI 不评测,等于闭着眼睛开车——开得越快,死得越惨。


一、AI时代下,你如何保障你的产品

在 AI 时代,测试工程师的工作范式正经历一场深刻转变——从确定性测试走向概率性测试

传统的功能测试和接口测试,曾经是保障产品质量的核心手段。然而,在 AI 产品中,这些确定性方法已经难以完全保证产品的准确性。过去,一个输入对应一个确定的输出(1:1 关系),测试结果是非黑即白的”通过”或”不通过”。而在 AI 时代,输入与输出的关系变成了多对多(N:N),”通过”与”不通过”不再是一个二元判断,而是一个概率值

面对这种变化,我们该如何转变测试方案,才能有效保障 AI 产品的质量?

要回答这个问题,我们需要先建立一个关键认知:**AI 产品的质量保障,核心在于评测体系的构建。而在动手搭建新体系之前,有必要先认清几个长期存在的认知误区——只有避开这些坑,我们才能真正明白评测应该做什么、怎么做


二、关于 AI 评测的三个常见误区

在讲怎么做之前,先要纠正几个根深蒂固的错误认知。这些误区我见过太多团队踩过坑,希望你看完之后可以完美避开。

误区一:”评测就是跑个分”

这大概是最普遍的误解了。

很多人一提到 AI 评测,脑子里立刻蹦出各种 benchmark:MMLU 多少分、GSM8K 多少分、HumanEval 多少分。分数高就是好模型,分数低就是差模型。

但你想过没有,这些 benchmark 测的是什么?测的是模型在通用题目上的表现。就像高考——它考察的是学生的综合能力,但它不能告诉你这个学生到了你们公司能不能干好具体的活。

一个 MMLU 考 90 分的模型,在你家的客服场景里可能答非所问。一个 HumanEval 满分的模型,写你公司内部的业务代码照样 bug 满天飞。

真正的评测要回答的问题是:AI 在你的具体场景下,能不能解决具体的问题。

跑分只是手段之一,而且往往是最不靠谱的那个。高考状元不代表工作能力强,benchmark 高分也不等于业务场景好用。这是两件相关但完全不同的事。

误区二:”评测是测试同学的事”

不少团队的做法是:AI 产品开发完了,丢给测试团队,说”你们测一下吧”。

这就好比一家餐厅,菜都做完了才让服务员去尝尝好不好吃。问题是,菜好不好吃,取决于食材采购、菜谱设计、厨师手艺,这些环节服务员一个都管不了。

AI 评测也是一样,它不是某一个角色的单方面任务,而是需要多方协作的系统工程。

  • 产品团队负责定义”什么是好”——用户要什么,场景是什么,成功的标准是什么
  • 算法团队负责提供”怎么测”——用什么指标,设计什么评测集,用什么方法评估
  • 业务团队负责验证”有没有用”——上线后效果好不好,用户买不买账

缺了任何一环,评测都是不完整的。产品不介入,评测就没有方向。算法不配合,评测就没有方法。业务不参与,评测就没有结果。

误区三:”上线前测一次就够了”

这个误区的危害最大,也最隐蔽。

很多团队的节奏是:开发 → 测试 → 上线 → 撒花。评测被视为上线前的一个检查点,过了就万事大吉。

但 AI 不是传统软件。传统软件上线后,只要代码不改,行为就不会变。你今天输入 A,输出 B;明年输入 A,还是输出 B。测一次就够了。

AI 不一样。AI 面临着三个持续变化的因素:

  • 数据在变:用户的提问方式在变,业务数据在更新,外部世界在演进
  • 环境在变:上游系统改了接口,下游依赖换了版本,整个链路都在动态调整
  • 模型在变:如果你用的是在线 API,模型本身也在持续更新,今天的”好”不代表明天的”好”

更重要的是,模型会”遗忘”和”退化”。就像学生考上大学后如果不再学习,高中知识也会慢慢忘光。AI 也一样,不持续评测,你根本不知道它什么时候开始变差了。

评测不是一次性的考试,而是定期的体检。 上线不是终点,只是起点。


三、AI 评测考什么:核心指标拆解

纠正完认知误区,接下来进入正题——AI 评测到底要看什么。

在深入具体指标之前,先回答三个基本问题,这三个问题搞清楚了,评测的大方向就不会偏。

第一个问题:为什么测?

答案很朴素:验证 AI 能不能解决业务问题,能不能持续满足需求。不是为了出一份好看的成绩单,而是为了回答一个最实在的问题——这东西到底好不好用。

第二个问题:测什么?

根据你的具体场景来确定。客服场景测回答准确率,搜索场景测结果相关性,代码场景测代码正确率。没有放之四海而皆准的评测对象,一切以你的业务需求为准。

第三个问题:怎么测?

这就涉及到评测集的设计、指标的选择、流程的制定。后面会详细展开。

接下来重头戏来了——四个你必须知道的核心评测指标。别被名字吓到,我会用大白话逐一拆解。

1. 准确率(Accuracy):答对了多少

这是最直观、也最容易理解的指标。

定义很简单:所有测试题目中,AI 答对的比例。100 道题答对了 85 道,准确率就是 85%。就像考试算总分一样。

类比:期末考试,100 分的卷子你考了 85 分,准确率就是 85%。

听起来完美对吧?但它有一个致命弱点——当样本不均衡的时候,准确率会骗人。

举个例子:假设你要做一个垃圾邮件检测 AI,你的邮箱里 99% 都是正常邮件,只有 1% 是垃圾邮件。这时候如果一个 AI 不管什么邮件都判定为”正常”,它的准确率高达 99%——但它对垃圾邮件的检测能力是零。

所以当各类别样本数量差不多的时候,准确率是个好指标。但面对不均衡的数据,它就不够用了。

2. 精确率(Precision):AI 说”是”的时候,靠谱吗

精确率回答的是这样一个问题:当 AI 判断某件事”是”的时候,它有多少次真的说对了?

类比:老师说”这道题你肯定能考好”,结果你真的考好了——这就是高精确率。老师说”你能考好”但你考砸了——这就是低精确率,老师在”误报”。

精确率高的 AI,意味着它说”是”的时候你可以比较放心地相信它。

什么场景最需要高精确率? 误报代价很高的场景。

比如医疗诊断 AI,如果它把没病的人诊断为有病(误报),会导致不必要的恐慌和检查。比如反欺诈 AI,如果把正常交易判定为欺诈(误报),会直接影响用户体验和业务收益。

在这些场景里,我们宁愿漏掉一些,也不愿意冤枉好人。这就是高精确率的价值。

3. 召回率(Recall):该找的全找出来了吗

召回率回答的是另一个问题:所有应该被找出来的东西,AI 找到了多少?

类比:期末考试,你有 10 道题是复习过应该会的,结果你实际答对了 8 道——召回率就是 80%。漏掉的那 2 道就是”漏报”。

召回率高的 AI,意味着它不太容易漏掉重要的东西。

什么场景最需要高召回率? 漏报代价很高的场景。

比如癌症筛查 AI,如果漏掉了一个真正的患者(漏报),后果可能非常严重。比如安全告警系统,如果漏掉了一次真正的攻击(漏报),可能造成巨大损失。

在这些场景里,我们宁愿多报几次,也绝对不能漏掉真正的问题。这就是高召回率的价值。

4. F1 分数:不偏科才是真强

看到这儿你可能发现了一个问题:精确率和召回率好像经常是矛盾的。

提高精确率,意味着 AI 说”是”的时候更谨慎——但谨慎的代价就是可能漏掉一些真的”是”,召回率就下降了。

提高召回率,意味着 AI 要尽可能把所有”是”都找出来——但找得太宽,就会把一些不是的也当成”是”,精确率就下降了。

这就像考试里的偏科问题——数学满分但语文不及格,或者反过来。

F1 分数就是精确率和召回率的调和平均数。 它要求两个指标都得好,任何一个拉胯都会把 F1 分数拉下来。

类比:一个学生数学 90 分、语文 90 分,F1 分数很高。另一个学生数学 100 分、语文 60 分,F1 分数就会低很多。F1 告诉你:偏科不行,综合能力强才是真的好。

什么时候用 F1? 当你既不能容忍太多误报,又不能容忍太多漏报的时候——大多数业务场景都是这种情况。

一张表帮你秒懂

为了让你快速记住这四个指标,我做了一张对比表:

指标
通俗解释
适合什么场景
一句话记住
准确率
答对了多少
样本均衡的时候
“总分多少”
精确率
AI 说对的对不对
怕误判的场景
“宁可漏掉,不能冤枉”
召回率
该找的全不全
怕漏掉的场景
“宁可错判,不能放过”
F1 分数
综合能力强不强
需要平衡的时候
“不偏科才是真强”

下次再有人跟你聊评测指标,你直接把这张表甩出来。


四、怎么出题:评测集的设计原则

有了指标,接下来需要一个关键东西——评测集。

评测集就是一组用来测试 AI 的题目集合。就像高考试卷,试卷出得好不好,直接决定了考试成绩有没有参考价值。

一份好的评测集,必须满足三个关键属性。

1. 独立性:不能让 AI “背题”

评测数据不能和训练数据重复。这是一个基本原则,但被很多团队忽视。

想象一下,如果高考题目和高三模拟卷一模一样,那考试还有什么意义?学生不需要理解知识,只需要记住答案就行了。

AI 也是一样。如果你的评测集里的题目,AI 在训练的时候已经见过,那它表现好不是因为能力强,而是因为它”背过答案”。这种评测结果毫无参考价值。

实操要点

  • 训练集和评测集要严格隔离
  • 评测集最好从真实用户问题中提取,而不是人工编造
  • 定期轮换评测集,防止 AI “记住”了题目

2. 标准性:每道题都要有”判卷标准”

每道评测题目都要有明确的”标准答案”或”评判标准”,否则没法判断 AI 回答得对不对。

你可能会说,AI 的任务很多是开放性的,比如”帮我写封邮件”、”总结一下这篇文章”,哪来的标准答案?

但即使是开放性任务,也要有评分标准。就像高考作文,虽然是开放写作,但评分标准很明确:立意、结构、语言、内容各占多少分。

对于 AI 评测也一样。”帮我写封邮件”这个任务,可以拆解为:格式是否正确、语气是否得当、信息是否完整、有没有错别字。每一项都可以打分。

没有标准,评测就是主观臆断。有了标准,评测才是客观衡量。

3. 大纲对标性:考什么要提前想清楚

评测集要覆盖你关心的所有能力和场景。就像考试大纲——大纲要求考哪些知识点,试卷里就要包含这些知识点的题目。

如果你的 AI 要处理 5 种类型的用户咨询,评测集里每种类型都要有题目,不能只测其中最好测的两种。如果你关心 AI 在中文、英文、代码三个方面的能力,评测集就要覆盖这三种语言。

一个常见的错误是:评测集只覆盖 AI 擅长的领域,测出来分数很好看,但上线后用户问了不擅长的问题就翻车。

实操建议

  • 从业务场景出发,梳理出所有需要覆盖的场景类型
  • 每个场景收集足够多样化的真实样本(不要只收集”好测”的)
  • 定期更新评测集:淘汰过时的题目,补充新的场景

出题是一门技术活,出得好,评测才有意义。


五、AI 评测的难题:从”确定性”到”不确定性”

聊完了指标和评测集,接下来要坦诚地说一说 AI 评测这件事真正的难处。

如果你以前做的是传统软件的测试,转来做 AI 评测,你会明显感觉到一个巨大的变化:从确定性走向了不确定性。

传统软件 vs AI:两种完全不同的评测逻辑

传统软件的评测相对简单直接。输入 A,应该输出 B——这是一个确定的映射关系。

比如一个计算器的加法功能:输入 1 + 1,输出一定是 2。你测一次就知道了,今天测是 2,明年测还是 2。如果某天输出变成了 3,那一定是代码被改坏了,定位起来也很清楚。

但 AI 大模型完全不是这么回事。

同样一个问题”帮我推荐一家附近的餐厅”,你问它三次,可能得到三个完全不同的回答。第一个推荐了火锅,第二个推荐了日料,第三个开始跟你讨论饮食文化。

哪个算对?哪个算错?

这就引出了 AI 评测面临的四大挑战。每一个都是硬骨头。

挑战一:组合爆炸——你永远穷举不完

用户会怎么提问,这件事是完全不可预测的。

同样是问天气,有人会说”今天天气怎么样”,有人会说”外面冷不冷”,有人会说”我需要带伞吗”,有人会说”今天适合晾衣服吗”。

一个 AI 客服每天可能收到几万条用户提问,每一条的表述方式都可能不一样。你不可能把每一种问法都写进评测集里。

这就是组合爆炸——输入的可能情况是天文数字,穷举测试是不可能的。

类比:你教了一个学生”如何回答天气相关的问”,但考试的时候,出题人可以用一万种不同的方式问天气相关的问题。你没法针对每一种问法都做一次练习。

挑战二:任务边界模糊——什么叫”好”?

传统软件的答案通常是非黑即白的。代码跑通了就是跑通了,没跑通就是没跑通。

但 AI 的很多任务没有唯一的正确答案。

“帮我写一封给客户的道歉邮件”——怎样算好?

  • 写得简洁算好吗?但有些客户希望看到诚恳的长文
  • 写得礼貌算好吗?但过于客套可能显得不真诚
  • 包含所有关键信息算好吗?但信息太多可能让人抓不住重点

不同的人对”好”的定义可能完全不同。甚至同一个人在不同心情下,评价标准也可能变化。

任务边界模糊意味着:AI 评测很大程度上是一个主观判断的过程,很难做到像传统软件那样完全客观。

挑战三:难以定位归因——出了问题怪谁?

当 AI 回答错误的时候,最让人头疼的问题来了:到底哪里出了问题?

是基础模型能力不够?是 Prompt 写得不好?是检索到的参考文档有问题?是系统提示词设计不合理?还是知识库里的数据过时了?

类比:一道菜做出来不好吃,原因可能有很多——食材不新鲜、厨师手艺差、菜谱本身有问题、火候没掌握好、甚至锅都不好使。你得一个个排查。

在传统软件里,一个 bug 通常可以追溯到某一行代码。但在 AI 系统里,一个 bad case 可能涉及链路中的任何一个环节。定位问题的成本比修复问题本身还要高。

挑战四:评测成本高昂——测不起也测不完

人工评测费时费力。找一堆标注人员,一道题一道题地看 AI 的输出,然后打分。一套几千条的评测集,一个人可能要测好几天。而且人会疲劳、会走神、会前后标准不一致。

自动化评测倒是快,但准确度又不够。用规则或脚本来判断 AI 的回答好不好,面对开放性任务基本无能为力。

大规模评测要精度就没效率,要效率就没精度。 这是一个两难的选择。


六、应对策略:AI 评测实战指南

说了这么多困难,不是为了劝退,而是为了让你知道:这些坑大家都踩过,而且有办法绕过去。

接下来给出四个实战策略,每一个都是被验证过有效的方法。

策略一:用更强的模型当”裁判”

这是当前最主流、也最有效的策略之一。

核心思路很简单:既然人工评测太慢,规则评测不准,那不如用一个更聪明的大模型来做”裁判”,让它来评估你的 AI 输出质量。

比如你的产品用的是一个 7B 参数的小模型,你可以用 GPT-4 或 Claude 这样的大模型来给小模型的输出打分。你给裁判模型一段评分标准,然后让它判断:这个回答是否准确?是否完整?是否有帮助?

这种做法的优势很明显

  • 效率极高:大模型一秒钟能评几十条,人工一天才能评几百条
  • 可规模化:评测集从 100 条扩大到 10 万条,成本增加很小
  • 一致性相对好:大模型的评分标准相对稳定,不会像人一样疲劳走神

但它也有局限,需要清醒认识

  • 裁判模型本身也有偏差和盲点,不是绝对公正的
  • 对于某些非常专业或非常主观的任务,大模型的判断可能还不如人工
  • 所以它不能完全替代人工,只能作为主力手段

最佳实践:用大模型做大规模初评,人工定期抽检校准。两者互为补充。

策略二:在产品设计阶段就设计好评测方案

这条策略听起来简单,但能做到的团队不多。

很多团队的节奏是这样的:先想好要做什么 AI 产品 → 开发 → 快上线了才想起来”我们得评测一下” → 匆忙搞一个评测集 → 跑个分上线。

正确的节奏应该是这样的:在定义产品需求的那一刻,就想清楚怎么评测。

具体来说,在需求阶段就要回答四个问题:

  • 这个 AI 要解决什么问题? —— 明确场景和目标
  • 成功的标准是什么? —— 定义什么样的表现算合格、算优秀
  • 用什么指标衡量? —— 选择准确率、F1、还是其他指标
  • 评测数据从哪来? —— 提前规划数据来源和标注方案

为什么要在这么早的阶段就想这些?因为如果你到了开发阶段才发现评测数据拿不到,或者发现成功标准定义不了,那前面的开发工作很可能都白费了。

类比:建房子之前要先想好怎么验收——墙面平整度怎么量、水电怎么测试。不能等房子盖完了才说”我们来看看这房子好不好”。那时候发现问题,拆了重盖的成本就太高了。

策略三:建立持续评测机制——上线才是开始

再强调一遍:上线不是终点,而是评测的起点。

持续评测机制包含三个关键动作:

第一个动作:定期回归测试。 每周或每月用同一套评测集跑一遍,监控指标的变化趋势。如果某一周 F1 分数突然下降了 5 个百分点,那一定有什么地方出了问题,需要立刻排查。

第二个动作:用户反馈闭环。 把用户标记为”不满意”的回答、用户踩了”没有帮助”的回答,定期收集起来,补充进评测集。这些是真正的”实战题目”,比任何人工设计的题目都值钱。

第三个动作:评测集版本管理。 评测集不是一成不变的。随着业务发展和场景变化,旧的题目可能不再相关,新的场景需要新的题目。给评测集做好版本管理,确保每次评测都基于最新的版本。

一个健康的评测体系应该像一个飞轮:评测发现问题 → 改进 AI → 用户更满意 → 新的用户反馈补充进评测集 → 下一轮评测发现新问题 → 持续改进。飞轮转起来,AI 就越来越强。

策略四:人机结合——效率和精度我都要

最后一条策略,也是最实用的一条。

面对评测成本和精度的两难选择,最聪明的做法不是二选一,而是结合两者的优势。

**自动化评测做”初筛”**:

  • 用规则检查格式是否正确、必填信息是否完整
  • 用大模型做批量评分,覆盖尽可能多的测试用例
  • 快速筛选出明显合格和明显不合格的 case

**人工抽检做”终审”**:

  • 对自动化评测的结果进行抽样复核,确保评分标准没有偏移
  • 重点审查边界 case 和有争议的 case
  • 定期校准自动化评测的标准,防止”裁判跑偏”

推荐的配比:80% 的 case 用自动化评测覆盖,20% 的 case 做人工复核。这个比例可以根据你的业务精度要求调整,但原则上一定是自动化为主、人工为辅。

因为纯人工评测的扩展性太差,而纯自动化评测的质量不可控。人机结合才能在效率和精度之间找到最佳平衡点。


七、没有评测的 AI,就像没有仪表盘的飞机

写到这儿,关于 AI 评测的核心内容基本都覆盖了。最后做个简短的总结。

回顾一下今天聊的几个关键点:

  • AI 评测不是跑分,而是验证 AI 在你的具体场景下能不能解决具体问题。benchmark 高分不等于业务好用。
  • AI 评测不是测一次就够,而是需要持续进行的定期体检。模型会退化,环境在变化,评测不能停。
  • AI 评测不是某一个人的事,而是需要产品、算法、业务多方协作的系统工程。
  • 核心评测指标——准确率、精确率、召回率、F1,各有适用场景,理解它们的区别才能选对指标。
  • 好的评测集需要具备独立性、标准性和大纲对标性,出题水平决定了评测的价值。
  • 面对评测的挑战,我们可以用更强的模型当裁判、在 PID 阶段提前设计评测方案、建立持续评测机制、人机结合来提升效率。

有一句在工程和管理领域被广泛引用的话:**”你无法优化你无法衡量的东西。”**

做 AI 也是一样。没有评测的 AI,就像没有仪表盘的飞机——你不知道飞得有多高、还剩多少油、前方有没有山。你觉得自己在前进,但很可能已经偏离了航线。

AI 评测就是那把尺子。有了它,你才知道自己站在哪里,该往哪里走。


互动时间

你的团队是怎么做 AI 评测的?踩过哪些坑?有什么好方法?欢迎在评论区分享你的经验和困惑。

如果觉得这篇文章对你有帮助,欢迎转发给需要的同学。后续我会持续更新 AI 相关的实战内容,欢迎收藏关注。


附录

A. 常见评测工具/平台推荐

如果你准备动手搭建自己的评测体系,以下几个工具可以作为起点:

  • Ragas:专注 RAG(检索增强生成)场景的评测框架,擅长评估回答的忠实度和相关性,开源免费
  • DeepEval:面向大语言模型的单元测试框架,支持多种评测指标的自动化检测,适合工程团队集成到 CI/CD 流程中
  • LangSmith:LangChain 官方评测平台,提供从追踪到评测的一站式工具,适合使用 LangChain 生态的团队
  • Promptfoo:开源的 Prompt 评测工具,适合快速对比不同 Prompt 的效果,轻量好用