AI应用测试,跟以前到底有什么不一样?
做了几年测试,现在听说 AI 应用很热,想转这个方向。
你最先想到的问题大概是:
“AI 应用的测试,跟我以前做的有什么不一样?我积累的测试经验还能用吗?”
这篇文章直接对比,不绕弯子。
一、最大的变化:你测的对象变了
传统测试,你测的是确定性的代码逻辑。
输入 A,预期输出 B。代码写对了,每次都是 B。你的工作是验证”代码有没有按预期执行”。
AI 应用测试,你测的是概率性的模型输出。
输入 A,模型可能输出 B、B’、或 B”——它们语义相近,但文字不同。你的工作是判断”这个输出算不算合格”,而不是”对不对”。
这是根本性的变化。
二、测试职责对比
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
三、AI 测试新增的核心工作
1. 构建和维护测试集
传统测试里,测试数据是”用例”——每条用例有明确的输入和预期输出。
AI 测试里,测试集是”样本”——你有输入和参考输出,但模型输出不需要和参考输出一模一样,只要达标就行。
传统测试用例:输入:用户问"怎么退款"预期输出:"请提供订单号,我们为您处理退款"→ 实际输出不同 → 失败AI测试样本:输入:用户问"怎么退款"参考输出:"请提供订单号,我们为您处理退款"评估维度:语义一致性≥0.9 / 格式合规=是 / 幻觉=否→ 实际输出只要各维度达标 → 通过
你需要的能力:识别边缘场景、构造有代表性的测试样本、定义每个样本的评估维度。
2. 分析 Evals 报告,定位问题根因
传统测试发现 Bug,根因通常是代码逻辑错误。
AI 测试发现效果不达标,根因可能是:
-
Prompt 描述不够清晰 → 改 Prompt -
知识库召回了无关内容 → 优化 RAG 检索策略 -
模型本身能力不足 → 换更强(或更贵)的模型 -
测试集样本有偏差 → 补充或修正测试集
你需要的能力:看懂 Evals 报告,判断问题是出在 Prompt、知识库、还是模型本身。
3. 监控线上效果,发现退化
传统应用上线后,你测的是”功能有没有坏”。
AI 应用上线后,你还要测”效果有没有退化”——模型供应商升级了模型版本,可能导致某些场景的效果下降;用户用法变了,可能触达了之前没覆盖的边缘 case。
你需要的能力:建立线上效果监控指标,设定告警阈值,定期抽检线上输出。
四、和 AI 产品经理的区别与重合点
这是最容易混淆的地方。
重合点
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
核心区别
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
一句话总结:
AI PM 负责定义”什么是好”,AI 测试工程师负责验证”有没有达到好”,并建立机制确保”一直好下去”。
两者高度协作,但职责边界清晰——PM 关注产品价值,测试关注产品质量。
五、你已有的测试经验,哪些直接有用
✅ 用例设计思维 边缘 case 怎么覆盖?正常路径和异常路径怎么区分? 这套思维在 AI 测试里直接迁移,只是"预期结果"从确定值变成了达标条件✅ 缺陷分析能力 发现问题时,你能快速判断是哪家的问题(Prompt / 知识库 / 模型 / 应用层) 这对 AI 测试来说非常值钱✅ 自动化测试经验 如果你会写 Python 脚本,搭建 Evals 自动化框架对你来说不难 (不会也没关系,很多团队有专门的 Evals 平台)✅ 回归测试意识 AI 应用每次变更都要跑 Evals 回归,你比任何人都理解"回归"的重要性
六、需要新增的能力(不多,但关键)
🔴 理解 LLM 的基本行为特征 模型为什么会幻觉?Temperature 参数是干嘛的? 什么样的 Prompt 容易导致输出不稳定? → 不需要深入原理,但要知道"现象+应对方法"🔴 学会用 AI 工具辅助测试 用另一个模型来评估目标模型的输出,这叫"LLM as Judge" 这是 AI 测试里越来越常用的评估方式🔴 构建高质量测试集的方法 不是写测试用例,而是选样本、标注参考输出、定义评估维度 → 这套方法目前没有标准答案,正是你的机会
七、一句话定位
传统测试工程师的核心能力是:用系统的方法,发现系统的问题。
AI 应用测试工程师的核心能力是:用系统的方法,发现 AI 输出的质量问题,并建立机制防止复发。
工具变了,思维框架高度相似。你积累的经验,没有浪费。
夜雨聆风