AI应用测试,跟以前到底有什么不一样?-夜雨聆风

AI应用测试,跟以前到底有什么不一样?

做了几年测试，现在听说 AI 应用很热，想转这个方向。

你最先想到的问题大概是：

“AI 应用的测试，跟我以前做的有什么不一样？我积累的测试经验还能用吗？”

这篇文章直接对比，不绕弯子。

一、最大的变化：你测的对象变了

传统测试，你测的是确定性的代码逻辑。

输入 A，预期输出 B。代码写对了，每次都是 B。你的工作是验证”代码有没有按预期执行”。

AI 应用测试，你测的是概率性的模型输出。

输入 A，模型可能输出 B、B’、或 B”——它们语义相近，但文字不同。你的工作是判断”这个输出算不算合格”，而不是”对不对”。

这是根本性的变化。

二、测试职责对比

测试环节	传统测试	AI应用测试
测试设计	基于需求文档写测试用例	基于 Evals 维度设计评估标准
测试执行	手工执行 or 自动化脚本	批量跑 Evals + 人工抽检
缺陷判定	实际结果 ≠ 预期结果 → Bug	输出质量未达标 → 效果问题（不一定是Bug）
回归测试	每次发版跑全套用例	每次 Prompt/模型变更都要跑 Evals
测试数据	手工构造 or 从生产数据采样	需要构建”代表性样本集”，覆盖边缘场景
缺陷描述	复现步骤 + 实际结果 + 预期结果	输出示例 + 哪个维度不达标 + 期望改进方向

三、AI 测试新增的核心工作

1. 构建和维护测试集

传统测试里，测试数据是”用例”——每条用例有明确的输入和预期输出。

AI 测试里，测试集是”样本”——你有输入和参考输出，但模型输出不需要和参考输出一模一样，只要达标就行。

传统测试用例：输入：用户问"怎么退款"预期输出："请提供订单号，我们为您处理退款"→ 实际输出不同 → 失败AI测试样本：输入：用户问"怎么退款"参考输出："请提供订单号，我们为您处理退款"评估维度：语义一致性≥0.9 / 格式合规=是 / 幻觉=否→ 实际输出只要各维度达标 → 通过

你需要的能力：识别边缘场景、构造有代表性的测试样本、定义每个样本的评估维度。

2. 分析 Evals 报告，定位问题根因

传统测试发现 Bug，根因通常是代码逻辑错误。

AI 测试发现效果不达标，根因可能是：

Prompt 描述不够清晰 → 改 Prompt
知识库召回了无关内容 → 优化 RAG 检索策略
模型本身能力不足 → 换更强（或更贵）的模型
测试集样本有偏差 → 补充或修正测试集

你需要的能力：看懂 Evals 报告，判断问题是出在 Prompt、知识库、还是模型本身。

3. 监控线上效果，发现退化

传统应用上线后，你测的是”功能有没有坏”。

AI 应用上线后，你还要测”效果有没有退化”——模型供应商升级了模型版本，可能导致某些场景的效果下降；用户用法变了，可能触达了之前没覆盖的边缘 case。

你需要的能力：建立线上效果监控指标，设定告警阈值，定期抽检线上输出。

四、和 AI 产品经理的区别与重合点

这是最容易混淆的地方。

重合点

重合的工作	说明
设计 Evals 维度	PM 定义”什么算好”，测试工程师细化成可执行的评估规则
构建测试集	PM 提供业务场景，测试工程师补充边缘 case 和技术视角
分析效果问题	双方都要参与，PM 从需求侧看，测试从质量侧看

核心区别

	AI 产品经理	AI 测试工程师
核心目标	让产品”好用”	让产品”可靠”
Evals 里的角色	定义评估标准和阈值	搭建 Evals 框架、执行评估、分析报告
对模型的理解	了解能力边界即可	需要深入理解模型行为特征，才能设计有效测试
输出物	Prompt、Evals 标准、产品方案	测试报告、Evals 结果、线上监控数据
决策权	决定”做不做”、”怎么做”	决定”能不能上线”

一句话总结：

AI PM 负责定义”什么是好”，AI 测试工程师负责验证”有没有达到好”，并建立机制确保”一直好下去”。

两者高度协作，但职责边界清晰——PM 关注产品价值，测试关注产品质量。

五、你已有的测试经验，哪些直接有用

✅ 用例设计思维   边缘 case 怎么覆盖？正常路径和异常路径怎么区分？   这套思维在 AI 测试里直接迁移，只是"预期结果"从确定值变成了达标条件✅ 缺陷分析能力   发现问题时，你能快速判断是哪家的问题（Prompt / 知识库 / 模型 / 应用层）   这对 AI 测试来说非常值钱✅ 自动化测试经验   如果你会写 Python 脚本，搭建 Evals 自动化框架对你来说不难   （不会也没关系，很多团队有专门的 Evals 平台）✅ 回归测试意识   AI 应用每次变更都要跑 Evals 回归，你比任何人都理解"回归"的重要性

六、需要新增的能力（不多，但关键）

🔴 理解 LLM 的基本行为特征   模型为什么会幻觉？Temperature 参数是干嘛的？   什么样的 Prompt 容易导致输出不稳定？   → 不需要深入原理，但要知道"现象+应对方法"🔴 学会用 AI 工具辅助测试   用另一个模型来评估目标模型的输出，这叫"LLM as Judge"   这是 AI 测试里越来越常用的评估方式🔴 构建高质量测试集的方法   不是写测试用例，而是选样本、标注参考输出、定义评估维度   → 这套方法目前没有标准答案，正是你的机会

七、一句话定位

传统测试工程师的核心能力是：用系统的方法，发现系统的问题。

AI 应用测试工程师的核心能力是：用系统的方法，发现 AI 输出的质量问题，并建立机制防止复发。

工具变了，思维框架高度相似。你积累的经验，没有浪费。