一句话总结:传统测 “确定性功能”,LLM 测 “不确定性生成能力”,两者在目标、用例、判定、风险、方法上完全不同。
一、核心本质差异
输出形态
传统软件:固定输入 → 固定 / 可预期输出(按钮、接口、逻辑、数据,结果唯一) LLM:同一输入 → 每次输出都可能不同(文本、回答、续写,无标准唯一答案) 测试目标
传统:验证功能正确性、流程合规、性能、兼容性、Bug LLM:验证能力、对齐、安全、一致性、幻觉、逻辑、风格、合规
二、关键维度对比
1. 测试用例
传统:结构化、可穷举、脚本化,覆盖分支 / 边界 / 异常,用例可重复执行 LLM:半结构化 / 无结构、无法穷举,侧重场景、prompt 变体、长尾、对抗样本
2. 结果判定(最大难点)
传统:精准断言(等于、包含、状态码、数值),机器自动判结果 LLM:模糊判定(合理性、准确性、合规、语气、有无幻觉),大量依赖人工 + 评测指标
3. 缺陷类型
传统:崩溃、报错、逻辑错误、界面异常、数据错乱、性能卡顿 LLM:幻觉、答非所问、偏见、泄密、违规内容、逻辑矛盾、前后不一致、越权指令
4. 自动化思路
传统:接口 / UI 自动化,回归稳定、可长期复用 LLM:多为评测框架 + 打分模型,靠 Embedding、相似度、LLM 自判、规则拦截,回归易波动
5. 安全测试重心
传统:权限、越权、注入、数据泄露、网络攻击 LLM:提示词注入、越狱、诱导生成违法 / 暴力 / 色情内容、隐私泄露、价值观对齐
6. 回归测试
传统:版本迭代后批量跑用例,结果稳定 LLM:模型微调 / 版本升级后回答风格、准确率易漂移,必须全量重测评测集
三、补充实操差异
- 输入复杂度
传统:参数、点击、请求;LLM:Prompt 工程(话术、上下文、角色、格式要求),上下文越长越难测。 - 评估指标
传统:通过率、缺陷率、响应时间;LLM:准确率、召回、幻觉率、PPL、BLEU、人类偏好得分。 - 环境与版本
传统:环境隔离、版本可控;LLM:权重、采样参数(温度、topP)直接改变输出,参数也是测试对象。
四、最简总结(面试 / 速记版)
传统:确定逻辑,结果唯一,靠精准断言 LLM:生成式不确定,结果多样,靠综合评测 + 安全对齐 最大鸿沟:从 “判断对错” 变成 “判断好坏、合规、可靠”
夜雨聆风