新战场:AI 产品体验评测体系设计
AI产品有一个特殊挑战:同一个模型,今天能答对的问题,明天可能因为数据分布变化而答错。同一个功能,对这个用户是神器,对那个用户可能是灾难。
这意味着什么?
AI产品需要持续监测,而不是一次性测试。
AI产品正在经历一场深刻的范式转移:从"功能交付"转向"意图交付"。 用户不再关心"这个按钮在哪里",而是直接表达"我要什么结果"。产品设计的核心问题,也从"如何设计更好的界面"变成"如何让AI准确理解并执行用户意图"。微软Copilot Studio的最新发布印证了这一趋势——"support for evaluations"被纳入产品主叙事,AI产品经理的核心能力从"画原型"转向"建评测体系"。微软Copilot提出的4层评测框架值得借鉴:
第一层:基础能力层
响应速度(TTFT、TPS) 幻觉率(事实性、相关性) 稳定性(并发性能、错误恢复)
第二层:任务完成层
任务成功率(首次尝试、多次尝试) 步骤合理性(是否绕路、是否冗余) 边界处理(异常情况、极端输入)
第三层:用户体验层
满意度(主观评分、NPS) 信任度(用户是否愿意委托重要任务) 可控感(用户是否觉得"AI在帮我"而不是"AI在替我做")
第四层:业务价值层
效率提升(任务完成时间、人力节省) 质量改进(错误率降低、一致性提升) 商业转化(付费意愿、留存率)
以下重点介绍四个AI产品体验的核心指标口径、计算方式和落地指南。
一、TTFT(Time to First Token,首Token时间)
1.1 指标定义
TTFT = 用户发送请求的时刻 → 模型生成第一个输出Token的时刻
即从按下"发送"到屏幕上出现第一个字的等待时间。
1.2 细分维度
| Queueing Time | ||
| Prefill Latency | ||
| TTFT = Queueing + Prefill |
1.3 计算方式
TTFT(ms) = t_first_token - t_request_sent// 典型场景采样TTFT_p50 = 第50%分位数(中位数)TTFT_p95 = 第95%分位数(长尾用户感知)TTFT_p99 = 第99%分位数(极端场景)
1.4 产品设计参考阈值
| < 500ms | ||
| 500ms - 1s | ||
| 1s - 3s | ||
| > 3s |
1.5 与TPS的协同关系
TTFT解决的是"多快开始"的问题,TPS(Tokens Per Second)解决的是"多快完成"的问题:
总耗时 = TTFT + (输出Token数 / TPS)示例:输出500 Token,TTFT=800ms,TPS=50 tokens/s总耗时 = 800ms + (500/50)×1000ms = 800ms + 10000ms = 10.8s
产品设计启示:TTFT优化对短回答场景更敏感(如搜索问答);TPS优化对长回答场景更关键(如报告生成)。
二、任务成功率(Task Success Rate)
2.1 指标定义
任务成功率衡量的是:AI在用户提交任务后,能否正确、完整地完成用户意图。
这是一个复合指标,需要先定义"任务完成"的判定标准。
2.2 任务成功的判定层次
层次一:格式层成功
输出格式符合预期(JSON结构、字段完整、类型正确) 不崩溃、不返回错误码 - 判定方式
:正则校验/Schema验证
层次二:内容层成功
输出内容的事实性正确(数据准确、引用可靠) 逻辑一致性(不自相矛盾) - 判定方式
:人工标注 / LLM-as-Judge / 规则校验
层次三:意图层成功
真正满足用户的真实需求(而非字面意思) 用户对结果满意,愿意使用 - 判定方式
:用户反馈 / 行为埋点 / 对比实验
2.3 计算方式
# 基础成功率(格式层)Format_SR = 成功格式校验的请求数 / 总请求数 × 100%# 任务成功率(内容+意图层)Task_SR@1 = 单次尝试成功数 / 总任务数 × 100%Task_SR@3 = 3次内成功数 / 总任务数 × 100%Task_SR@k = k次内成功数 / 总任务数 × 100%# 分层任务成功率Task_SR_by_Type = {任务类型: 成功率} // 如"查询"vs"生成"vs"推理"
GPT-5.4的发布数据就是典型案例:首次尝试成功率95%,三次内成功率100%。
2.4 任务失败的五种模式
| 幻觉失败 | ||
| 理解失败 | ||
| 执行失败 | ||
| 中断失败 | ||
| 一致失败 |
2.5 产品设计中的任务成功率优化
意图理解层:- 意图分类置信度阈值 → 低于阈值时主动澄清而非猜测- 任务拆解成功率 → 复杂任务是否被正确拆解为子任务执行层:- 工具调用成功率 → Function Calling的参数准确率- 检索召回率与精确率 → RAG场景的上下文质量反馈层:- 用户纠错后的修正率 → AI能否从反馈中学习- 任务重试的最佳次数 → 超过次数后应转人工
三、幻觉率(Hallucination Rate)
3.1 指标定义
幻觉率 = AI生成的内容中存在事实性错误或"虚构信息"的比例。
这是AI产品最核心也是最棘手的质量指标。不同于传统软件的功能Bug,幻觉具有隐蔽性(看似合理)、不确定性(同一输入多次输出结果不同)、难以穷尽测试(开放域输入空间无限大)的特点。
3.2 幻觉的四种类型
| 事实性幻觉 | |||
| 语义幻觉 | |||
| 逻辑幻觉 | |||
| 风格幻觉 |
3.3 幻觉率的计算方式
# 方法一:人工标注法(黄金标准)Hallucination_Rate = 幻觉样本数 / 人工标注样本总数 × 100%# 方法二:自动化打标法- 基于规则:与知识库/知识图谱比对,检测实体冲突- 基于模型:使用"另一个LLM"作为评判器(LLM-as-Judge)- Self-Check:对同一问题多次生成,检测输出间的一致性# 方法三:FActScore(细粒度评估)- 将生成内容拆解为原子事实- FActScore = 被知识源支持的原子事实数 / 原子事实总数- 示例:100个原子事实中,85个被验证 → FActScore = 85%# 方法四:真实场景回测(最真实)- 统计用户在"核实信息后发现错误"的反馈率- Hallucination_Feedback_Rate = 错误反馈数 / 总交互轮数 × 100%
3.4 降低幻觉率的产品策略
架构层:- RAG(检索增强生成):用外部知识库约束模型输出范围- CoT(思维链推理):显式展示推理过程,减少跳步幻觉- 工具调用优先:能用工具查就别让模型自己编产品层:- 置信度提示:模型在不确定时主动说"我不确定"- 来源追溯:输出中标注信息来源,供用户自行验证- 限制输出范围:明确告知模型"你只知道XX范围的答案"- 不确定性表达:用"可能"、"据我所知"等限定词替代绝对陈述评测层:- 建立"高风险幻觉"知识库(涉及医疗/金融/法律等领域)- 对高风险场景设置更严格的通过阈值- 建立幻觉率的持续监控仪表盘
3.5 不同场景的幻觉率容忍度
四、用户信任度(User Trust)
4.1 指标定义
用户信任度衡量的是:用户有多大意愿将重要任务委托给AI,并对其输出抱有信心。
这是一个主观指标,但它的影响是客观的——信任度直接决定用户是否真正使用产品、是否愿意付费、是否持续留存。
4.2 信任度的五个构成维度
| 能力信任 | ||
| 诚实信任 | ||
| 安全信任 | ||
| 可控信任 | ||
| 意图信任 |
4.3 信任度的测量方式
# 直接测量(问卷/访谈)Trust_Score = 用户自评信任等级(1-5分或Likert量表)典型问题:- "你有多大信心这个AI的回答是可靠的?"- "你愿意把这个AI的输出直接用于工作吗?"- "你认为AI对你的利益考虑了多少?"# 间接测量(行为数据)Trust_Proxy_Metrics:- 采纳率 = AI输出被用户直接采纳的比例(无需修改)- 委托率 = 用户主动让AI处理高风险任务的比例- 纠错率 = 用户发现并纠正AI错误的比例(高纠错率 = 低信任)- 回访率 = 用户在遇到问题后是否继续使用- 授权深度 = 用户授权AI自主操作的权限范围# 委托行为实验(最真实)Trust_Delegation_Test:将用户分为"低风险任务组"和"高风险任务组"观察:随着时间推移,用户是否将更多任务委托给AI信任增长曲线 vs 信任衰减曲线
4.4 信任崩塌的触发场景
信任崩塌往往发生在以下时刻:1. 严重幻觉事件"它说得特别自信,结果是错的" → 能力信任崩塌2. 边界不透明"我不知道它在什么情况下会出错" → 可控信任崩塌3. 隐私疑虑"它把我的数据拿去干什么了?" → 安全信任崩塌4. 目标偏离"它好像在完成自己的目标,不是在帮我" → 意图信任崩塌5. 不可解释的决策"它为什么这样做?" → 诚实信任崩塌
4.5 构建信任的产品设计原则
透明度设计:- 显示置信度或不确定区间- 标注信息来源和知识截止日期- 说明AI的已知限制和适用边界可控性设计:- 支持用户随时干预、修改、撤回- 提供"回退"和"版本对比"功能- 明确告知"这是AI生成的,建议你核实"安全感设计:- 高风险操作需要二次确认- 区分"建议"和"执行"(帮用户做 vs 替用户做)- 数据使用透明(用户知道自己数据去了哪里)诚实性设计:- 不确定时主动说"我不知道",而非硬编- 在边界场景承认局限性- 错误后主动道歉并说明原因
五、四大指标的协同关系与产品仪表盘设计
5.1 指标间的逻辑关系
TTFT ↑(变慢)→ 用户耐心下降 → 任务中断率 ↑ → Task Success Rate ↓→ 用户满意度 ↓ → Trust ↓Hallucination Rate ↑(幻觉增多)→ 用户需要频繁核查 → 采纳率 ↓ → Trust ↓→ 纠错反馈增多 → Task Success Rate ↓Task Success Rate ↑(成功率提升)→ 用户体验改善 → Trust ↑(正向循环)→ TTFT 反而可能 ↑(需要更多计算)Trust ↑(信任提升)→ 用户委托更多任务 → 任务复杂度 ↑→ 高风险场景幻觉影响更大 → 需更严格监控
5.2 AI产品核心指标仪表盘(建议模板)
5.3 指标优先级随产品阶段变化
| 冷启动期 | |||
| 增长期 | |||
| 成熟期 | |||
| 规模期 |
总结:四大指标构成一个相互影响的质量闭环——TTFT是入口体验,任务成功率是核心价值,幻觉率是质量底线,用户信任度是最终目标。AI产品经理的核心职责,就是让这四个指标在正确的方向上持续优化,并理解它们之间的权衡关系。
夜雨聆风