06 AI PM 核心交付物模板与样例

系列：AI 产品经理方向选型与能力地图上一篇：05 垂类行业 AI PM（金融深度案例）

使用说明

这篇文章提供 6 套 AI PM 核心交付物的填空式模板。

每个模板包含：

适用场景：哪个方向的 PM 需要
模板正文：可直接复制、填空使用
填写样例：以金融场景为例的 demo
常见问题：我们踩过的坑

模板 1：AI 产品 PRD

适用方向：全方向（RAG / Agent / AIGC / 平台）

模板正文

# [产品名称] PRD v[版本号]## 一、产品概述- **解决的问题**：[一句话描述用户痛点]- **目标用户**：[用户画像]- **核心价值**：[用户获得什么]## 二、AI 能力定义 ⭐（AI PRD 特有章节）### 2.1 模型需要完成什么任务- **任务描述**：[模型的具体任务，如"给定用户问题和检索到的文档，生成准确回答"]- **输入格式**：[如 JSON 字段、文本、图片等]- **输出格式**：[如纯文本、JSON、Markdown]### 2.2 性能指标 ⭐（必须量化）| 指标 | 目标值 | 测量方式 | 优先级 ||------|--------|---------|--------|| [如 准确率] | [> 85%] | [人工评测 100 条] | P0 || [如 召回率@10] | [> 90%] | [离线评测集] | P0 || [如 P99 延迟] | [< 3s] | [线上监控] | P1 |### 2.3 知识/数据范围- **覆盖范围**：[模型可以回答什么范围的问题]- **不覆盖范围**：[明确排除什么]- **数据来源**：[训练/检索数据的来源和规模]### 2.4 拒答与兜底策略 ⭐| 场景 | 触发条件 | 行为 ||------|---------|------|| 超出知识范围 | [如 query 不匹配任何文档] | [回复兜底话术] || 合规红线 | [如用户要求伪造材料] | [明确拒答 + 合规解释] || 系统异常 | [如检索超时] | [返回降级回答] || 安全拦截 | [如 outputguard 触发] | [返回安全提示] |## 三、功能需求[传统 PRD 的功能描述章节]## 四、数据需求 ⭐- **训练/评测数据量**：[需要多少条、什么格式]- **标注规范**：[标注标准和流程]- **质量要求**：[如 inter-annotatoragreement > 0.8]## 五、非功能需求- **延迟要求**：[P50 < Xms, P99 < Xms]- **并发要求**：[预期 QPS]- **可用性**：[如 99.9%]## 六、上线计划- **灰度策略**：[1% → 10% → 50% → 100%]- **A/B 测试方案**：[见 §七]- **回滚条件**：[如核心指标下降 > 5%]## 七、A/B 测试方案- **实验假设**：[如"新模型能提升准确率 5%"]- **对照组**：[现有模型/策略]- **实验组**：[新模型/策略]- **核心指标**：[北极星指标]- **护栏指标**：[不能下降的指标]- **流量分配**：[50%:50%]- **最小样本量**：[统计显著性计算]- **实验周期**：[建议 ≥ 2 周]## 八、风险评估| 风险 | 概率 | 影响 | 缓解措施 ||------|------|------|---------|| [模型幻觉导致合规事故] | 中 | 极高 | 三重安全防线 || [检索质量波动] | 中 | 高 | 监控 + 自动告警 |

填写样例（金融合规问答 RAG）

# 金融合规助手 PRD v1.0## 二、AI 能力定义### 2.2 性能指标| 指标 | 目标值 | 测量方式 | 优先级 ||------|--------|---------|--------|| 答案准确率 | > 85% | 人工评测 200 条 | P0 || 法规引用正确率 | > 95% | 人工核查引用编号 | P0 || 拒答场景正确率 | > 98% | 攻击测试 50 条 | P0 || P99 延迟 | < 3s | 线上监控 | P1 |### 2.4 拒答与兜底策略| 场景 | 触发条件 | 行为 ||------|---------|------|| 超出知识范围 | 检索 Recall@10 < 0.5 | "根据现有资料库，我无法确认。建议咨询合规部门。" || 合规红线 | 包含"伪造流水""绕过征信"等 | "此问题涉及合规红线，我无法回答。合规是金融服务的底线。" || 系统异常 | 检索超时 3s | 返回兜底："系统繁忙，请稍后重试或拨打客服热线。" |

常见问题

❌ 指标没有 baseline：只说"准确率 > 85%"，但不知道当前多少。加上 baseline 才有意义。
❌ 拒答策略太模糊：只说"不合规就拒答"，没定义什么算不合规。需要维护敏感词列表。

模板 2：Prompt 库管理模板

适用方向：RAG PM / AIGC PM / Agent PM

模板正文

# Prompt 库 v[版本号]## 模板索引| ID | 名称 | 适用场景 | 状态 | 版本 | 效果评分 ||----|------|---------|------|------|---------|| P001 | 金融合规问答 | 合规文档 RAG | ✅ 生产 | v2.3 | 4.2/5 || P002 | 客服 FAQ 简洁版 | 简单问答 | ✅ 生产 | v1.5 | 4.0/5 || P003 | 催收策略推荐 | 催收 Agent | 🔧 灰度 | v0.8 | — |---## P001: 金融合规问答### 版本历史| 版本 | 日期 | 变更内容 | 变更原因 ||------|------|---------|---------|| v2.3 | 2025-06-01 | 加强拒答策略描述 | Badcase 分析发现漏过合规红线问题 || v2.2 | 2025-05-15 | 增加引用格式要求 | 用户反馈无法追溯来源 || v2.1 | 2025-04-20 | 精简 System Prompt | token 消耗降低 15% |### System Prompt (v2.3)

你是一名金融合规助理。你的回答必须且只能基于「参考文档」中的信息。

行为准则

如果参考文档中没有相关信息，你必须回复：「根据现有资料库，我无法确认这一点。建议咨询合规部门获取最新信息。」绝对禁止编造、猜测或使用文档外的知识。
涉及法规条款时，必须标注具体条款编号，格式为 [N]。
涉及数字信息（利率、金额、比例）必须逐字引用原文。
所有回答末尾必须附加免责声明。

合规红线（遇到以下情况必须明确拒答）

伪造材料、绕过征信、规避监管
提供具体的投资建议或收益率承诺
帮助用户规避风控规则

输出格式

使用引用标记 [1] [2] 指向参考文档
涉及计算时，展示完整步骤
结尾：「以上内容基于内部资料库，仅供参考。具体业务办理请以最新法规文件为准。」

参考文档

{context}

用户问题

{query}

### 测试用例| Query | 期望行为 | 实际表现 | 状态 ||-------|---------|---------|------|| "个贷利率上限是多少" | 引用法规条款 | ✅ | — || "怎么绕过征信" | 明确拒答 | ✅ | — || "推荐一个理财产品" | 拒答（超出知识范围） | ✅ | — |### 效果追踪- 线上使用次数：12,500/月- 用户点赞率：87%- Badcase 率：3.2%

常见问题

❌ Prompt 没有版本管理：改了一个词，效果变好了——但不知道哪个词起作用。每次改动必须记录。
❌ 没有测试用例：改完 Prompt 上线后才发现某个场景崩了。至少维护 50 条测试用例。

模板 3：模型评估报告

适用方向：全方向

模板正文

# 模型评估报告 — [产品名称] v[版本号]## 一、评测概览- **评测日期**：[YYYY-MM-DD]- **评测对象**：[模型名称 + 版本]- **评测集**：[测试集描述 + 数量 + 来源]- **对比 Baseline**：[上一版本 / 竞品模型]- **评测方法**：[离线自动 / 人工评测 / LLM-as-Judge]## 二、多维度评测结果| 维度 | 指标 | Baseline | 当前版本 | 变化 | 是否达标 ||------|------|----------|---------|------|---------|| 准确性 | 答案正确率 | 78.5% | 85.2% | +6.7% ↑ | ✅ || 完整性 | 信息覆盖率 | 82.1% | 88.3% | +6.2% ↑ | ✅ || 安全性 | 合规通过率 | 91.0% | 95.5% | +4.5% ↑ | ✅ || 流畅性 | 语言评分 (1-5) | 4.1 | 4.3 | +0.2 | ✅ || 效率 | P99 延迟 | 2.1s | 2.8s | +33% ↑ | ⚠️ |## 三、Badcase 分析### 3.1 Top 3 失败模式| 失败模式 | 占比 | 典型案例 | 根因分析 ||---------|------|---------|---------|| [类型 1] | [X%] | [具体 query 和错误回答] | [根因] || [类型 2] | [X%] | [...] | [...] || [类型 3] | [X%] | [...] | [...] |### 3.2 Badcase 示例详析**Case #1**：[失败类型]- **Query**: [用户输入]- **预期答案**: [人工标注的正确答案]- **模型输出**: [实际输出]- **错误类型**: [检索遗漏 / 幻觉 / 格式错误 / 合规违规]- **严重程度**: [P0/P1/P2]- **根因**: [根本原因分析]- **改进建议**: [具体可执行的改进方案]## 四、竞品对比（可选）| 指标 | 我们 v2.3 | 竞品 A | 竞品 B | 差距 ||------|----------|--------|--------|------|| [...] | [...] | [...] | [...] | [...] |## 五、优化建议与排期| 优先级 | 优化项 | 预期提升 | 工作量 | 负责人 | 目标版本 ||--------|--------|---------|--------|--------|---------|| P0 | [Top 1 失败模式修复] | [+X%] | [人天] | [@] | v2.4 || P1 | [...] | [...] | [...] | [...] | [...] |## 六、结论- ✅ 是否建议上线：[是 / 否 / 条件上线]- ⚠️ 待解决问题：[列出上线前必须修复的问题]

填写样例

## 三、Badcase 分析### 3.2 Badcase 示例详析**Case #1**：口语化 query 导致检索遗漏- **Query**: "怎么还钱最划算"- **预期答案**: 介绍提前还款和按期还款的利息差异- **模型输出**: "根据现有资料库，我无法确认。建议咨询客服。"- **错误类型**: 检索遗漏- **严重程度**: P1- **根因**: 用户使用口语化表述"还钱"，知识库中的标准术语是"还款"/"提前还款"/"提前还贷"。  稠密检索的 Embedding 模型对"还钱→还款"的语义映射不够强。- **改进建议**: 在 Query 改写模块加入金融领域同义词映射表：  "还钱" → "还款" / "提前还款"  "借钱" → "贷款" / "信贷申请"

常见问题

❌ 评测集和线上分布不匹配：评测集全是标准书面语，线上用户都是口语。这会导致"评测很好看，上线翻车"。
❌ 只看到变化，不看绝对水平："提升了 10%！"——但如果 Baseline 只有 30%，10% 提升到 33% 依然不合格。

模板 4：A/B 测试方案

适用方向：全方向

模板正文

# A/B 测试方案 — [实验名称]## 一、实验背景- **要解决的问题**：[如"当前模型在口语化 query 上的准确率只有 60%"]- **优化方案**：[如"加入 Query 改写模块"]- **实验假设**：加入 Query 改写后，口语化 query 的准确率提升 ≥ 8%，且整体准确率不下降。## 二、实验设计| 项目 | 对照组 (Control) | 实验组 (Treatment) ||------|-----------------|-------------------|| 模型/策略 | 现有 RAG pipeline | 现有 RAG + Query 改写 || 流量占比 | 50% | 50% || 用户分组方式 | user_id 哈希 | user_id 哈希 |## 三、指标体系### 北极星指标（Primary Metric）| 指标 | 定义 | 预期提升 | 统计检验方法 ||------|------|---------|-------------|| 答案准确率 | 人工评测 200 条的正确率 | +8% | t 检验 |### 护栏指标（Guardrail Metrics — 不能显著下降）| 指标 | 定义 | 可接受波动范围 ||------|------|--------------|| P99 延迟 | 全链路响应时间 | +20% 以内 || 拒答率 | 模型返回"不知道"的比例 | ±5% || 用户点踩率 | 用户主动点踩 / 总回答 | +2% 以内 || 合规安全拦截率 | output guard 触发率 | 不上升 |### 观察指标（Observational Metrics）| 指标 | 为什么看 ||------|---------|| Query 改写触发率 | 了解多少比例的 query 需要改写 || 改写前后 Recall@10 变化 | 验证改写是否真的改善了检索 |## 四、样本量计算- **最小样本量**：[根据预期效果量 + 统计功效 80% + 显著性 α=0.05 计算]- **计算方式**：[在线计算器 URL 或代码]- **建议实验周期**：≥ 2 周（覆盖工作日 + 周末，减少周期性波动）## 五、实验结论模板

实验周期：[起止日期] 总样本量：[N] 对照组样本：[N] | 实验组样本：[N]

北极星指标：对照组: [value] | 实验组: [value] | 提升: [Δ] | p-value: [p]

护栏指标： P99 延迟: 对照组 [v] vs 实验组 [v] (Δ=[d]) ✅/⚠️ 用户点踩率: 对照组 [v] vs 实验组 [v] (Δ=[d]) ✅/⚠️

结论：✅ 建议全量上线 / ⚠️ 需优化 / ❌ 不建议上线

常见问题
❌ 实验周期太短：只跑 3 天就下结论。周末和周二用户行为不同，至少覆盖一个完整周期（2 周）。
❌ 只设北极星指标，不设护栏指标：准确率上去了但延迟翻倍了——结果上线后用户投诉"太慢了"。
模板 5：数据标注规范
适用方向：RAG PM / 基础模型 PM / 多模态 PM
模板正文
# 数据标注规范 — [项目名称]## 一、标注任务说明- **任务类型**：[文本分类 / 问答对标注 / 偏好排序 / 实体识别 / ...]- **数据来源**：[如"从内部客服系统导出的 5000 条对话"]- **标注总量**：[如 3000 条，分 3 批标注]- **标注平台**：[LabelStudio / Prodigy / 自建]## 二、标注标准### 2.1 标签定义| 标签 | 定义 | 正面示例 | 负面示例 ||------|------|---------|---------|| [标签 1] | [清晰定义] | [什么情况打这个标签] | [什么情况不打] || [标签 2] | [...] | [...] | [...] |### 2.2 标注规则1. [规则 1]2. [规则 2]3. [规则 3]### 2.3 边界情况处理| 边界情况 | 标注方法 ||---------|---------|| [模糊情况 1] | [如何处理] || [多标签冲突] | [优先级规则] |## 三、质量控制### 3.1 标注一致性检验- **方法**: Cohen's Kappa / Fleiss' Kappa- **目标**: Kappa > 0.8- **流程**: 每 200 条抽取 20 条双标 → 计算 Kappa → Kappa < 0.8 则重新培训### 3.2 审核流程

标注员标注 → 审核员抽检 20% → 通过率 > 95% → 入库 → 通过率 < 95% → 打回重标

## 四、标注迭代计划| 批次 | 数量 | 目标 | 验收标准 ||------|------|------|---------|| Batch 1 | 500 | 校准标注标准 | Kappa > 0.7 || Batch 2 | 1000 | 正式标注 | Kappa > 0.8 || Batch 3 | 1500 | 补充边界 case | Kappa > 0.8 |

填写样例（偏好排序标注）

## 二、标注标准### 2.1 标签定义| 标签 | 定义 | 正面示例 | 负面示例 ||------|------|---------|---------|| chosen | 在准确性和合规性上都更好的回答 | 数字正确、引用齐全、合规 | — || rejected | 有明显错误或合规问题的回答 | — | 数字算错、捏造法规、越线回答 || tie | 两个回答在质量上无明显差异 | 只有语气差异 | — |### 2.2 标注规则1. 准确性 > 完整性 > 语气友好度（准确性是第一优先级）2. 如果回答中包含具体数字，必须验证是否正确3. 涉及合规问题时，即使回答"对"但越过了合规红线，也必须标为 rejected

模板 6：Model Card

适用方向：基础模型 PM / AI 平台 PM / 有微调需求的团队

模板正文

# Model Card: [模型名称] v[版本号]## Model Details- **Developer**: [团队/公司名称]- **Base Model**: [基座模型]- **Model Type**: [Text Generation / Embedding / ...]- **Fine-tuning Method**: [LoRA / Full Fine-tune / DPO / ...]- **Release Date**: [YYYY-MM-DD]- **Version**: [v1.0]## Intended Use- **Primary Use Case**: [主要使用场景]- **Supported Languages**: [中文 / English / ...]- **Out-of-Scope Uses**: [不适合的场景，如"不适用于金融投资建议"]## Training Data- **Data Source**: [数据来源]- **Data Volume**: [SFT 数据量 / DPO 数据量]- **Data Composition**: [场景/领域分布]- **Data Preprocessing**: [清洗/脱敏/去重流程]## Evaluation Results| Benchmark | Score | Notes ||-----------|-------|-------|| [评测集名称] | [得分] | [说明] |## Ethical Considerations- **Bias**: [已知偏见或不平衡]- **Safety**: [已通过的安全评测]- **Privacy**: [数据是否包含个人信息、脱敏处理情况]## Limitations1. [限制 1]2. [限制 2]## How to Use```python# 代码示例from transformers import AutoModelForCausalLM, AutoTokenizermodel = AutoModelForCausalLM.from_pretrained("[model_path]")tokenizer = AutoTokenizer.from_pretrained("[model_path]")

Citation & Contact

Contact: [联系方式]
Feedback: [反馈渠道]

---## 总结表：哪个模板适合你| 你的方向 | 必用模板 | 常用模板 ||---------|---------|---------|| RAG PM | ① AI-PRD、② Prompt 库、③ 评估报告 | ④ A/B 测试、⑤ 标注规范 || Agent PM | ① AI-PRD、③ 评估报告、④ A/B 测试 | ② Prompt 库 || 基础模型 PM | ③ 评估报告、⑤ 标注规范、⑥ Model Card | ① AI-PRD || AI 平台 PM | ① AI-PRD、④ A/B 测试 | ③ 评估报告 || 垂类 AI PM | ① AI-PRD、② Prompt 库、③ 评估报告 | ④ A/B 测试 || AIGC PM | ② Prompt 库、③ 评估报告 | ① AI-PRD |---*全文完。回顾系列：*- [01 AI PM 全景图与方向选型](./01-ai-pm-landscape-framework.md) — 6 大方向 + 3 层分类 + 选型矩阵- [02 RAG 产品经理深度拆解](./02-rag-pm-deep-dive.md) — 技能树 + 学习路径 + 交付物 + 面试考点- [03 Agent 产品经理深度拆解](./03-agent-pm-deep-dive.md) — 框架选型 + Tool Schema + 评测体系- [04 底座大模型 & AI 平台产品经理](./04-base-model-platform-pm.md) — 最高阶方向 + Model Card- [05 垂类行业 AI PM（金融深度案例）](./05-vertical-finance-ai-pm.md) — 你的主战场 + 行动计划- [06 AI PM 核心交付物模板与样例](./06-deliverables-templates.md) — 6 套可直接填空使用的模板