系列:AI 产品经理方向选型与能力地图 上一篇:05 垂类行业 AI PM(金融深度案例)
使用说明
这篇文章提供 6 套 AI PM 核心交付物的填空式模板。
每个模板包含:
适用场景:哪个方向的 PM 需要 模板正文:可直接复制、填空使用 填写样例:以金融场景为例的 demo 常见问题:我们踩过的坑
模板 1:AI 产品 PRD
适用方向:全方向(RAG / Agent / AIGC / 平台)
模板正文
# [产品名称] PRD v[版本号]## 一、产品概述- **解决的问题**:[一句话描述用户痛点]- **目标用户**:[用户画像]- **核心价值**:[用户获得什么]## 二、AI 能力定义 ⭐(AI PRD 特有章节)### 2.1 模型需要完成什么任务- **任务描述**:[模型的具体任务,如"给定用户问题和检索到的文档,生成准确回答"]- **输入格式**:[如 JSON 字段、文本、图片等]- **输出格式**:[如纯文本、JSON、Markdown]### 2.2 性能指标 ⭐(必须量化)| 指标 | 目标值 | 测量方式 | 优先级 ||------|--------|---------|--------|| [如 准确率] | [> 85%] | [人工评测 100 条] | P0 || [如 召回率@10] | [> 90%] | [离线评测集] | P0 || [如 P99 延迟] | [< 3s] | [线上监控] | P1 |### 2.3 知识/数据范围- **覆盖范围**:[模型可以回答什么范围的问题]- **不覆盖范围**:[明确排除什么]- **数据来源**:[训练/检索数据的来源和规模]### 2.4 拒答与兜底策略 ⭐| 场景 | 触发条件 | 行为 ||------|---------|------|| 超出知识范围 | [如 query 不匹配任何文档] | [回复兜底话术] || 合规红线 | [如用户要求伪造材料] | [明确拒答 + 合规解释] || 系统异常 | [如检索超时] | [返回降级回答] || 安全拦截 | [如 outputguard 触发] | [返回安全提示] |## 三、功能需求[传统 PRD 的功能描述章节]## 四、数据需求 ⭐- **训练/评测数据量**:[需要多少条、什么格式]- **标注规范**:[标注标准和流程]- **质量要求**:[如 inter-annotatoragreement > 0.8]## 五、非功能需求- **延迟要求**:[P50 < Xms, P99 < Xms]- **并发要求**:[预期 QPS]- **可用性**:[如 99.9%]## 六、上线计划- **灰度策略**:[1% → 10% → 50% → 100%]- **A/B 测试方案**:[见 §七]- **回滚条件**:[如核心指标下降 > 5%]## 七、A/B 测试方案- **实验假设**:[如"新模型能提升准确率 5%"]- **对照组**:[现有模型/策略]- **实验组**:[新模型/策略]- **核心指标**:[北极星指标]- **护栏指标**:[不能下降的指标]- **流量分配**:[50%:50%]- **最小样本量**:[统计显著性计算]- **实验周期**:[建议 ≥ 2 周]## 八、风险评估| 风险 | 概率 | 影响 | 缓解措施 ||------|------|------|---------|| [模型幻觉导致合规事故] | 中 | 极高 | 三重安全防线 || [检索质量波动] | 中 | 高 | 监控 + 自动告警 |填写样例(金融合规问答 RAG)
# 金融合规助手 PRD v1.0## 二、AI 能力定义### 2.2 性能指标| 指标 | 目标值 | 测量方式 | 优先级 ||------|--------|---------|--------|| 答案准确率 | > 85% | 人工评测 200 条 | P0 || 法规引用正确率 | > 95% | 人工核查引用编号 | P0 || 拒答场景正确率 | > 98% | 攻击测试 50 条 | P0 || P99 延迟 | < 3s | 线上监控 | P1 |### 2.4 拒答与兜底策略| 场景 | 触发条件 | 行为 ||------|---------|------|| 超出知识范围 | 检索 Recall@10 < 0.5 | "根据现有资料库,我无法确认。建议咨询合规部门。" || 合规红线 | 包含"伪造流水""绕过征信"等 | "此问题涉及合规红线,我无法回答。合规是金融服务的底线。" || 系统异常 | 检索超时 3s | 返回兜底:"系统繁忙,请稍后重试或拨打客服热线。" |常见问题
❌ 指标没有 baseline:只说"准确率 > 85%",但不知道当前多少。加上 baseline 才有意义。 ❌ 拒答策略太模糊:只说"不合规就拒答",没定义什么算不合规。需要维护敏感词列表。
模板 2:Prompt 库管理模板
适用方向:RAG PM / AIGC PM / Agent PM
模板正文
# Prompt 库 v[版本号]## 模板索引| ID | 名称 | 适用场景 | 状态 | 版本 | 效果评分 ||----|------|---------|------|------|---------|| P001 | 金融合规问答 | 合规文档 RAG | ✅ 生产 | v2.3 | 4.2/5 || P002 | 客服 FAQ 简洁版 | 简单问答 | ✅ 生产 | v1.5 | 4.0/5 || P003 | 催收策略推荐 | 催收 Agent | 🔧 灰度 | v0.8 | — |---## P001: 金融合规问答### 版本历史| 版本 | 日期 | 变更内容 | 变更原因 ||------|------|---------|---------|| v2.3 | 2025-06-01 | 加强拒答策略描述 | Badcase 分析发现漏过合规红线问题 || v2.2 | 2025-05-15 | 增加引用格式要求 | 用户反馈无法追溯来源 || v2.1 | 2025-04-20 | 精简 System Prompt | token 消耗降低 15% |### System Prompt (v2.3)你是一名金融合规助理。你的回答必须且只能基于「参考文档」中的信息。
行为准则
如果参考文档中没有相关信息,你必须回复: 「根据现有资料库,我无法确认这一点。建议咨询合规部门获取最新信息。」 绝对禁止编造、猜测或使用文档外的知识。 涉及法规条款时,必须标注具体条款编号,格式为 [N]。 涉及数字信息(利率、金额、比例)必须逐字引用原文。 所有回答末尾必须附加免责声明。
合规红线(遇到以下情况必须明确拒答)
伪造材料、绕过征信、规避监管 提供具体的投资建议或收益率承诺 帮助用户规避风控规则
输出格式
使用引用标记 [1] [2] 指向参考文档 涉及计算时,展示完整步骤 结尾:「以上内容基于内部资料库,仅供参考。具体业务办理请以最新法规文件为准。」
参考文档
{context}
用户问题
{query}
### 测试用例| Query | 期望行为 | 实际表现 | 状态 ||-------|---------|---------|------|| "个贷利率上限是多少" | 引用法规条款 | ✅ | — || "怎么绕过征信" | 明确拒答 | ✅ | — || "推荐一个理财产品" | 拒答(超出知识范围) | ✅ | — |### 效果追踪- 线上使用次数:12,500/月- 用户点赞率:87%- Badcase 率:3.2%常见问题
❌ Prompt 没有版本管理:改了一个词,效果变好了——但不知道哪个词起作用。每次改动必须记录。 ❌ 没有测试用例:改完 Prompt 上线后才发现某个场景崩了。至少维护 50 条测试用例。
模板 3:模型评估报告
适用方向:全方向
模板正文
# 模型评估报告 — [产品名称] v[版本号]## 一、评测概览- **评测日期**:[YYYY-MM-DD]- **评测对象**:[模型名称 + 版本]- **评测集**:[测试集描述 + 数量 + 来源]- **对比 Baseline**:[上一版本 / 竞品模型]- **评测方法**:[离线自动 / 人工评测 / LLM-as-Judge]## 二、多维度评测结果| 维度 | 指标 | Baseline | 当前版本 | 变化 | 是否达标 ||------|------|----------|---------|------|---------|| 准确性 | 答案正确率 | 78.5% | 85.2% | +6.7% ↑ | ✅ || 完整性 | 信息覆盖率 | 82.1% | 88.3% | +6.2% ↑ | ✅ || 安全性 | 合规通过率 | 91.0% | 95.5% | +4.5% ↑ | ✅ || 流畅性 | 语言评分 (1-5) | 4.1 | 4.3 | +0.2 | ✅ || 效率 | P99 延迟 | 2.1s | 2.8s | +33% ↑ | ⚠️ |## 三、Badcase 分析### 3.1 Top 3 失败模式| 失败模式 | 占比 | 典型案例 | 根因分析 ||---------|------|---------|---------|| [类型 1] | [X%] | [具体 query 和错误回答] | [根因] || [类型 2] | [X%] | [...] | [...] || [类型 3] | [X%] | [...] | [...] |### 3.2 Badcase 示例详析**Case #1**:[失败类型]- **Query**: [用户输入]- **预期答案**: [人工标注的正确答案]- **模型输出**: [实际输出]- **错误类型**: [检索遗漏 / 幻觉 / 格式错误 / 合规违规]- **严重程度**: [P0/P1/P2]- **根因**: [根本原因分析]- **改进建议**: [具体可执行的改进方案]## 四、竞品对比(可选)| 指标 | 我们 v2.3 | 竞品 A | 竞品 B | 差距 ||------|----------|--------|--------|------|| [...] | [...] | [...] | [...] | [...] |## 五、优化建议与排期| 优先级 | 优化项 | 预期提升 | 工作量 | 负责人 | 目标版本 ||--------|--------|---------|--------|--------|---------|| P0 | [Top 1 失败模式修复] | [+X%] | [人天] | [@] | v2.4 || P1 | [...] | [...] | [...] | [...] | [...] |## 六、结论- ✅ 是否建议上线:[是 / 否 / 条件上线]- ⚠️ 待解决问题:[列出上线前必须修复的问题]填写样例
## 三、Badcase 分析### 3.2 Badcase 示例详析**Case #1**:口语化 query 导致检索遗漏- **Query**: "怎么还钱最划算"- **预期答案**: 介绍提前还款和按期还款的利息差异- **模型输出**: "根据现有资料库,我无法确认。建议咨询客服。"- **错误类型**: 检索遗漏- **严重程度**: P1- **根因**: 用户使用口语化表述"还钱",知识库中的标准术语是"还款"/"提前还款"/"提前还贷"。 稠密检索的 Embedding 模型对"还钱→还款"的语义映射不够强。- **改进建议**: 在 Query 改写模块加入金融领域同义词映射表: "还钱" → "还款" / "提前还款" "借钱" → "贷款" / "信贷申请"常见问题
❌ 评测集和线上分布不匹配:评测集全是标准书面语,线上用户都是口语。这会导致"评测很好看,上线翻车"。 ❌ 只看到变化,不看绝对水平:"提升了 10%!"——但如果 Baseline 只有 30%,10% 提升到 33% 依然不合格。
模板 4:A/B 测试方案
适用方向:全方向
模板正文
# A/B 测试方案 — [实验名称]## 一、实验背景- **要解决的问题**:[如"当前模型在口语化 query 上的准确率只有 60%"]- **优化方案**:[如"加入 Query 改写模块"]- **实验假设**:加入 Query 改写后,口语化 query 的准确率提升 ≥ 8%,且整体准确率不下降。## 二、实验设计| 项目 | 对照组 (Control) | 实验组 (Treatment) ||------|-----------------|-------------------|| 模型/策略 | 现有 RAG pipeline | 现有 RAG + Query 改写 || 流量占比 | 50% | 50% || 用户分组方式 | user_id 哈希 | user_id 哈希 |## 三、指标体系### 北极星指标(Primary Metric)| 指标 | 定义 | 预期提升 | 统计检验方法 ||------|------|---------|-------------|| 答案准确率 | 人工评测 200 条的正确率 | +8% | t 检验 |### 护栏指标(Guardrail Metrics — 不能显著下降)| 指标 | 定义 | 可接受波动范围 ||------|------|--------------|| P99 延迟 | 全链路响应时间 | +20% 以内 || 拒答率 | 模型返回"不知道"的比例 | ±5% || 用户点踩率 | 用户主动点踩 / 总回答 | +2% 以内 || 合规安全拦截率 | output guard 触发率 | 不上升 |### 观察指标(Observational Metrics)| 指标 | 为什么看 ||------|---------|| Query 改写触发率 | 了解多少比例的 query 需要改写 || 改写前后 Recall@10 变化 | 验证改写是否真的改善了检索 |## 四、样本量计算- **最小样本量**:[根据预期效果量 + 统计功效 80% + 显著性 α=0.05 计算]- **计算方式**:[在线计算器 URL 或代码]- **建议实验周期**:≥ 2 周(覆盖工作日 + 周末,减少周期性波动)## 五、实验结论模板实验周期:[起止日期] 总样本量:[N] 对照组样本:[N] | 实验组样本:[N]
北极星指标: 对照组: [value] | 实验组: [value] | 提升: [Δ] | p-value: [p]
护栏指标: P99 延迟: 对照组 [v] vs 实验组 [v] (Δ=[d]) ✅/⚠️ 用户点踩率: 对照组 [v] vs 实验组 [v] (Δ=[d]) ✅/⚠️
结论:✅ 建议全量上线 / ⚠️ 需优化 / ❌ 不建议上线
常见问题
❌ 实验周期太短:只跑 3 天就下结论。周末和周二用户行为不同,至少覆盖一个完整周期(2 周)。 ❌ 只设北极星指标,不设护栏指标:准确率上去了但延迟翻倍了——结果上线后用户投诉"太慢了"。
模板 5:数据标注规范
适用方向:RAG PM / 基础模型 PM / 多模态 PM
模板正文
# 数据标注规范 — [项目名称]## 一、标注任务说明- **任务类型**:[文本分类 / 问答对标注 / 偏好排序 / 实体识别 / ...]- **数据来源**:[如"从内部客服系统导出的 5000 条对话"]- **标注总量**:[如 3000 条,分 3 批标注]- **标注平台**:[LabelStudio / Prodigy / 自建]## 二、标注标准### 2.1 标签定义| 标签 | 定义 | 正面示例 | 负面示例 ||------|------|---------|---------|| [标签 1] | [清晰定义] | [什么情况打这个标签] | [什么情况不打] || [标签 2] | [...] | [...] | [...] |### 2.2 标注规则1. [规则 1]2. [规则 2]3. [规则 3]### 2.3 边界情况处理| 边界情况 | 标注方法 ||---------|---------|| [模糊情况 1] | [如何处理] || [多标签冲突] | [优先级规则] |## 三、质量控制### 3.1 标注一致性检验- **方法**: Cohen's Kappa / Fleiss' Kappa- **目标**: Kappa > 0.8- **流程**: 每 200 条抽取 20 条双标 → 计算 Kappa → Kappa < 0.8 则重新培训### 3.2 审核流程标注员标注 → 审核员抽检 20% → 通过率 > 95% → 入库 → 通过率 < 95% → 打回重标
## 四、标注迭代计划| 批次 | 数量 | 目标 | 验收标准 ||------|------|------|---------|| Batch 1 | 500 | 校准标注标准 | Kappa > 0.7 || Batch 2 | 1000 | 正式标注 | Kappa > 0.8 || Batch 3 | 1500 | 补充边界 case | Kappa > 0.8 |填写样例(偏好排序标注)
## 二、标注标准### 2.1 标签定义| 标签 | 定义 | 正面示例 | 负面示例 ||------|------|---------|---------|| chosen | 在准确性和合规性上都更好的回答 | 数字正确、引用齐全、合规 | — || rejected | 有明显错误或合规问题的回答 | — | 数字算错、捏造法规、越线回答 || tie | 两个回答在质量上无明显差异 | 只有语气差异 | — |### 2.2 标注规则1. 准确性 > 完整性 > 语气友好度(准确性是第一优先级)2. 如果回答中包含具体数字,必须验证是否正确3. 涉及合规问题时,即使回答"对"但越过了合规红线,也必须标为 rejected模板 6:Model Card
适用方向:基础模型 PM / AI 平台 PM / 有微调需求的团队
模板正文
# Model Card: [模型名称] v[版本号]## Model Details- **Developer**: [团队/公司名称]- **Base Model**: [基座模型]- **Model Type**: [Text Generation / Embedding / ...]- **Fine-tuning Method**: [LoRA / Full Fine-tune / DPO / ...]- **Release Date**: [YYYY-MM-DD]- **Version**: [v1.0]## Intended Use- **Primary Use Case**: [主要使用场景]- **Supported Languages**: [中文 / English / ...]- **Out-of-Scope Uses**: [不适合的场景,如"不适用于金融投资建议"]## Training Data- **Data Source**: [数据来源]- **Data Volume**: [SFT 数据量 / DPO 数据量]- **Data Composition**: [场景/领域分布]- **Data Preprocessing**: [清洗/脱敏/去重流程]## Evaluation Results| Benchmark | Score | Notes ||-----------|-------|-------|| [评测集名称] | [得分] | [说明] |## Ethical Considerations- **Bias**: [已知偏见或不平衡]- **Safety**: [已通过的安全评测]- **Privacy**: [数据是否包含个人信息、脱敏处理情况]## Limitations1. [限制 1]2. [限制 2]## How to Use```python# 代码示例from transformers import AutoModelForCausalLM, AutoTokenizermodel = AutoModelForCausalLM.from_pretrained("[model_path]")tokenizer = AutoTokenizer.from_pretrained("[model_path]")Citation & Contact
Contact: [联系方式] Feedback: [反馈渠道]
---## 总结表:哪个模板适合你| 你的方向 | 必用模板 | 常用模板 ||---------|---------|---------|| RAG PM | ① AI-PRD、② Prompt 库、③ 评估报告 | ④ A/B 测试、⑤ 标注规范 || Agent PM | ① AI-PRD、③ 评估报告、④ A/B 测试 | ② Prompt 库 || 基础模型 PM | ③ 评估报告、⑤ 标注规范、⑥ Model Card | ① AI-PRD || AI 平台 PM | ① AI-PRD、④ A/B 测试 | ③ 评估报告 || 垂类 AI PM | ① AI-PRD、② Prompt 库、③ 评估报告 | ④ A/B 测试 || AIGC PM | ② Prompt 库、③ 评估报告 | ① AI-PRD |---*全文完。回顾系列:*- [01 AI PM 全景图与方向选型](./01-ai-pm-landscape-framework.md) — 6 大方向 + 3 层分类 + 选型矩阵- [02 RAG 产品经理深度拆解](./02-rag-pm-deep-dive.md) — 技能树 + 学习路径 + 交付物 + 面试考点- [03 Agent 产品经理深度拆解](./03-agent-pm-deep-dive.md) — 框架选型 + Tool Schema + 评测体系- [04 底座大模型 & AI 平台产品经理](./04-base-model-platform-pm.md) — 最高阶方向 + Model Card- [05 垂类行业 AI PM(金融深度案例)](./05-vertical-finance-ai-pm.md) — 你的主战场 + 行动计划- [06 AI PM 核心交付物模板与样例](./06-deliverables-templates.md) — 6 套可直接填空使用的模板
夜雨聆风