AI产品经理和传统PM,根本不是一回事-夜雨聆风

AI产品经理和传统PM,根本不是一回事

上一篇文章聊了传统软件和AI应用在技术层面的差异。这篇文章把视角转到你日常最熟悉的工作上——需求文档怎么写、怎么验证质量、怎么迭代产品。

作为传统PM，这些你闭着眼都能做。但AI应用PM在这三件事上的做法，已经发生了根本性的变化。

这篇文章，专门对比这三种核心工作的差异，帮你搞清楚：转AI PM，你到底要补什么。

一、需求文档：从”写流程”到”写标准”

先问自己一个问题：你现在写PRD，核心在写什么？

大部分PRD的内核是流程：用户做什么操作 → 系统怎么响应 → 什么情况报错。逻辑清晰、路径明确，研发照着实现就好。

这个模式在AI应用里，部分失效了。

传统PRD的写法

功能：智能邮件摘要触发：用户点击「摘要」按钮逻辑：  1. 系统读取邮件正文  2. 调用摘要模型，生成100字摘要  3. 显示摘要，用户可复制或编辑异常：  - 正文为空 → 提示"无内容"  - 模型超时 → 提示"生成失败，请重试"

你能写清楚每一步，因为每一步都是确定的。

AI功能的需求文档

同样的”智能邮件摘要”，AI版本的需求文档要怎么写？

功能：AI邮件摘要输入：用户选中的邮件正文输出：100字以内的中文摘要【期望输出特征】- 摘要长度：80-120字- 语言：与原文一致（原文是中文则用中文）- 内容：涵盖邮件的核心信息（人物/事件/时间/动作）- 语气：客观中立，不加入主观判断【拒绝案例（不合格输出）】- 超过150字- 引入了邮件正文未提及的信息- 摘要内容与原文事实矛盾- 使用原文未出现的专有名词【格式要求】直接输出一段文字，不加前缀如"摘要："，不加编号【示例】原文：[某封业务邮件正文...]期望输出：[符合上述特征的摘要...]

看出区别了吗？

传统PRD写的是流程，研发照着实现，输出是确定的。AI功能的PRD写的是标准 + 反例 + 示例，研发照着实现，但输出是概率性的——模型每次生成的内容都略有不同，你要靠这些标准来判断”这次是否达标”。

这本质上更像写测试用例，而不是写流程图。

对你意味着什么

写AI功能的需求文档，你最需要的不是画流程图的能力，而是：

定义清晰的能力边界：什么该答、什么不该答
识别反例的能力：什么样的输出是绝对不能接受的
提供正向示例的能力：几个高质量的输入-输出样例，比任何文字描述都有效

这些能力，和写传统PRD需要的”逻辑拆解”不太一样，但也没有你想象的难——本质上是你已经在做的事情，只是换个侧重点。

二、质量验证：从”QA测试”到”Evals评估”

传统PM怎么判断一个功能”做完了”？

通常是这样：

研发：做完了PM：测试一下QA：有1个bug，已提单研发：修复了QA：回归测试通过PM：验收通过，上线

QA给你的是一个确定性的答案：通过或不通过。功能符合需求就过，不符合就不过。

AI应用没有这个奢侈。

AI输出是概率的，无法穷举测试

你想验证”邮件摘要功能”是否正确——但模型对同一封邮件每次生成的摘要都不同，你不可能把所有可能的邮件都跑一遍。

所以传统QA在AI应用里基本失效，你需要的是Evals（评估体系）。

什么是Evals

简单说，Evals就是一套用机器代替人工QA的评估方法。

步骤如下：

第一步：建立测试集

收集一批有代表性的真实邮件，作为基准样本。比如50封，覆盖不同长度、不同类型（商务/私人/营销）、不同语言的邮件。

第二步：定义评估维度

每个维度对应一个打分规则：

维度1 - 长度合规：80-120字 ✅，超150字 ❌维度2 - 内容一致性：摘要事实与原文一致 ✅，有矛盾 ❌维度3 - 格式正确：无额外前缀 ✅，有"摘要："前缀 ❌维度4 - 信息覆盖率：涵盖核心人物/事件/时间 ✅，缺两项以上 ❌

第三步：跑批量评估

用这50封邮件批量跑模型，把输出交给评估规则打分。人工抽检20%，确保评估规则本身是对的。

第四步：设定通过阈值

长度合规率 ≥ 95%内容一致性 ≥ 90%格式正确率 = 100%（这是底线，不能妥协）信息覆盖率 ≥ 85%

四个维度全部达标，功能才能上线。

Evals vs 传统QA的核心区别

	传统QA	Evals
答案类型	确定：通过/不通过	概率：各项指标百分比
测试方式	人工逐条测试	批量自动跑，人工抽检
可穷举性	穷举所有输入	用代表性样本推断整体
上线标准	所有bug修复	指标达到阈值
更新频率	发版时测一次	每次Prompt/模型变更都要跑

对你意味着什么

设计Evals，是AI PM最核心的新技能之一。你不需要会写代码来搭建评估系统（通常是工程师帮你搭），但你必须能回答这些问题：

这个功能需要测哪些维度？
每个维度的”合格”标准是什么？
测试集怎么构建才能代表真实用户场景？
哪些维度是绝对底线（不能有任何不合格案例）？

你设计Evals的能力，直接决定了你产品的质量下限。

三、产品迭代：从”改代码等发版”到”改Prompt立竿见影”

最后一个大差异：迭代速度。

传统PM提一个需求变更，流程是这样的：

PM提出变更 → 评审 → 研发排期 → 开发 → 测试 → 发版最快：3-5天正常：1-2周复杂：1个月以上

在AI应用里，如果你只是调整Prompt或评估标准，流程变成了：

PM调整System Prompt → 跑Evals → 指标达标 → 上线最快：5分钟正常：30分钟-2小时

这个变化听起来很爽，但背后有两个你必须理解的影响。

影响一：Prompt的质量直接影响产品体验

传统应用里，改一个按钮的文案，研发花5分钟改代码，你几乎感觉不到差异。

AI应用里，改一句话Prompt，效果可能天差地别。

举一个真实的例子：

差Prompt：你是客服，回答用户问题。好Prompt：你是XX公司的客服助手「小帮」。- 只回答与订单、物流、退换货相关的问题- 其他问题回复：「这个问题超出了我的服务范围，我将帮您转接人工客服」- 回答风格：简洁、专业、不超过50字

两个Prompt的差距，不只是体验的差距，是”能用”和”不能用”的差距。

所以Prompt设计变成了AI PM的核心输出物，而不是像传统应用里那样”功能逻辑主要由工程师实现”。

影响二：快速迭代不等于可以随意试错

Prompt改得快，意味着你可以在短时间内验证很多想法——但也意味着你需要一套更快判断”这次改对了还是改错了”的机制。

答案就是Evals。没有Evals支撑的快速迭代，只是盲目试错；有了Evals，你才能真正做到”快速收敛”。

四、转AI PM，能力差距在哪里

说了这么多，具体要补什么？直接给你一个清单。

传统PM已经有的，继续用

✅ 用户调研能力：理解用户在什么场景下有什么需求✅ 竞品分析能力：知道市面上的AI产品怎么解决同类问题✅ 原型设计能力：把产品想法快速可视化✅ 数据分析能力：看指标、找问题、做归因✅ 跨团队沟通：协调研发、设计、测试资源

新增的，必须补

🔴 Prompt设计能力   怎么写System Prompt让它稳定输出你想要的结果   怎么用Few-shot示例提升模型在边缘case的表现   怎么设计输出格式让解析更可靠   → 入门方法：每天用ChatGPT/Claude刻意练习，观察什么描述有效什么无效🔴 Evals设计能力   怎么定义评估维度   怎么构建有代表性的测试集   怎么设定合理的通过阈值   → 入门方法：选一个你常用的AI功能，自己设计一套评估标准并执行🔴 模型基础认知   知道Token、上下文窗口、幻觉是什么意思   知道不同模型的能力/成本/速度差异   知道RAG、Agent、Function Calling的应用场景   → 入门方法：读两篇靠谱的技术科普文，搞清楚这几个概念就够了🔴 成本意识   每次模型调用都在花钱   上下文越长费用越高   不同任务的模型选型影响成本   → 入门方法：用自己产品的API，跑几个真实对话，看看Token消耗

不需要会的

❌ 训练模型❌ 深度学习原理❌ 写完整的AI系统代码❌ 成为Prompt大师（这是目标，不是起点）

五、一句话定位你的新角色

传统PM的核心能力是：把用户需求，翻译成研发能实现的流程逻辑。

AI PM的核心能力是：把用户需求，翻译成模型能理解的约束描述，并建立评估体系确保它执行到位。

翻译的工具变了——从流程图变成了Prompt和Evals——但翻译的本质没变。

你已经在做的事情，加一点新工具，就是AI PM了。

本系列第三篇：《AI应用开发，为什么说”这和以前完全不一样”？》