乐于分享
好东西不私藏

AI产品经理和传统PM,根本不是一回事

AI产品经理和传统PM,根本不是一回事

上一篇文章聊了传统软件和AI应用在技术层面的差异。这篇文章把视角转到你日常最熟悉的工作上——需求文档怎么写、怎么验证质量、怎么迭代产品

作为传统PM,这些你闭着眼都能做。但AI应用PM在这三件事上的做法,已经发生了根本性的变化。

这篇文章,专门对比这三种核心工作的差异,帮你搞清楚:转AI PM,你到底要补什么。


一、需求文档:从”写流程”到”写标准”

先问自己一个问题:你现在写PRD,核心在写什么?

大部分PRD的内核是流程:用户做什么操作 → 系统怎么响应 → 什么情况报错。逻辑清晰、路径明确,研发照着实现就好。

这个模式在AI应用里,部分失效了

传统PRD的写法

功能:智能邮件摘要触发:用户点击「摘要」按钮逻辑:  1. 系统读取邮件正文  2. 调用摘要模型,生成100字摘要  3. 显示摘要,用户可复制或编辑异常:  - 正文为空 → 提示"无内容"  - 模型超时 → 提示"生成失败,请重试"

你能写清楚每一步,因为每一步都是确定的。

AI功能的需求文档

同样的”智能邮件摘要”,AI版本的需求文档要怎么写?

功能:AI邮件摘要输入:用户选中的邮件正文输出:100字以内的中文摘要【期望输出特征】- 摘要长度:80-120字- 语言:与原文一致(原文是中文则用中文)- 内容:涵盖邮件的核心信息(人物/事件/时间/动作)- 语气:客观中立,不加入主观判断【拒绝案例(不合格输出)】- 超过150字- 引入了邮件正文未提及的信息- 摘要内容与原文事实矛盾- 使用原文未出现的专有名词【格式要求】直接输出一段文字,不加前缀如"摘要:",不加编号【示例】原文:[某封业务邮件正文...]期望输出:[符合上述特征的摘要...]

看出区别了吗?

传统PRD写的是流程,研发照着实现,输出是确定的。AI功能的PRD写的是标准 + 反例 + 示例,研发照着实现,但输出是概率性的——模型每次生成的内容都略有不同,你要靠这些标准来判断”这次是否达标”。

这本质上更像写测试用例,而不是写流程图。

对你意味着什么

写AI功能的需求文档,你最需要的不是画流程图的能力,而是:

  • 定义清晰的能力边界:什么该答、什么不该答
  • 识别反例的能力:什么样的输出是绝对不能接受的
  • 提供正向示例的能力:几个高质量的输入-输出样例,比任何文字描述都有效

这些能力,和写传统PRD需要的”逻辑拆解”不太一样,但也没有你想象的难——本质上是你已经在做的事情,只是换个侧重点。


二、质量验证:从”QA测试”到”Evals评估”

传统PM怎么判断一个功能”做完了”?

通常是这样:

研发:做完了PM:测试一下QA:有1个bug,已提单研发:修复了QA:回归测试通过PM:验收通过,上线

QA给你的是一个确定性的答案:通过或不通过。功能符合需求就过,不符合就不过。

AI应用没有这个奢侈。

AI输出是概率的,无法穷举测试

你想验证”邮件摘要功能”是否正确——但模型对同一封邮件每次生成的摘要都不同,你不可能把所有可能的邮件都跑一遍。

所以传统QA在AI应用里基本失效,你需要的是Evals(评估体系)

什么是Evals

简单说,Evals就是一套用机器代替人工QA的评估方法

步骤如下:

第一步:建立测试集

收集一批有代表性的真实邮件,作为基准样本。比如50封,覆盖不同长度、不同类型(商务/私人/营销)、不同语言的邮件。

第二步:定义评估维度

每个维度对应一个打分规则:

维度1 - 长度合规:80-120字 ✅,超150字 ❌维度2 - 内容一致性:摘要事实与原文一致 ✅,有矛盾 ❌维度3 - 格式正确:无额外前缀 ✅,有"摘要:"前缀 ❌维度4 - 信息覆盖率:涵盖核心人物/事件/时间 ✅,缺两项以上 ❌

第三步:跑批量评估

用这50封邮件批量跑模型,把输出交给评估规则打分。人工抽检20%,确保评估规则本身是对的。

第四步:设定通过阈值

长度合规率 ≥ 95%内容一致性 ≥ 90%格式正确率 = 100%(这是底线,不能妥协)信息覆盖率 ≥ 85%

四个维度全部达标,功能才能上线。

Evals vs 传统QA的核心区别

传统QA
Evals
答案类型
确定:通过/不通过
概率:各项指标百分比
测试方式
人工逐条测试
批量自动跑,人工抽检
可穷举性
穷举所有输入
用代表性样本推断整体
上线标准
所有bug修复
指标达到阈值
更新频率
发版时测一次
每次Prompt/模型变更都要跑

对你意味着什么

设计Evals,是AI PM最核心的新技能之一。你不需要会写代码来搭建评估系统(通常是工程师帮你搭),但你必须能回答这些问题:

  • 这个功能需要测哪些维度?
  • 每个维度的”合格”标准是什么?
  • 测试集怎么构建才能代表真实用户场景?
  • 哪些维度是绝对底线(不能有任何不合格案例)?

你设计Evals的能力,直接决定了你产品的质量下限。


三、产品迭代:从”改代码等发版”到”改Prompt立竿见影”

最后一个大差异:迭代速度。

传统PM提一个需求变更,流程是这样的:

PM提出变更 → 评审 → 研发排期 → 开发 → 测试 → 发版最快:3-5天正常:1-2周复杂:1个月以上

在AI应用里,如果你只是调整Prompt或评估标准,流程变成了:

PM调整System Prompt → 跑Evals → 指标达标 → 上线最快:5分钟正常:30分钟-2小时

这个变化听起来很爽,但背后有两个你必须理解的影响。

影响一:Prompt的质量直接影响产品体验

传统应用里,改一个按钮的文案,研发花5分钟改代码,你几乎感觉不到差异。

AI应用里,改一句话Prompt,效果可能天差地别。

举一个真实的例子:

差Prompt:你是客服,回答用户问题。好Prompt:你是XX公司的客服助手「小帮」。- 只回答与订单、物流、退换货相关的问题- 其他问题回复:「这个问题超出了我的服务范围,我将帮您转接人工客服」- 回答风格:简洁、专业、不超过50字

两个Prompt的差距,不只是体验的差距,是”能用”和”不能用”的差距。

所以Prompt设计变成了AI PM的核心输出物,而不是像传统应用里那样”功能逻辑主要由工程师实现”。

影响二:快速迭代不等于可以随意试错

Prompt改得快,意味着你可以在短时间内验证很多想法——但也意味着你需要一套更快判断”这次改对了还是改错了”的机制

答案就是Evals。没有Evals支撑的快速迭代,只是盲目试错;有了Evals,你才能真正做到”快速收敛”。


四、转AI PM,能力差距在哪里

说了这么多,具体要补什么?直接给你一个清单。

传统PM已经有的,继续用

✅ 用户调研能力:理解用户在什么场景下有什么需求✅ 竞品分析能力:知道市面上的AI产品怎么解决同类问题✅ 原型设计能力:把产品想法快速可视化✅ 数据分析能力:看指标、找问题、做归因✅ 跨团队沟通:协调研发、设计、测试资源

新增的,必须补

🔴 Prompt设计能力   怎么写System Prompt让它稳定输出你想要的结果   怎么用Few-shot示例提升模型在边缘case的表现   怎么设计输出格式让解析更可靠   → 入门方法:每天用ChatGPT/Claude刻意练习,观察什么描述有效什么无效🔴 Evals设计能力   怎么定义评估维度   怎么构建有代表性的测试集   怎么设定合理的通过阈值   → 入门方法:选一个你常用的AI功能,自己设计一套评估标准并执行🔴 模型基础认知   知道Token、上下文窗口、幻觉是什么意思   知道不同模型的能力/成本/速度差异   知道RAG、Agent、Function Calling的应用场景   → 入门方法:读两篇靠谱的技术科普文,搞清楚这几个概念就够了🔴 成本意识   每次模型调用都在花钱   上下文越长费用越高   不同任务的模型选型影响成本   → 入门方法:用自己产品的API,跑几个真实对话,看看Token消耗

不需要会的

❌ 训练模型❌ 深度学习原理❌ 写完整的AI系统代码❌ 成为Prompt大师(这是目标,不是起点)

五、一句话定位你的新角色

传统PM的核心能力是:把用户需求,翻译成研发能实现的流程逻辑。

AI PM的核心能力是:把用户需求,翻译成模型能理解的约束描述,并建立评估体系确保它执行到位。

翻译的工具变了——从流程图变成了Prompt和Evals——但翻译的本质没变。

你已经在做的事情,加一点新工具,就是AI PM了。


本系列第三篇:《AI应用开发,为什么说”这和以前完全不一样”?》