AI能写PRD了,PM的能力水位怎么量?18条自评标准

最近和几家公司的产品负责人聊了一个共同话题。

他们都在组建AI产品团队，但遇到一个尴尬的局面。面试的时候，候选人对AI概念说得头头是道。一上手做项目，该踩的坑一个没少。花了大量时间筛选，招到的还是传统PM。

这个问题背后有一条清晰的分界线。

传统产品的PM，交付物是PRD，控制对象是用户行为，管理方式是确定性流程。AI产品的PM，交付物是行为规范，控制对象是Agent边界，管理方式是概率性迭代。

这不是技能升级，是底层逻辑的迁移。

很多产品经理还在用"功能思维"做AI产品——把AI当成一个功能模块来设计，设计好就让开发去做。但AI产品是"系统思维"——你在设计一个可以自主行为的系统，边界条件、行为约束、降级路径才是核心交付物。这个认知差，就是面试说得好、上手就踩坑的根源。

美世2026全球人才趋势报告有一组数据侧面印证了这件事：99%的高管预计AI将导致人员规模缩减，但只有32%的企业认为能有效融合人机能力。 产品经理是连接人与系统的角色——如果连产品经理自己都没想清楚怎么和能力协同，融合率自然高不起来。

这篇文章是我梳理的一份自评框架。三个台阶，18条标准，每条配一个真实的场景案例。不负责判断你好不好，只负责帮你找到自己在哪个位置。

AI产品经理能力水位：18条自评标准总览

第一个台阶：基础认知

这个台阶的目标很简单——让你和技术团队在同一个认知层面上对话。

做不到这一点，后面所有的能力都是空中楼阁。

1. 能说清楚幻觉是什么，以及怎么缓解

这不是让你背定义。是让你能用一句话让老板明白，为什么AI客服报错价格不是bug。模型的本质是预测下一个token，遇到不会的就编。理解了这一点，你就知道为什么所有AI产品都要有校验层。

案例：一家电商公司上线AI客服，结果Agent告诉用户「下周有全场五折活动」，但实际根本没有这个活动。老板第一反应是「模型不行，换一个」。PM需要解释清楚：这不是模型问题，是机制问题。解决方案不是换模型，是加上一层RAG检索——Agent回答促销问题前必须先查活动数据库，查不到就说「目前没有相关活动」。

2. 能解释Token，并估算消耗量级

Token就是成本。技术说换这个模型效果好但贵三倍，你要能在30秒内算出每个月多花多少钱。一个功能上线前不算Token成本，团队很容易陷入成本失控的困境。

案例：客服Agent日均1000个会话，每次消耗约1900 Token。用基础模型每月成本约8.5美元。技术建议换成更强的模型，单次成本翻四倍。PM需要立刻算出：月度成本将从8.5美元涨到34美元。然后追问：准确性提升是否值得多花四倍的钱。

3. 能区分RAG和Fine-tuning的适用场景

判断方法很简单：问自己这个场景的核心需求是「知道什么」还是「像谁」。知道什么用RAG，像谁用Fine-tuning。

案例：一家保险公司要做AI产品顾问。产品条款每月更新，用RAG，改文档就行。但推荐逻辑和风险评估话术需要固定风格，这部分用Fine-tuning。PM拍板：两套方案一起上，RAG管知识更新，Fine-tuning管行为风格。选错了其中一个，要么回答风格不稳定，要么知识永远滞后。

4. 能说清楚MCP是什么

不需要懂代码实现，但要用一句话讲清楚。MCP就是AI的TypeC接口。以前接一个新数据源要做一套定制对接，现在有一个统一标准，插上去就能用。这个类比能帮你和任何人快速对齐。

案例：企业知识库Agent需要从飞书文档、维基、CRM三个系统检索信息。技术提出两个方案：A方案每个系统做一套定制API，B方案各系统提供MCP Server统一接入。PM听完直接拍板选B——不是因为技术更优，而是因为后续每新增一个数据源，A方案成本线性增长，B方案成本几乎为零。

5. 能理解AI产品的输出不是确定的

传统软件时代，你输入什么它就输出什么。AI时代，同一个prompt给同一个模型两次，可能得到不同的回答。这个差异从根本上改变了PM的设计方式。传统PM设计的是"用户操作→系统响应"的确定链路，AI PM设计的是"用户意图→Agent行为→结果校验"的概率链路。

案例：一个智能客服Agent上线后，老板发现同一个用户连续问三次"我的订单到哪里了"，Agent回复了三个不同的物流状态描述，虽然核心数据一致但措辞完全不同。老板认为这是"模型不稳定"，要求换模型。PM需要解释清楚：这不是bug，是模型特性。真正的解法不是消除"不同措辞"，而是保证"核心数据一致"——在回复模板里固定物流状态的关键数据字段（承运商、到达地、预计时间），其他措辞部分让模型自由发挥。用户不关心措辞是否一样，只关心数据准不准。

6. 能区分Prompt Engineering和Harness Engineering，并理解文档格式必须随之转变

这是我见过最多PM混淆的一条边界。提示词是软约束，你劝模型听你的，但它可以不听。Harness是硬约束，它不按规则走就执行不了。理解了这条边界，你就会发现传统PRD的写法在AI产品里根本不适用——传统PRD的核心句式是「用户在xx页面点击xx，系统展示xx」，描述的是功能；AI产品需要的核心句式是「Agent在xx条件下可以调用xx工具，遇到xx情况时降级为xx行为」，描述的是约束。前者是说明书，后者是交通规则。两者底层逻辑完全不同。

案例：一份查询订单的PRD，传统写法是「用户输入订单号，系统显示物流信息」。AI时代的写法变成了「Agent通过用户输入或对话上下文获取订单号，调用track_order API（只读权限），API超时则重试1次，仍失败则告知用户系统繁忙。任何时候用户要求转人工，Agent必须在一次回复内完成转接。」前者6个字，后者一段行为规范。两种文档交付给开发，后者的沟通成本至少减少一半。

第二个台阶：进阶能力

这个台阶的目标——能独立完成Agent产品的方案设计和技术决策。

7. 能用R.E.S.T模型评估AI产品成熟度

四个维度：可靠性、效率、安全性、可追溯性。画一个雷达图，你的产品在四个维度上各自几分，5分钟就能说清楚。

R.E.S.T模型：AI产品成熟度评估四维度

案例：一个销售辅助Agent上线前评估。可靠性2分——Agent有时生成错误报价，无自动恢复。效率2分——每次会话消耗8000Token，远超预算。安全性1分——Agent能访问所有客户数据，无权限隔离。可追溯性1分——Agent做了什么完全不可查。PM拿着雷达图找老板：先投安全性，客户数据泄露是红线。R和T放在第二阶段。资源投入优先级立刻清晰了。

8. 能判断一个场景该做成Skill、专家还是Agent

边界清晰、输入输出固定的，做成Skill。需要专业判断但任务单一的，做成专家。多步骤、跨工具、需编排调度的，才做成Agent。

案例：一个团队同时接了三个需求。「写上线公告」——输入输出固定，做成Skill。「评估PRD上线风险」——需要专业判断区分真风险和假担忧，做成专家。「管理客户生命周期」——涉及CRM、邮件、合同等多个系统，需要编排调度，做成Agent。PM判断后三个需求分三个路径推进，各自三个月内交付。如果都做成Agent，第一个半年都出不来。

9. 能作为人机分工的设计师，定义人和AI各自的职责

传统产品经理设计的是「人操作系统的流程」。AI产品经理设计的是「人和智能体如何分工合作」。需要回答三个问题：什么该人做、什么该AI做、两者如何交接。

案例：一个内容运营团队的AI改造。PM画了一张分工图：运营定选题和终审方向（人做），Agent收集素材、生成初稿、定时发布、自动复盘（AI做）。协作方式是运营定选题后Agent出初稿，运营给修改方向，Agent改二稿，运营终审通过后Agent自动排期。改造前3个人月产60篇，改造后月产200篇，内容质量提升40%。关键不是Agent多强，是分工画清楚了。

10. 能写Agent的行为边界文档

传统PRD写的是功能需求。行为边界文档写的是Agent能做什么、不能做什么、必须遵守什么。

案例：一个客服Agent上线前，PM列出行为边界清单。许可范围：查询订单状态（只读）、生成标准回复模板、更新客户标签。禁止范围：修改订单金额、删除客户记录、发送营销信息。约束条件：涉及金额的回答必须以CRM数据为准，客户要求转人工时必须一次回复内完成。技术团队拿到后直接做权限配置，上线两个月零安全事故。

11. 能为每个关键操作设计降级路径

Agent产品的失败是常态，不是异常。没有降级设计的Agent产品就是定时炸弹。每个操作都要写清楚三件事：正常怎么执行、异常怎么检测、降级怎么处理。

案例：订单查询Agent的降级路径表。正常行为：调用订单API返回结果。异常检测：API超时超过3秒。降级行为：重试1次，仍失败则回复「系统繁忙，请稍后再试」。知识库检索的场景：检索结果为空时，回复「抱歉我暂时无法回答，已转接人工客服」。退款操作：金额超过5000元时，暂停自动执行，生成审批工单转人工。全部写清楚再上线，PM才睡得着觉。

12. 能设计成功和失败的分级标准

Agent的输出不是二元判断。50%正确加50%需要人工修正，这是成功还是失败？你需要一套分级体系。

案例：一个PRD生成Agent的分级标准。完全成功：用户无修改直接使用。部分成功：PRD结构完整但某部分数据错误，用户手动修正。失败可恢复：首次生成引用过时数据，重新检索后自行修正。失败不可恢复：Agent卡在选择数据结构环节超过3分钟，用户主动介入。PM每月看数据：完全成功率从42%提升到76%，平均处理时长从3.1分钟降到2.3分钟。没有分级标准，这些改进根本说不清楚。

13. 能在技术评审时问出关键问题

技术评审时PM不写代码，但必须能问对问题。

案例：技术评审会上，团队提出Agent要直接接入生产数据库。PM问了三个问题：Agent直接写生产库的风险是什么？如果它生成一条错误的update语句怎么办？有没有考虑过只读副本加写操作走审批的方案？技术团队重新设计：Agent走只读数据库副本，写操作通过审批队列异步执行，每次操作都有审计日志。一句话避免了一次潜在的生产事故。

第三个台阶：高阶能力

这个台阶的目标——作为Agent产品的架构设计者，与技术团队平级对话。

14. 能写完整的SDD规格文档

SDD和PRD最大的区别：PRD告诉开发要做什么，SDD告诉开发系统在什么约束下如何行为。

案例：同一个「查询订单」需求，两种写法的对比。PRD写法：「用户输入订单号，Agent返回物流信息。」六个字。SDD写法：「Agent从用户输入或对话上下文中获取订单号，调用track_order API（只读）。API超时重试1次，仍超时回复系统繁忙。订单不存在则回复未找到。所有操作记录日志。用户要求转人工时一次回复内完成。」六个行为规范。同一个需求，PRD写法开发问了7个问题才开工，SDD写法开发看完直接开始写代码。

15. 能设计评测体系和迭代流程

Agent产品的质量不能靠上线后看数据，而要建立持续的评估机制。四层指标体系，两周一个迭代周期。

案例：一个知识库问答Agent的迭代历程。v1.0上线，基础RAG，完全成功率42%，Token消耗4500，用户NPS评分5.2。一个月内迭代了四个版本：v1.1优化检索分块，成功率升至55%；v1.2加入回答校验，成功率68%；v1.3增加上下文压缩，Token消耗降到3200；v1.4引入用户反馈闭环，成功率76%，NPS升至8.0。PM的决策不是换更强更贵的模型，而是每两周看数据，优化工程机制，成本几乎为零。

16. 能用商业视角判断AI项目该不该做、值不值得做

AI项目最容易踩的坑不是技术做不出来，是做出来了没用。PM需要能判断：这个场景AI介入后，效率提升是否值得投入的成本？这个问题有标准答案吗？用户是真的需要AI还是觉得"加AI听起来很酷"？

案例：一个客服团队提出要做AI升级。技术说可以，预算30万，周期三个月。PM没直接同意，而是先问了四个问题：当前客服团队每天处理多少工单？其中多少是重复性问题、可以用AI覆盖？如果AI处理这部分的准确率能做到多少，能解放多少人天？省下来的资源是减编还是做更高价值的事？四个问题一问，团队发现：70%的工单是重复性FAQ，AI覆盖后只能解放1.5个人天，但这1.5人天目前也没有明确的更高价值任务可以承接。结论：先不做全量AI客服，而是先做一个FAQ机器人试点，跑三个月数据再决定是否扩建。PM阻止了一次不必要的30万投入。

17. 能参与Harness层面的决策

Harness是Agent的运行环境。如果PM完全不参与Harness层面的决策，技术团队就自己决定了Agent的行为边界。

案例：一个智能客服Agent的技术方案评审。团队给出了两个部署方案：方案A——Agent直接调用订单API，响应快；方案B——Agent只通过中控服务调用订单API，多一层但可审计。技术团队倾向方案A，因为简单。PM没有直接同意，而是追问：方案A如果Agent生成了一个错误的参数，订单API会怎么响应？响应结果会直接回复给客户吗？客户如果投诉，我们能在哪里回溯这次调用？技术团队重新评估后选择了方案B——多一层中控，但每笔调用都有日志，出现异常时可以熔断，客户投诉时可以完整回溯。PM在Harness层面的追问，帮团队避免了一次"上线后才意识到没有日志"的被动局面。

18. 能在能力契约框架下设计人机协作界面

这是最高阶的能力，也是从「把AI当工具」到「把AI当队友」的认知飞跃。能力契约的核心：不是AI替代人，是人和AI各发挥所长。

案例：一个金融理财Agent的交互设计。PM没有让Agent直接给投资建议，而是设计了三层信任机制。第一层透明度：Agent给出建议时必须附上信息来源和推理依据，不能只说「建议定投沪深300」，必须说「建议定投沪深300，根据近5年数据年化收益8%-12%，来源Wind金融终端」。第二层示弱：Agent不确定时必须明确表示不确定，不能编造。第三层兜底：用户表示不信任时，Agent主动建议转人工理财顾问。上线后用户信任度评分从4.2提升到8.7。

自评三步流程

如何使用这份清单

建议分三步走。

第一步，逐条给自己打分。

分数	含义
0分	完全不知道这个能力是什么，或者从未在工作中用到
1分	知道概念，但在实际项目中没真正实践过
2分	在项目中实践过，能独立完成，但遇到复杂场景需要求助
3分	能教别人，能在技术评审中做出判断和决策

分数最低的三条，就是你的瓶颈。

第二步，制定三周计划。 基础5条不熟的用一周啃概念。进阶8条薄弱的选一个正在做的AI产品做一次R.E.S.T评估。高阶5条想突破的写一份SDD规格文档试水。

第三步，三周后重新打分。对比前后变化，找到新的短板，继续迭代。

清单本身只是地图。走不走，是你的事。

但有一个数据值得你留意：今天能真正理解Agent产品的PM，依然极度稀缺。多数人还停留在把AI当功能来做的阶段。那些进入把AI当系统来设计阶段的PM，就是未来三年最有竞争力的一群人。这份清单本身不是标准答案。它是一面镜子。你看到的短板，就是你的方向。

你的水位，决定你能走多远。

关注「CAIO进化笔记」，一起搞懂AI落地——从战略路径、架构选型、场景切入，到组织重构、ROI评估，讲透企业AI落地的每一环。