AI需求验证三把尺:量了三件事,立项更稳妥

一个AI需求值不值得做，不仅仅是看老板拍不拍板，还要看三把尺能不能过：数据够不够、场景对不对、账算不划算。

做传统项目，需求分析的重点是”用户要什么”。做AI项目，光知道”用户要什么”还不够——你还得回答一个更硬的问题：“这个需求用AI来做，到底行不行？”

因为AI项目有一个其他项目没有的硬伤：伪需求成本极高。

传统项目需求分析错了，最多返工两周。AI项目需求分析错了，数据标注花了三个月、模型训练烧了几十万GPU费用、最后发现场景根本不适合AI——这钱就白花了。

所以AI项目的需求分析，必须多加一道关卡：需求验证。

怎么验？三把尺。

第一把尺：数据验证

核心问题：我们有没有足够的数据，让模型学出靠谱的能力？

很多需求听起来很美好，但数据盘点一做，发现根本撑不起来。

数据验证三步法

第一步：盘点现有数据

把项目中已有的数据资产列出来：

数据类型	举例
结构化数据	日志、交易记录、用户行为数据
半结构化数据	聊天记录、邮件、工单
非结构化数据	图片、语音、PDF文档

评估三个维度：规模有多大？质量怎么样？标注没标注？

第二步：评估数据缺口

把”需求要的数据量”和”手头有的数据量”对一下，算缺口。

一个经验值：如果缺口超过50%，数据准备周期会很长，项目风险直接翻倍。

第三步：验证数据可获取性

数据存在不等于能用。还要确认三件事：

数据是否合规采集（用户授权了没有？）
数据是否在可用状态（清洗过没有？噪音大不大？）
标注质量如何（或者标注成本能不能接受？）

数据验证的合格线

检查项	合格标准	风险等级
数据规模	分类任务每类≥500条，NER≥10000条	🔴 高
数据质量	缺失率<10%，错误率<5%	🔴 高
标注状态	有标注数据，或标注成本<预期收益10%	🟡 中
数据合规	用户授权+脱敏处理	🔴 高（红线）
数据时效	数据覆盖最近12个月	🟡 中

PM该做什么

不需要你亲自跑SQL查数据。但你要能跟数据团队对话，拿到数据评估报告，然后判断一件事：数据够不够撑这个需求？不够的话，补数据要多久、花多少钱？

第二把尺：场景验证

核心问题：这个场景真的适合用AI解决吗？

不是所有问题都该交给AI。有些场景用规则引擎或人工处理，比AI更稳、更便宜、更可控。

适合AI的场景，长什么样？四个特征，越多越好：

1. 强规律、低噪声

输入和输出的关系比较稳定，有规律可循。比如垃圾邮件分类——垃圾邮件的文本特征就是比正常邮件集中，模型学得出来。

2. 有明确的正确标准

有清晰的”对/错”判断标准，AI才知道自己在做什么。别让AI去评价”这段文字美不美”——审美是主观的，没有标准答案。

3. 有容错空间

AI不可能100%准确。关键是业务能不能扛住那百分之几的错误率。客服辅助回答错了，人可以兜底；自动驾驶错了，命没了——后者就不是”容错空间”的问题了。

4. 有反馈闭环

AI做错了，能不能收集到反馈来改进？用户点了”不相关”、点了”换一批”、或者直接投诉——这些都是反馈信号。没有反馈，AI就没法迭代。

不适合AI的场景，长什么样？

危险信号	原因
高风险决策（法律、医疗、金融风控）	AI错误代价太大
需要复杂推理或多步规划	超出当前模型能力边界
主观评价为主	没有客观标准，AI输出会被反复质疑
毫秒级实时响应要求	AI推理延迟可能不达标

场景验证决策表

场景特征	适合度
输入规律性强、有明确标注标准	⭐⭐⭐⭐⭐
有容错空间、可人工兜底	⭐⭐⭐⭐
有反馈闭环、能持续收集训练数据	⭐⭐⭐
涉及高风险决策	⭐
需要强推理或常识理解	⭐
主观评价为主	⭐

PM该做什么

这是PM最能发挥价值的一环。拿到需求后，先自己过一遍这四个特征，判断场景适不适合AI。不适合就及时叫停——不是所有AI需求都值得做，有些需求最好的处理方式就是不做。

第三把尺：成本验证

核心问题：做这个AI功能的投入产出比，到底划不划算？

AI不是免费的。算力、标注、训练、运维、兜底——每一环都要钱。

AI成本结构：很多人只算了第一层

一次性成本（启动阶段）：

数据采集和标注成本——这往往是最大的隐性成本，容易被低估
模型训练成本（GPU小时费用）
Prompt调试和迭代成本（人力时间）

持续性成本（上线之后）：

模型推理成本（按Token计费或按GPU占用计费）
模型维护和迭代成本（数据漂移后需要重新训练）
人工兜底成本（AI答错时人工介入的成本）——这个很多人不列，但它真实存在

ROI怎么算，拢共就三步

第一步：量化收益

效率提升 = 节省的人工工时 × 人力成本
错误减少 = 减少的错误次数 × 单次纠错成本
收入增长 = 转化率提升 × 客单价 × 流量

第二步：估算成本

直接成本 = API调用费 + 人力成本 + 标注成本
间接成本 = 运维成本 + 兜底人力成本

第三步：算回报周期

ROI = （年度收益 – 年度成本）/ 年度成本 × 100%

回报周期 = 总投入 / 月度净收益

成本验证的合格线

指标	合格标准	一句话解释
ROI	>100%	赚的得是花的两倍以上
回报周期	<6个月	半年内得回本
单次调用成本	<业务价值的10%	每次AI调用的价值得覆盖成本
标注成本	<预期年度收益的30%	数据准备不能把预算吃光

PM该做什么

成本核算是PM的基本功。不需要你精通算法，但你要能算清一笔账：这个AI功能一年能省多少钱/赚多少钱，一年要花多少钱，多久回本。算不清楚的，先别立项。

三把尺放一起：综合决策

验证完三把尺，怎么决策？

数据	场景	成本	决策
✅	✅	✅	立即启动，优先级最高
✅	✅	❌	优化方案降成本，或降低AI能力要求
✅	❌	–	暂停，重新选场景
❌	–	–	先补数据，或换需求

一个核心原则：三把尺必须在立项前完成。不要等开发了三个月才发现数据不够、场景不对、成本算不过来。

实操建议：每张需求卡填一张”验证卡”

拿真实需求练一把

用三把尺验证几个常见AI需求：

需求A：AI自动生成小红书爆款文案

尺子	分析
数据	需要大量爆款文案+对应数据，有一定积累，但”爆款”的标准本身不稳定
场景	“爆款”没有客观标准，高度主观，反馈闭环弱（发了才知道效果）
成本	推理成本可控，但效果不稳定意味着用户留存差
结论	🟡 作为辅助创意工具可以做，但别指望”自动生成爆款”

需求B：AI辅助法官判案

尺子	分析
数据	判例数据量大，但标注复杂度高
场景	高风险决策，零容错，涉及法律后果
成本	成本可控，但错误代价不可承受
结论	🔴 不适合做自主决策，可以做辅助材料整理

需求C：AI客服自动回复

尺子	分析
数据	历史客服对话数据充足，标注相对标准化
场景	规律性强（常见问题集中），有容错空间（答错可转人工），有反馈闭环（用户满意度评价）
成本	替代人工客服，ROI容易量化，回报周期短
结论	🟢 经典AI场景，三把尺全过

需求D：AI自动生成CEO演讲稿

尺子	分析
数据	CEO个人风格数据有限，难以充分训练
场景	高度主观、高风险（公开发言出错代价大）
成本	单次使用频率低，投入产出比差
结论	🔴 不值得做，人工写更好

最后一件事：PM在三把尺中的角色

角色	数据验证	场景验证	成本验证
PM做什么	对接数据团队，拿到数据评估报告	判断场景是否适合AI，识别风险	量化投入产出比，确认ROI合理
PM不需要做什么	亲自写SQL跑数据、清洗数据	训练模型、调参	估算GPU小时费用（让技术团队算）

三把尺的本质是给PM一套结构化的判断框架——不是靠直觉说”这个需求感觉可以做”，而是用数据和标准来说”这个需求值不值得做”。