乐于分享
好东西不私藏

AI需求验证三把尺:量了三件事,立项更稳妥

AI需求验证三把尺:量了三件事,立项更稳妥

一个AI需求值不值得做,不仅仅是看老板拍不拍板,还要看三把尺能不能过:数据够不够、场景对不对、账算不划算。


做传统项目,需求分析的重点是”用户要什么”。做AI项目,光知道”用户要什么”还不够——你还得回答一个更硬的问题:“这个需求用AI来做,到底行不行?”

因为AI项目有一个其他项目没有的硬伤:伪需求成本极高。

传统项目需求分析错了,最多返工两周。AI项目需求分析错了,数据标注花了三个月、模型训练烧了几十万GPU费用、最后发现场景根本不适合AI——这钱就白花了。

所以AI项目的需求分析,必须多加一道关卡:需求验证。

怎么验?三把尺。


第一把尺:数据验证

核心问题:我们有没有足够的数据,让模型学出靠谱的能力?

很多需求听起来很美好,但数据盘点一做,发现根本撑不起来。

数据验证三步法

第一步:盘点现有数据

把项目中已有的数据资产列出来:

数据类型
举例
结构化数据
日志、交易记录、用户行为数据
半结构化数据
聊天记录、邮件、工单
非结构化数据
图片、语音、PDF文档

评估三个维度:规模有多大?质量怎么样?标注没标注?

第二步:评估数据缺口

把”需求要的数据量”和”手头有的数据量”对一下,算缺口。

一个经验值:如果缺口超过50%,数据准备周期会很长,项目风险直接翻倍。

第三步:验证数据可获取性

数据存在不等于能用。还要确认三件事:

  • 数据是否合规采集(用户授权了没有?)
  • 数据是否在可用状态(清洗过没有?噪音大不大?)
  • 标注质量如何(或者标注成本能不能接受?)

数据验证的合格线

检查项
合格标准
风险等级
数据规模
分类任务每类≥500条,NER≥10000条
🔴 高
数据质量
缺失率<10%,错误率<5%
🔴 高
标注状态
有标注数据,或标注成本<预期收益10%
🟡 中
数据合规
用户授权+脱敏处理
🔴 高(红线)
数据时效
数据覆盖最近12个月
🟡 中

PM该做什么

不需要你亲自跑SQL查数据。但你要能跟数据团队对话,拿到数据评估报告,然后判断一件事:数据够不够撑这个需求?不够的话,补数据要多久、花多少钱?


第二把尺:场景验证

核心问题:这个场景真的适合用AI解决吗?

不是所有问题都该交给AI。有些场景用规则引擎或人工处理,比AI更稳、更便宜、更可控。

适合AI的场景,长什么样?四个特征,越多越好:

1. 强规律、低噪声

输入和输出的关系比较稳定,有规律可循。比如垃圾邮件分类——垃圾邮件的文本特征就是比正常邮件集中,模型学得出来。

2. 有明确的正确标准

有清晰的”对/错”判断标准,AI才知道自己在做什么。别让AI去评价”这段文字美不美”——审美是主观的,没有标准答案。

3. 有容错空间

AI不可能100%准确。关键是业务能不能扛住那百分之几的错误率。客服辅助回答错了,人可以兜底;自动驾驶错了,命没了——后者就不是”容错空间”的问题了。

4. 有反馈闭环

AI做错了,能不能收集到反馈来改进?用户点了”不相关”、点了”换一批”、或者直接投诉——这些都是反馈信号。没有反馈,AI就没法迭代。

不适合AI的场景,长什么样?

危险信号
原因
高风险决策(法律、医疗、金融风控)
AI错误代价太大
需要复杂推理或多步规划
超出当前模型能力边界
主观评价为主
没有客观标准,AI输出会被反复质疑
毫秒级实时响应要求
AI推理延迟可能不达标

场景验证决策表

场景特征
适合度
输入规律性强、有明确标注标准
⭐⭐⭐⭐⭐
有容错空间、可人工兜底
⭐⭐⭐⭐
有反馈闭环、能持续收集训练数据
⭐⭐⭐
涉及高风险决策
需要强推理或常识理解
主观评价为主

PM该做什么

这是PM最能发挥价值的一环。拿到需求后,先自己过一遍这四个特征,判断场景适不适合AI。不适合就及时叫停——不是所有AI需求都值得做,有些需求最好的处理方式就是不做。


第三把尺:成本验证

核心问题:做这个AI功能的投入产出比,到底划不划算?

AI不是免费的。算力、标注、训练、运维、兜底——每一环都要钱。

AI成本结构:很多人只算了第一层

一次性成本(启动阶段):

  • 数据采集和标注成本——这往往是最大的隐性成本,容易被低估
  • 模型训练成本(GPU小时费用)
  • Prompt调试和迭代成本(人力时间)

持续性成本(上线之后):

  • 模型推理成本(按Token计费或按GPU占用计费)
  • 模型维护和迭代成本(数据漂移后需要重新训练)
  • 人工兜底成本(AI答错时人工介入的成本)——这个很多人不列,但它真实存在

ROI怎么算,拢共就三步

第一步:量化收益

  • 效率提升 = 节省的人工工时 × 人力成本
  • 错误减少 = 减少的错误次数 × 单次纠错成本
  • 收入增长 = 转化率提升 × 客单价 × 流量

第二步:估算成本

  • 直接成本 = API调用费 + 人力成本 + 标注成本
  • 间接成本 = 运维成本 + 兜底人力成本

第三步:算回报周期

ROI = (年度收益 – 年度成本)/ 年度成本 × 100%

回报周期 = 总投入 / 月度净收益

成本验证的合格线

指标
合格标准
一句话解释
ROI
>100%
赚的得是花的两倍以上
回报周期
<6个月
半年内得回本
单次调用成本
<业务价值的10%
每次AI调用的价值得覆盖成本
标注成本
<预期年度收益的30%
数据准备不能把预算吃光

PM该做什么

成本核算是PM的基本功。不需要你精通算法,但你要能算清一笔账:这个AI功能一年能省多少钱/赚多少钱,一年要花多少钱,多久回本。算不清楚的,先别立项。


三把尺放一起:综合决策

验证完三把尺,怎么决策?

数据
场景
成本
决策
立即启动,优先级最高
优化方案降成本,或降低AI能力要求
暂停,重新选场景
先补数据,或换需求

一个核心原则:三把尺必须在立项前完成。不要等开发了三个月才发现数据不够、场景不对、成本算不过来。

实操建议:每张需求卡填一张”验证卡”


拿真实需求练一把

用三把尺验证几个常见AI需求:

需求A:AI自动生成小红书爆款文案

尺子
分析
数据
需要大量爆款文案+对应数据,有一定积累,但”爆款”的标准本身不稳定
场景
“爆款”没有客观标准,高度主观,反馈闭环弱(发了才知道效果)
成本
推理成本可控,但效果不稳定意味着用户留存差
结论
🟡 作为辅助创意工具可以做,但别指望”自动生成爆款”

需求B:AI辅助法官判案

尺子
分析
数据
判例数据量大,但标注复杂度高
场景
高风险决策,零容错,涉及法律后果
成本
成本可控,但错误代价不可承受
结论
🔴 不适合做自主决策,可以做辅助材料整理

需求C:AI客服自动回复

尺子
分析
数据
历史客服对话数据充足,标注相对标准化
场景
规律性强(常见问题集中),有容错空间(答错可转人工),有反馈闭环(用户满意度评价)
成本
替代人工客服,ROI容易量化,回报周期短
结论
🟢 经典AI场景,三把尺全过

需求D:AI自动生成CEO演讲稿

尺子
分析
数据
CEO个人风格数据有限,难以充分训练
场景
高度主观、高风险(公开发言出错代价大)
成本
单次使用频率低,投入产出比差
结论
🔴 不值得做,人工写更好

最后一件事:PM在三把尺中的角色

角色
数据验证
场景验证
成本验证
PM做什么
对接数据团队,拿到数据评估报告
判断场景是否适合AI,识别风险
量化投入产出比,确认ROI合理
PM不需要做什么
亲自写SQL跑数据、清洗数据
训练模型、调参
估算GPU小时费用(让技术团队算)

三把尺的本质是给PM一套结构化的判断框架——不是靠直觉说”这个需求感觉可以做”,而是用数据和标准来说”这个需求值不值得做”。