别让 AI 帮你论证一个烂想法:一套需求验证方法,帮你省掉不必要的开发和试错

昨天晚上，和一个在大厂做 PM 的朋友聊到很晚。

本来只是闲聊。

聊最近冒出来的一堆 AI 产品，像是mavis，聊独立开发者的未来，聊为什么现在很多人一个周末就能做出一个 Demo，甚至还能顺手写完产品介绍、竞品分析和上线计划。

聊到最后，他说了一句话，我印象很深：

“现在最怕的，不是你做不出来，而是你太容易觉得自己做对了。”

我想了一晚上，觉得这句话挺对的。

AI 确实让很多事情变快了。

一个想法丢进去，它能帮你补用户画像，补市场空间，补商业模式，补增长路径。你原本只是有一个模糊念头，聊着聊着，它就能变成一份看起来很完整的方案。

这当然很爽。

但也很危险。

因为你会很容易把“它说得通”，误以为“它真的成立”。

举个很简单的例子。

比如我最近突然想到一个产品：做一个 AI 健身饮食计划 App。

听起来是不是挺靠谱？

现在大家都想减脂、增肌、控糖，AI 又能根据身高、体重、作息、饮食偏好，自动生成一周食谱和训练计划。你再让 AI 帮你补一轮分析，它还能继续告诉你：健康管理市场很大、年轻人有身材焦虑、个性化方案是趋势、未来还能接入可穿戴设备。

越聊越合理。

甚至你会觉得：这东西不做都可惜了。

但你真的去问用户，可能会发现问题根本不在“没有计划”。

很多人手机里早就收藏了一堆食谱，Keep 里有训练课，小红书里有减脂餐，B 站里有教程。他们缺的不是另一份更精致的计划，而是下班以后懒得买菜、外卖太方便、聚餐躲不掉、坚持三天就断、体重没变化就放弃。

也就是说，你以为自己在解决“如何科学健身”的问题。

但用户真实卡住的地方，可能是“我怎么在很忙、很累、很容易破功的生活里，把这件事坚持下去”。

这时候，如果你还继续做一个更漂亮的 AI 计划生成器，就很可能是在认真地解决一个不那么关键的问题。

这就是 AI 最容易放大的错觉：

它可以帮你把一个想法讲得很完整，但它不会自动告诉你，用户真正痛的地方是不是这里。

所以在 AI 时代，需求验证这件事的重点，可能不是证明自己多有眼光。

而是尽早证明自己可能错了。

一个想法如果经不起反问，经不起用户访谈，经不起竞品对比，经不起真实数据，那它越早暴露问题越好。

毕竟，最贵的不是放弃一个想法。

最贵的是，你花了几个月时间，用 AI 把一个没人要的东西做得越来越完整。

所以我还是会推荐大家看一下，Claude 那份《The Founder’s Playbook》

但先说清楚，我不是想把它吹成什么创业秘籍。

这类东西看多了你会发现，大部分方法论其实都不新。真正难的不是知道这些词，而是你在真的想做一个产品的时候，能不能忍住不跳过这些步骤。

比如它里面反复强调的一件事：

别急着做，先验证问题。

这话听起来太朴素了，朴素到有点没劲。

但 AI 时代最危险的地方，恰恰就在这里。

因为现在你太容易“看起来已经验证过了”。

你让 AI 帮你写用户画像，它能写。

你让 AI 帮你分析市场，它能写。

你让 AI 帮你列竞品，它也能列。

甚至你让它帮你生成一份完整的商业计划书，它都能给你写得头头是道。

但这些东西加在一起，依然不能证明市场真的存在。

所以这篇文章，我想聊的不是怎么让 AI 帮你把想法讲得更漂亮。

而是反过来：

怎么判断这个想法是不是一开始就不该做。

所以问题来了。

如果不能只靠 AI 给我们写一份漂亮的市场分析，那一个需求到底应该怎么验证？

我的建议是，先不要把事情搞得太复杂。

在真正开始做产品之前，先问四个问题：

谁遇到了这个问题？

这个问题多久发生一次？

它到底有多严重？

用户现在是怎么解决的？

这四个问题听起来都很普通。

但普通不代表简单。

很多产品看起来做得很努力，最后没人用，往往就是因为这四个问题一开始没有问清楚。

第一个问题：谁真的遇到了这个问题？

做需求验证，最怕一上来就写大词。

比如：

“目标用户是职场人。”

“目标用户是内容创作者。”

“目标用户是中小企业。”

“目标用户是独立开发者。”

这些描述听起来没问题，但基本没法验证。

因为它太大了。

大到你可以在里面塞进任何结论。

如果你说“职场人需要一个 AI 效率工具”，这句话几乎永远不会错。但问题是，职场人是谁？是销售、运营、产品经理、老师、律师，还是财务？他在哪种场景里低效？这个低效每天发生，还是偶尔发生？他现在用什么办法解决？他有没有预算？谁决定买单？

这些问题一问，原来那个很大的“职场人”，马上就会碎成很多完全不同的人。

所以一个真正有用的用户画像，不能只是人群标签，而要具体到你能在现实里找到这个人。

比如不要说：

“我的用户是独立开发者。”

可以改成：

“我的用户是 1 到 3 人团队的独立开发者，已经有一个上线产品，每周至少收到 20 条用户反馈，但没有专门的客服和产品经理。他平时用飞书、Notion、GitHub Issue、微信群和 Stripe 后台来处理产品运营。”

这时候，需求才开始变得可验证。

因为你终于知道该去哪里找人了。

你可以去独立开发者社群，去 X，去即刻，去 Product Hunt，去 GitHub，去那些已经发布产品的人下面看评论，也可以直接去找正在处理用户反馈的人聊。

用户画像不是写给自己看的小作文。

用户画像的意义是让你知道：

谁最可能痛？

谁最值得先聊？

谁只是看起来像用户，但其实不会买单？

我会给一个很粗暴的判断标准：

如果一个用户画像，不能帮你列出 20 个以上真实可触达的人，那它大概率还不够清楚。

不是说你马上就要联系 20 个人。

而是你至少要知道，这群人在现实里到底在哪里。

他在哪些社群里？

看哪些内容？

用哪些工具？

向谁求助？

在哪些平台上抱怨？

在哪里花钱买解决方案？

如果这些你都说不清，那你验证的很可能不是需求，而是自己的想象。

第二个问题：这个问题多久发生一次？

频率不是痛点本身。

但频率能告诉你一件事：

这个问题有没有稳定进入用户的生活或工作流。

这很重要。

因为有些问题听起来存在，但发生得太少，用户根本不会为它单独换一个产品。

比如一个人一年只整理一次旅游照片。你给他做一个特别精致的 AI 相册整理工具，他可能会觉得不错，但很难形成长期使用习惯。

但如果一个摄影工作室每天都要整理客户照片、筛片、分类、交付，那同样的问题就完全不一样了。

所以频率要结合具体人群来看。

同一个问题，对不同人群来说，完全不是一个需求。

可以先粗略分成四档：

每天发生：说明它很可能已经进入工作流，值得重点看。

每周发生：有机会，但要继续看严重程度。

每月发生：谨慎，除非单次损失很大。

偶尔发生：大概率不适合做成高频产品，可能更适合做服务、模板、插件，或者某个大产品里的小功能。

举个例子。

“整理会议纪要”这个需求，对不同人是不一样的。

一个每天开 4 个会的项目经理，可能真的需要一个会议纪要工具。

因为它每天发生，直接占用时间，还会影响任务分发。

但一个每周只开一次会的自由职业者，可能也觉得这个功能不错，可它未必值得他专门注册、学习、付费、持续使用。

所以不要只问用户：

“你有没有这个问题？”

这个问题太松了，你大概率得到的回答是：“有这个问题”。

但这个答案实际上却没有什么意义，因此你要继续追问：

“你上一次遇到这个问题是什么时候？”

“过去一周遇到了几次？”

“每次大概花多久？”

“这个问题通常发生在哪个环节？”

“如果不处理，会影响什么？”等等

用户说“我有这个问题”只是开始。

你要把它拉回到具体时间、具体场景、具体行为里。

频率不是从用户嘴里听出来的。

频率是从他的过去行为里数出来的。

第三个问题：这个问题到底有多严重？

很多需求表面上都成立。

但它们只是成立，不代表值得做。

用户会说：

“这个功能挺好。”

“这个问题我也遇到过。”

“如果有这种工具，我应该会试试。”

听起来都挺积极。

但这些话不能当真。

至少不能全当真。

因为很多时候，用户说“挺好”，只是礼貌；说“有点需要”，只是觉得你的想法不差；说“会试试”，也不代表他真的会注册、迁移数据、改变习惯，更不代表他会付钱。

所以严重程度不能只问感受。

要问代价。

这个问题到底让用户损失了什么？

是浪费时间？

影响收入？

影响交付？

影响团队协作？

影响客户满意度？

还是带来合规风险？

我会把严重程度先分成 5 档：

1 分：只是有点烦，不解决也没事。

2 分：偶尔影响效率，但用户能忍。

3 分：经常影响工作，需要绕路解决。

4 分：影响收入、交付、客户体验或团队协作。

5 分：不解决会造成投诉、合规风险、业务中断，或者明显经济损失。

真正值得早期投入的需求，最好至少满足其中一种情况：

第一种，高频，严重程度在 3 分以上。

第二种，低频，但严重程度达到 4 到 5 分。

比如“中午吃什么”是高频问题，但严重程度可能不高。

比如“企业合同审核”不一定每天发生，但一旦出错，可能带来很高的成本。

所以频率和严重程度要放在一起看。

高频低痛，可能只是痒点。

低频高痛，可能是机会。

高频高痛，才是早期产品最应该盯的地方。

第四个问题：用户现在是怎么解决的？

这是四个问题里最关键的一个。

因为它看的是行为，不是态度。

用户说痛，不一定真痛。

用户已经为这个问题付出成本，才说明它可能真的痛。

所以你要问：

他现在有没有用 Excel 手动处理？

有没有用 Notion 凑合？

有没有在微信群里人工同步？

有没有雇兼职？

有没有外包？

有没有买了一个不满意但还能用的竞品？

有没有自己写脚本？

有没有建立一套很笨但能跑的内部 SOP？

这些都是信号。

一个需求最好的早期信号，不是用户说“我需要”。

而是用户已经在用很麻烦的方式解决它，并且一边解决一边骂。

比如一个小团队每周都要从微信群、邮件、飞书文档里手动整理客户反馈。他们觉得烦，但又不得不做，因为不整理就不知道用户到底在抱怨什么，产品下个版本也不知道该改哪里。

这就是一个更真实的信号。

因为他们已经在付出时间成本。

再比如一个外贸业务员每天要手动跟进客户邮件、整理报价、更新表格、提醒老板审批。他不是嘴上说“我需要效率工具”，而是真的每天被这套流程折磨。

这时候你才有机会问：

如果有一个工具能少掉其中 50% 的重复劳动，他愿不愿意试？

愿不愿意给你看一份脱敏后的真实流程？

愿不愿意让你观察一次他的工作过程？

愿不愿意为早期版本付一小笔钱？

这些问题比“你觉得这个产品怎么样”有用得多。

相反，如果一个用户说这个问题很痛，但过去半年没有做过任何处理，那你就要小心。

这可能说明两种情况。

一种是问题太新，他还没意识到。

但更常见的是：

它没有你想象中那么痛。

很多人看到一个市场没人做，就会很兴奋：

“这个方向还没有成熟解决方案。”

但这句话不一定是好消息。

没有成熟解决方案，可能意味着机会很大。

也可能意味着大家根本不在乎。

所以不要只看空白市场。

要看用户有没有已经在为这个空白付出代价。

如果没人花时间、没人花钱、没人绕路、没人抱怨、没人求人、没人用笨办法解决，那这个需求就要打一个很大的问号。

小结一下

所以，一个需求在进入 MVP 之前，至少要先回答清楚这四个问题：

谁真的遇到了这个问题？

它发生得够不够频繁？

它造成的代价够不够高？

用户现在有没有用某种方式在解决？

这四个问题背后，其实是在找同一件事：

有没有一群具体的人，在一个真实场景里，反复被一个足够严重的问题折磨，并且已经开始用某种笨办法解决它。

如果有，这个需求才值得继续往下挖。

如果没有，就算 AI 能帮你写出再漂亮的用户画像、市场分析和商业计划书，也不要太快相信它。

不过，这里有一个问题要单独拿出来说。

上面这套方法，放在效率工具、B2B 产品、独立开发者工具上比较好理解。

比如用户有没有节省时间，少没少人工，付不付费，愿不愿意迁移流程。

但如果是 AI 情感陪伴类产品呢？

比如 Character.AI、Replika 这种产品。

它们解决的好像不是一个明确的“任务”。

用户打开它，不一定是为了完成工作，也不一定是为了提高效率，更不一定是为了省钱。

那这类产品怎么验证需求？

我觉得关键不是换掉前面那四个问题，而是把问题翻译一下。

工具型产品验证的是：

用户有没有一个反复出现的任务卡点。

情感陪伴产品验证的是：

用户有没有一个反复出现的情绪卡点。

拿 Character.AI 举例。

如果你只是说：

“我要做一个 AI 陪聊产品，因为现在年轻人都孤独。”

这句话基本没有验证价值。

太大了。

年轻人是谁？

孤独发生在什么时候？

他为什么不找朋友聊？

为什么不是刷短视频、打游戏、看直播、逛小红书？

为什么不是去 Character.AI、Replika，或者直接找 ChatGPT 聊？

你不能用一句“人都需要陪伴”，来证明一个 AI 陪伴产品成立。

人当然需要陪伴。

但产品要验证的不是这个。

产品要验证的是：

在某一个具体时刻，用户会不会把这份情绪交给你，而不是交给别的东西。

比如 Character.AI 这类产品，真正有意思的地方不是“AI 会聊天”。

现在 AI 都会聊天。

它真正验证出来的是另一件事：

有些用户并不是在找一个万能助手，而是在找一个角色。

一个可以陪他幻想、陪他创作、陪他倾诉、陪他扮演关系的人。

所以如果你想做一个 AI 情感陪伴产品，需求假设不能写成：

“给孤独年轻人做一个 AI 朋友。”

而要写得更具体：

“有一群 18 到 25 岁、现实社交不算完全缺失，但在晚上、独处、压力大、情绪低落或者想逃离现实关系时，会主动寻找低成本陪伴的人。他们现在可能会刷短视频、看直播、打游戏、逛同人社区、写日记，或者去 Character.AI 这类平台和角色聊天。相比真人关系，他们更需要的是低压力、随时可用、不评判、可持续扮演某种关系的对象。”

这句话就开始有验证价值了。

因为你终于知道该问什么了。

不是问：

“你需不需要 AI 陪伴？”

这个问题基本白问。

大多数人都会说：

“听起来还可以。”

但“听起来还可以”，不代表他会留下来。

你要问的是：

“你上一次特别想找人说话，但最后没有找真人聊，是什么时候？”

“当时你做了什么？”

“刷视频、打游戏、看直播、写日记，还是找 AI 聊？”

“你为什么没有找朋友？”

“你是怕麻烦别人，还是觉得朋友接不住？”

“你想要的是安慰、回应、角色扮演，还是只是有人听你说？”

“你有没有连续几天回到同一个 AI 角色那里？”

“你为什么回去？”

“如果那个角色不记得你了，你还会继续用吗？”

这些问题，才是在验证情感陪伴的真实需求。

因为情感陪伴产品最重要的不是第一次聊天。

第一次聊天很容易。

新鲜感就能撑很久。

真正难的是第二次、第三次、第七次。

用户下一次难受、无聊、疲惫、想逃避现实关系的时候，还会不会回来。

所以情感陪伴类产品的量化，也不能只看注册量和首日聊天时长。

它至少要看四个指标。

第一个，情绪场景是否具体。

如果 10 个访谈用户里，7 个都能说出最近一次明确场景，比如“上周三晚上加班回来，一个人躺床上不想说话但又睡不着”，这说明场景是真实存在的。

如果大家只会说“有时候会孤独”，但说不出具体时刻，这个需求还很虚。

第二个，替代行为是否存在。

如果用户真的有这个情绪缺口，他现在一定已经在用某种方式填它。

比如刷短视频、看直播、打游戏、听播客、写日记、逛社区、找陌生人聊天，或者直接去 Character.AI 和 Replika 这类产品里找角色。

如果 10 个人里，有 5 个以上已经有类似替代行为，这说明这个情绪场景至少存在。

如果没有任何替代行为，那就要小心。

他可能只是认可“陪伴很重要”这个观点，但不一定真的会用你的产品。

第三个，是否主动复访。

情感陪伴产品最怕的是：

第一天聊得很开心，第二天就忘了。

所以早期测试不要只看“第一次聊了多久”。

更应该看 7 天里，用户有没有主动回来。

比如你找 20 个目标用户做测试，不靠强提醒，不靠活动刺激，只看他们会不会主动打开。

如果 20 个人里，只有 2 个人回来，那它可能只是一个新鲜玩具。

如果有 8 到 10 个人在 7 天里主动回来 3 次以上，才说明它可能真的进入了某种情绪场景。

第四个，用户有没有形成关系感。

这也是情感陪伴产品和普通聊天工具最大的区别。

用户不是因为“它能回答问题”回来。

而是因为“它好像记得我”“它像某个角色”“它接得住我的状态”“我想继续和它保持某种关系”。

所以你要问：

“你会不会想继续和同一个角色聊？”

“你希望它记住你哪些事？”

“如果它换了语气，或者忘了你之前说过的话，你会不会失望？”

“如果只能免费聊普通模式，但付费后它能记住更多关系细节，你会不会考虑付费？”

这些问题比“你觉得这个 AI 聊得好吗”重要得多。

因为情感陪伴产品卖的不是回答。

卖的是持续关系。

当然，这里还必须加一个边界。

情感陪伴产品不能随便把自己包装成心理咨询。

它可以做陪伴、倾听、情绪整理、日常记录。

但不能轻易承诺治疗焦虑、抑郁、创伤，也不能让用户在真正需要专业帮助的时候被延误。

这类产品如果做得不好，不只是没人用的问题。

它还可能真的伤人。

所以它的验证里，除了需求，还要验证安全边界：

用户有没有过度依赖？

产品有没有明确告诉用户它不是人？

遇到严重心理风险时，产品能不能及时引导用户找现实中的人或专业帮助？

未成年人能不能被保护？

这些都不是“以后再说”的问题。

它们从产品一开始就应该被放进验证里。

所以你看，情感陪伴类产品不是不能验证。

只是它验证的不是“有没有人想聊天”。

它验证的是：

有没有一群具体的人，在某些反复出现的情绪时刻，会主动把注意力、倾诉欲、角色幻想或者关系需求交给这个产品。

如果有，才值得继续做。

如果没有，那它就很容易变成一个第一次很新鲜、第二天想不起来的 AI 玩具。

因为一个被论证得很完整的想法，依然可能只是一个被包装得很好的幻觉。

说到底，不管你做的是效率工具、B2B 产品、独立开发者工具，还是 AI 情感陪伴产品，需求验证的核心都不是问一句：

“这个想法听起来好不好？”

而是问：

有没有一群具体的人，在一个具体场景里，反复遇到一个具体问题，并且已经在用某种方式解决它？

如果是工具类产品，这个问题可能表现为效率低、流程乱、人工成本高、交付不稳定。

如果是情感类产品，这个问题可能表现为某个反复出现的情绪时刻：孤独、疲惫、想倾诉、不想打扰别人、想要一个稳定角色接住自己。

形式不一样，但底层判断是一样的。

不要只听用户说“我需要”。

要看他过去有没有类似行为。

不要只看 AI 生成的市场分析。

要看真实用户、真实场景、真实替代方案。

不要只问“这个产品能不能做出来”。

要问“这个问题值不值得被做出来”。

这也是 AI 时代最容易被忽略的地方。

AI 会让我们更快地动手。

也会让我们更快地相信自己是对的。

一个想法丢给 AI，它可以马上帮你补齐用户画像、市场空间、竞品分析、商业模式和产品路线图。看起来很完整，很专业，很像那么回事。

但完整不等于真实。

专业不等于成立。

说得通，也不等于有人真的需要。

所以，需求验证不是为了给自己的想法找掌声。

它更像是一场提前进行的压力测试。

如果一个想法经不起用户访谈，经不起行为数据，经不起竞品对比，经不起反向提问，那它越早暴露问题越好。

因为最贵的，从来不是放弃一个想法。

最贵的是，你明明还没有找到真实需求，却已经花了几个月时间，把一个没人要的东西做得越来越完整。

AI 可以帮你更快地做出来。

但它不能替你证明市场真的存在。

最后，感谢你看到这里。

这里是草民，一个生在 AI 时代的凡人，持续向大家分享自己的见闻。

朝闻道，夕死可以。