不懂技术的产品经理用AI写了第一个产品!

今天分享下我最近一次VibeCoding（使用自然语言借助AI写代码）经验，希望对你有用~

Part1 我最近干了什么

在没有任何开发、测试介入情况下，纯用AI coding，完整走完一个业务需求的研发上线流程，目前已给业务使用。

1、先说下我的coding背景

-非技术出身，大学学的交通，几年前自学过一些简单的面向对象的程序设计

-之前尝试过使用trae、cursor（搭载minimax2.7模型使用）VibeCoding过热量识别小程序、番茄钟之类的应用，但均未上线。（期间很多次感叹AI还是太傻了）

2、我最近VibeCoding了什么

「网站评分工具」

可对任意网站做专业评分及评分规则设置

1）输入网站URL可以获取这个网站在SEO、网站设计方面的评分，以及评分细则

2）可以直接导出评分结果PDF，发给客户或内部查阅

3）可以登录到评分管理后台，调整评分细则项的权重（满分）：

3、关于本项目的花费

本项目累计约900元，一周时间（每天约2-3h coding时间）。

Part2 我为什么干这个

主要还是想，一直想让AI按自己的想法做出一款完整的产品，解决一些问题和需求

我负责的业务，经常收到这样的需求：

1）团队帮客户建站，需要能够评估做的网站的“质量”，指导我们知道哪些地方修改

2）客户会问网站效果如何，并且拿别的平台的报告来“质疑”我们

3）销售经常问我有没有高质量的网站案例？过往我需要一个个网站人工判断

因此，需要有一个有业内标准和评估准则，来对网站进行评分和建议的工具。

除了有这个实际的需求，其次和其他的业务代码相对独立，不会带来麻烦。

Part3 我具体怎么干的

1、开搞前的准备

尝试不借助任何开发介入，我按照业务理解，梳理了如下执行步骤

1）先确定工具：自研coxxmaker（里面集成了最牛的claude模型，并有免费额度）

在经历了minimax2.7的折磨，还是选专业的coding模型吧

2）与业务团队制定了评分规则（网站SEO+内容，两方面）

3）基于之前VibeCoding经验，准备用SDD规范的工具，选择spec-kit

4）借助AI帮我写PRD、画原型

5）交给AI帮我coding，与AI不停地对话，修改效果

6）测试验证效果

7）部署和发布，供内部人员使用

8）收集问题优化

项目开始前，预见这个项目的难点

1）网站分析时是需要做内容截图和视觉分析的，需要调用专业的截图工具和模型

2）上述规则没有具体的接口指明和确定哪些API或工具调用

3）完整的流程跑通，需要能按照评分规则的设置来，前后联动

事实上，VibeCoding后，这些在我面前的难点，在AI面前也就几秒的事。

2、开搞！
1）先粗暴点“一句话需求”

之前用Trae、Cursor等VibeCoding工具，让它们生成一个贪吃蛇游戏，一句话“帮我生成一个贪吃蛇游戏”，就能生成的非常好。

于是我想着这个需求也不复杂，试试直接给coxxmaker讲需求，让它帮我实现。

输入	输出

丑的不行，流程也没跑通。

2）折中点
，“给个PRD”

由于一句话需求缺少很多页面、逻辑等信息，于是我让豆包根据我的三句话需求生成了一份PRD，发现还是不达到预期，要调整的地方太多太多了。

3）按完整开发流程来

① 原型设计：“Stitch画原型”

我把豆包的PRD给 Stitch，画出来的原型不符合预期，有很多我不需要的，我猜测是这个PRD太长了细节太多了。

于是我换了Gemini，让它给我一个相对详细的给Stitch的Prompt，我来补充细节。

Stitch听话了！满意度80%，先让coxxmaker开搞。先跑起来，别太纠结细节。

② 需求明确：“SDD（spec）”

在给coxxmaker之前，我了解过SDD规范，基本上就是先澄清，再规划，再拆解，再干活。speckit、openspec、superpowers这些都是开发框架/规范/技能包。

coxxmaker里有speckit、openspec，我决定使用speckit。

过程
截图
/ specify 输入需求
/clarify 会和我澄清
生成的spec.md文件

③ 需求开发：“claude+其他模型”

惊人的好！但是有一些逻辑错误，比如评分结果不该在规则后台、规则后台应该要登录、规则后台没有审核以及各种无用的介绍等

4）需求变更&调优

于是就开始和coxxmaker输入指令，注意一个问题一个问题地修改。

比如，上面提到的配置后台和评分页面是耦合的，我要让它拆分开

改的过程还挺顺畅，但其实对我来说就是个盲盒。比如，服务打不开了，我就按他说的配合他测试。

所以如果想改的更快，最好还是懂点基础的技术知识，最快的方法就是请个AI来做帮手，比如服务打不开的问题，其实是端口变化了，它会告诉你原因是什么。,
当然，也可以在coxxmaker里让claude通俗的讲解下错误原因，但是会增加上下文长度，消耗更多token并且影响后续结果，所以这种“请教”类内容我会找Gemini帮忙。

直到有一次，突然改坏了！样式全丢了！

我决定让它回退，但是发现还是没有完全恢复，我只能又一个问题一个问题地修改。

于是，我决定给整一个版本记录，这样我就可以放心地修改了。

直接安装GIT Autocommit 插件就可以，我直接和coxxmaker说让它帮我安装，而它非常聪明选择了更好的方案。

5）三方接口/服务对接

通过mock的数据，跑通主流程，接下来要把评分规则需要用到的工具、接口实际接入。

但开始我就遇到问题，比如移动端适配效果、LCP等指标，有哪些权威的通用的工具呢？

在开始做调研前，我试着让AI直接帮我搞。再一次使用spec模式进行开发，没想到全都帮我搞定了

过程	截图
明确需求
澄清需求
自查自证

6）完整的技术架构

为了“掌控”它，我让它生成架构图给我确认，在和业务同学确认可用后，发现它真的强！

7）测试/验收：人

其实可以引用一些成熟的测试框架，比如DeepEval，但是由于本项目很简单，所以直接上人会更高效。整体流程、效果都没话说，但我有个问题：

怎么确认它没胡说呢？它真有在调用API、模型进行检测？

我用了几种最简单有效的方法：

1、嘱咐AI+让AI对Mock数据标识

2、观察.md，比如agent.md文件

3、断网测试，还能跑说明假

4、过程产物检查，比如执行过程是否真正截了网站页面的图

5、结果业务性检查，返回的内容是否有业务属性

6、数据源头实际调用检查，比如Lighthoue的调用和实际测试结果是否一致

7、多测几次，看评分差异

做了这些，基本可以验证是真的执行了，为了保证每次都是真的执行，我让它在执行结果把数据来源贴出来。

分享几个印象深的调优case

1）网站LCP/FCP（速度）评分过低

我发现每个网站测试下来，这俩指标都很低（20多秒），但是实际打开并没有那么慢。

于是让AI讲述测速方案，发现它按照4g以及最普通的性能进行网络测试，这明显不符合我们的需求。

把测速标准用自然语言进行了调整，AI自动盘点影响点，我接受后它自动修改好了。

2）移动端适配评分不对

移动端适配明明不OK（样式错乱），但还是高分。

于是让它对标Google的移动端适配API数据，发现它为了节省视觉模型用量，自动采用了简单方案（viewport meta标签+Lighthouse Performance性能分）

于是和它提样式要求的检测，在找Gemini验证后，决定采用“Lighthouse tap-targets +font-size ”和“Puppeteer 手机视口截图+GPT-4oVision”结合的更真实的方案。

3）某些网站反爬

发现有些网站反爬，这时候AI会自己制定方案，比如更改UA，一次就改好了

4）视觉识别经常调用失败

经常出现模型调用或返回失败的问题，每次都得人工重新识别（目前用的是中转模型会不稳定）。AI判断token问题，并且很聪明的自己加了“重试”，完美解决！

8）部署上线

就是让别人也能访问。

这里我感觉是最复杂、最难点，难点在于：我不了解部署的流程，不像前面的产品开发流程我很熟悉。

去咨询开发！需要用到哪些平台、流程是什么、如何申请镜像和集群等...

按照流程不停让coxxmaker执行，自己检查、确认、补充细节、考它，最终成功上线了！

并且让它给我通俗地、打比喻地讲解整个部署流程。

Part4 我收获到哪些经验

1）不同模型差异很大，根据场景选模型

之前用minnimax2.7 +Trae/Cursor，改来改去，根本无法控制...（即使调整上下文长度、temperature参数等）。如果是coding，尤其复杂项目，还是建议claude。

当然，如果简单按钮、文案修改，可以用minimax、GLM这种轻量且便宜的模型。

最好用支持多模态识别的模型，比如minimax、deepseek v4都不支持截图分析，这样让它修问题就很难....

2）不要一直在一个会话唠

这就是导致经常遇到的上下文过长带来幻觉或漂移的问题，且上下文过长带来不必要的token消耗。

每次开启新会话后，直观上有两个效果改进：执行更快了！输出内容丰富度更高了！

可以：分支流程直接启用新会话、主对话过长让AI压缩后开启新会话（新会话读取压缩内容）

3）不需要准备到100分才开始

AI生成的Prompt、原型都不可能尽善尽美，即使100分，AI也不一定能还原。

先扔给AI跑起来，再调整！（就像我们平时做事一样）

4）勇敢先让AI尝试，不行再自己弄

对接三方接口的时候，本想着自己先调研，或者让它先找一些 webscore 的skill。

但是直接让AI尝试，给出的结果已经非常可用了，这帮我节省了很多的调研时间。

5）记得让它做日志（查问题用）

在测试时候发现，它总有漏检的情况，于是让AI增加日志，这样就能清楚看到每次执行任务时候，哪些没做、为什么没做

6）记得做版本控制和记录

参见上文“需求变更&调优”，让它安装版本记录插件！

这样改起来无压力。

7）如何确定AI不是在胡说

通过给AI下原则、看.md文件、看实际过程产物、看依赖工具的调用情况、看结果的业务准确性、看多次结果的差异性、找一个agent等方法来判断。

Part5 这个项目有什么提升空间

1）如何校验它生成spec.md、spec.plan是符合预期？比如用一个AI来检查？

2）如何判断代码质量如何，不是屎山代码？

3）如何批量化、各种极端case AI自动验证？提升识别准确率和成功率

4）规则可以优化，比如安装一些skill，做更详细的网站评分验证

Part6 我对VibeCoding的看法

1）AI极大降低coding、学习门槛

AI极大降低了写代码的门槛，解决自己所拥有知识以外的事情，并且学习这些新知识的成本极低。我知道了DOM、UA、CDP、Cheerio、Puppeteer、镜像、容器、等技术名词或工具。很难想象下图是出自我手的...

2）AI是聪明能干的好学生

它非常聪明！而且学习和复盘很快！

a、理解能力强执行快：给它要求，它理解非常准确，并且执行得很快

b、举一反三：边界case都可以处理好，我没有进行任何输入它就分析并处理完了

c、主动多做很多步：不仅给方案，还自动把需要的工具都安装好了

3）“会操控”AI非常重要，这也是我最想说的！

AI很强，会操控体现在：

a、知道弄什么，以及先弄什么，再弄什么

b、能不能和AI澄清、对清楚需求

c、能不能判断AI给的方案以及执行的动作是靠谱的

d、如果coding一直卡在一个问题，会不会想其他办法来解决，继续推进

Part7 关于VibeCoding小建议

如果你也不懂代码，但是想写出自己的程序，我有几个建议：

1）时刻注意当下最重要的是啥。开发过程中，解决A问题，往往会出现B、C、D等问题，那这时候就要看下哪个是最着急的。比如一开始没有视觉识别模型，那就先用mock数据跑通流程；先跑流程，再调视觉...

2）磨刀不误砍柴工。比如它改坏或者卡在某一个点，不要来来回回对话硬磕，这时候会感到免费测试的深深的无力感。抽出来想个办法，如给它装个版本记录插件。

3）VibeCoding，工具不是最重要的，重要的是能发现合适的问题并且开始。

未来已来！！选择一个工具，找一个场景，写出你的第一个程序吧！

过程	截图
/ specify 输入需求
/clarify 会和我澄清
生成的spec.md文件