一句话写App?我用坏5个AI工具才知道是骗局

有段时间很火的"一句话写个App"，当时我这个纯小白信了。前前后后从Kimi、豆包到Gemini、Claude，连本地的Antigravity、Codex都折腾了个遍，踩了所有能踩的坑，才终于搞明白：工具根本不是越贵越好，用错地方，再神的AI也能把你坑死。

最开始我跟所有新手一样，迷信"一键生成"。低价抢了Kimi会员，把几千字PRD扔进去，几秒钟就出了个能直接预览的应用，当时真以为捡到宝了。结果一测试，全是暗坑。后来换了豆包，生成的前端看起来更漂亮，逻辑更清晰，但本质还是个"玩具"——只能跑通最基础的流程，稍微加个功能就全面崩盘。

不信邪的我又试了Gemini AI Studio，确实比前两个强不少，代码干净了很多，但实机跑起来还是一堆莫名其妙的bug。最坑的是，这些工具生成的代码根本没有架构可言，全是东拼西凑的补丁。你让它改一个bug，它能给你冒出三个新的，越改越乱，最后变成谁也看不懂的屎山。

然后我就踩了这辈子最大的坑：听人说Claude写代码最厉害，又了解到Claude封号厉害，决定还是靠自己的Gemini pro来体验Claude，费尽心机试了各种方法才登陆上Antigravity，结果我居然傻到让Claude去修前面那些烂代码。

现在想起来都心疼。Antigravity的retry机制，一天就把我一周的Claude额度烧得精光。而一个底子就烂的项目，就算是Claude也救不了。改来改去，代码越来越臃肿，最后只能全部删掉重写。

痛定思痛我才明白，不同的AI工具，能力边界天差地别，根本不能一个工具包打天下。我彻底推翻了之前的工作流，现在Claude再也不是倒霉的救火员了，它是我的CTO，我的核心架构师，我的冷酷代码审计员。我的标准流程现在是这样的：我自己啃透核心逻辑，写出极其严密的规则文档，对待手头的工具分工则是：

• 普通大模型（免费版）：只用来头脑风暴，绝对不让它们碰核心代码。说到这就想到当时让豆包写的某款游戏的prd，豆包激情生成了好几万字，让小白的我奉为至宝（因为其他ai就写几千字，看起来没有豆包认真），实际上里边应用框架、代码规范等关键信息，要么不能用，要么就完全省略了，明显的水文。

• Gemini pro：专门处理前端UI和简单的交互逻辑，UI审美在线，呈现的原型又快又好。而且生图、做音乐还有整理笔记（notebooklm）都是一把好手，我的大管家。

• Claude（Antigravity版）和codex：只做三件事——写架构设计、写核心规则文档、做最终代码审计。如果项目复杂，也会在额度有余的情况下直接让它们下场干活。不得不夸codex非常有良心，每次工作中额度就用完了，但是会坚持把任务完成，antigravity就不行，只有无尽的retry。

最后给所有想入行的小白一句血的教训：大模型不是自动售卖机，是你需要严格管理的高级外包团队。

别把时间浪费在反复祈求AI改代码上。去学架构，去写规范文档，去搞自动化测试。你才是管理者，工具只是你的手下。把合适的人放在合适的位置上，这才是AI时代最值钱的能力。

另外，给一些我测试大模型能力的思路，供大家参考，方便大家找出最适合自己的大模型，最大化它们的使用价值。

我让 Gemini 出题盲测了中美 8 款大模型，它竟然把自己的代码骂成了“工业废品”！

榨干大模型的最后一滴算力：警惕 AI 对你的“降智打击”

别被大模型忽悠了！用这4个“网页小玩具”，一秒测出AI的真实智商

一张图扒下国产大模型多模态底裤，小白必看的“AI用工指南”