几周连做 8 个 AI 应用:从 Vibe Coding 到 Harness Engineering 的真实复盘

写在前面

在过去的几周业余时间里，我用AI一口气做出了 8 个应用：

• MindFlow：记事 + AI LLM Wiki / 知识库 + 知识图谱
• FitEver：AI运动编排、身体健康数据记录
• RemoteCodex：远程访问和操作 Codex
• iWhisper：Android/Mac/Windows 三端语音输入法
• MyStore：个人应用市场
• kStudy：帮孩子提升英语学习乐趣的工具（开发中）
• 童话乐园：儿童画画软件
• 禅起：久坐提醒 + 5 分钟冥想语音指导

一个人，几周内独立做出八个横跨移动端、桌面端、输入法、儿童教育、健康、知识管理的应用——这事如果放在3个月前，可能谁都不信。

做完这些，我想跳出单纯的“AI 真强大”的感叹，聊几个更具体的判断和踩过的坑。

一、从 Vibe Coding 到 Harness Engineering

早期大家把 AI 辅助编程叫 Vibe Coding——凭感觉、跟着氛围走，AI 生成什么你接什么。当时这个词很贴切，因为模型能力还不够强，你确实是在“感受”它、顺着它的脾气走。

但现在，行业里开始用另一个词：Harness Engineering（驾驭工程）。这不只是换个洋气的说法，它反映了一个真实的变化：模型本身的能力已经足够强，你的核心任务不再是“跟着它走”，而是“驾驭它”。

这就像你面前的坐骑从一匹温顺的小马变成了一匹烈马。动力充沛，跑得极快，但你要真正把它驯服——让它按你的路线驰骋，在该减速的地方减速，在该转弯的地方转弯。

具体到日常工作中，驾驭的核心其实就是三件事：

1. 给目标。 你要清楚告诉它“我要到哪里”，这个目标必须是具体的、可验证的、边界清晰的。模糊的目标只会被模型用平庸的方案填满。
2. 指方向。 在同一个目标下通常有很多条路，你要选一条——用哪套技术栈、先做哪个模块、用什么样的抽象。模型如果没有方向，它会给你一个“平均值”答案，而绝不会是最优解。
3. 持续修正方向。 这是最关键也最容易被低估的一步。模型在执行过程中一定会跑偏：过度设计、引入不必要的依赖、解决你没提的问题、在某个细节上死磕。你要做的不是一次性下达指令然后被动接受结果，而是不断地看、不断地拉回来、不断地说“不是这个、是那个”。

Vibe 是你顺着它，Harness 是让它顺着你。 给目标、指方向、修正方向，这三件事构成了 Harness Engineering 的日常动作。缰绳不是握一下就完事了，而是全程都要紧紧攥在手里。

二、唐僧的时代，孙悟空不再被需要

Harness Engineering 的背后，藏着对开发者能力模型的彻底重构。

过去二十年，写代码的人被奖赏的是“孙悟空式”的能力——技术拔尖、能打、七十二变、解得了别人解不了的底层难题。一个厉害的工程师，核心竞争力就是能啃下别人啃不动的系统。

但在 AI 编程时代，这种能力正在被迅速商品化。大模型就是那个七十二变的孙悟空，而且它一次能化身成千上万个。这个时代真正稀缺的，反而是唐僧。

唐僧看似没什么技术，打不过任何一个小妖。但他手握三样东西：清晰的目标（去西天取经）、不动摇的方向感（不管妖精怎么变都不上当）、带队到终点的格局（协调一群能力极强但各有脾气的下属）。

在 AI 时代，这三样东西恰恰是任何模型都给不了你的。

落到具体开发里就是：AI 极大加速了生产力，开发者的硬性要求也随之重构。核心能力从“会写代码”变成了对方向、对目标、对“什么是好”的持续判断。 你的品质如何、价值观如何、愿力有多大、格局有多宽、对远景看得多清楚——这些过去被认为是“虚”的东西，现在全变成了硬指标。因为代码不再是瓶颈，你的意图才是真正的瓶颈。

在一个人人都能召唤孙悟空的时代，你最好先修炼成一个称职的唐僧。

三、驾驭 AI 的具体“手感”

分享几个只有经过高强度实战才会懂的细节。

Context（上下文）占用率直接决定生产力。同一个模型、同一个任务，在 Context 相对空闲时，它思路清晰、响应极快、改动精准；可一旦 Context 被长对话、大段代码、多轮调试堆满，它就会肉眼可见地变慢、变笨、开始犯低级错误。所以，什么时候开新会话、什么时候清理上下文、什么时候把中间结论固化下来再继续，本身就已经成为一种核心的工程能力。 我现在的习惯是：每完成一个阶段性任务，立即开新会话，只把必要的上下文精炼成几个文档带过去，绝不抱着一个巨大的历史包袱往下走。

不同模型之间的生产力差距是倍数级的。不是 20%、30% 的差距，是倍数。质量和速度的差距叠加在一起，做同一件事的总耗时会差出好几倍。我的判断很直接：永远用最顶配的模型。 为了省一点钱或者妥协于“够用就行”的方案，最后浪费的都是自己的时间，而时间在这里面恰恰是最贵的。

同一个模型，直连 vs 中转完全是两种东西。直接在原生环境（如 Codex）里用它的工具链，和通过中转平台调用同一个 API，效果截然不同。原生环境里模型能调用的工具、感知到的上下文深度、执行的完整度，都是中转方式无法复刻的。选择“在哪里用”和选择“用哪个”同样重要。

除此之外，真正驾驭一个模型还有几条硬核法则：

• 把任务拆到合适的颗粒度再交出去。 一次让它做太大的事，它会擅自做很多决定；一次让它做太小的事，你会被调度本身拖垮。我的经验是以“一个能独立跑起来、能独立验证对错的最小单元”为颗粒度。交出去之前先在心里过一遍：这件事做完了，我怎么知道它做对了？如果答不上来，说明任务拆得还不够细。
• Prompt 里要写死关键约束，别指望它自己领会。 代码风格、依赖版本、错误处理方式、不要引入哪些库——这些你脑子里默认的东西，模型默认的往往是另一套。任务级的约束每次都要重复一遍，宁可啰嗦。
• 盯着它跑，而不是等它跑完再看。 发现它过度设计或偏离轨道，立刻打断并纠正。这和带新人几乎一样——不是不信任，是为了帮它少走弯路。
• 不要让它替你做判断。 技术选型、架构取舍、产品走向，必须你自己拍板。模型可以当参谋，绝不能当决策者。
• 善用 Skill，但要知道它的代价。 像 gstack 或 superpower 这类工具，能把调研、计划、实施做得极其扎实，不会漏掉边角。但代价是显著拉慢开发速度。复杂模块上 Skill；小功能自己直接动手。质量和速度是一对张力，不是每个任务都需要压满质量。
• 慎用 Plan Mode。 系统化的计划往往会让模型倾向于用“标准答案”填充每一步，从而稀释掉你的项目个性。真正复杂的任务，我宁可手动拆分、一步步走，最终产出反而更贴近预期。

四、踩过的坑：品味和审美是 AI 目前覆盖不到的

当代码不再是瓶颈，想清楚要做什么才是。 这一点在做 C 端应用时体会特别深。

以童话乐园的涂色示例为例。技术上毫无难度——矢量画布、基础笔刷、几十张模板。但 AI 生成的示例图片出来后，孩子直接吐槽：“画得好丑”。问题出在哪？风格、构图、色彩搭配、线条粗细——每一个都是审美问题，而 AI 给出的“方案”全是安全的平均值。让它画一百张能用的模板很快，但画一百张“孩子看了眼睛会发光”的模板，它目前做不到。教训： AI 能把“工程问题”解得很好，但一旦涉及审美、品味和对用户的细腻感知，它给的东西往往只是“能用”而非“出彩”。在 C 端世界，“能用”和“出彩”之间隔着生与死。

再比如禅起的通知问题。应用做完了，但我自己都很少用，因为我根本感知不到提醒。手机弹个没有声音和震动的通知，等我偶然低头看到时，时间早过了。教训： 怎么让用户在合适的场景下被恰当提醒，涉及平台机制和打扰尺度的拿捏。功能做完，连产品的三分之一都不到。

kStudy 也是一样。想解决“英语 App 太像作业”的痛点，涉及端侧交互、云侧解析、语音识别的组合调度。任何一处粗糙，体验就会崩塌。快速做出来容易，做得真的好用，依然很难。

五、未来的应用形态会被 AI 改写

做完这八个应用，我有一个强烈的预判：传统的应用开发形式和能力边界，已经远远满足不了未来用户对 AI 体验的诉求。

现在做应用，本质还是在端侧堆功能、存数据、拼交互。这个范式越来越像一个过时的容器。

接下来几乎所有应用都会对接 AI，用 AI 打破传统规则能力的天花板：

• 端侧 Agent：主打隐私好、延迟低，但受限于设备算力。
• 云侧 AI Agent：想象空间完全不在一个量级——复杂推理、长程任务、多模态协作，只有在云侧才跑得起来。

应用的形态会从“功能集合”演变成“意图入口”——用户表达意图，背后由 Agent 调度完成。这意味着，我现在做出来的这八个应用，两年后可能全都要推倒重做。

六、多巴胺陷阱

最后，我想聊一件对我冲击极大的问题：AI 编程会让你像刷短视频一样上瘾。

过去写功能，啃文档、配环境、写代码、调 Bug，反馈循环动辄需要半天。这种慢节奏让多巴胺慢慢分泌，身体会提醒你主动起身喝水、休息。

现在全变了。你说一句话，几十秒后功能跑通了；再说一句，界面改好了；再说一句，后端搞定了。每一次“跑通了”，都是一次精准的多巴胺投喂。 这和短视频的底层机制如出一辙：短循环、强反馈、即时奖励、不断刺激“下一个”。

结果就是：不知不觉坐十几个小时；眼睛疼到模糊才想起休息；明知该睡了还忍不住“再跑一个 Feature”；凌晨两三点还在极度亢奋地推代码，第二天整个人彻底虚脱；RemoteCodex进一步加重这种情况。

这种模式极大地加速了交付，却也在疯狂透支开发者的精神和肉体。它的上瘾机制比短视频更危险——因为你在“产出”，罪恶感制动系统被完全关闭了。刷两小时短视频你会自责，用 AI 连轴转十二个小时，你会产生一种“我在超神”的幻觉。

“禅起”这个强制久坐提醒加冥想的应用，其实有一半是为了自救。

所以，如何与 AI 编程建立新的节奏，是一个尚未被深入研究的课题。这不仅仅是工作生活平衡的鸡汤，而是迫切需要建立起强制的断点和物理上的拔除。因为这一轮工具的上瘾性，比以往任何时代都猛烈得多。

最后

几周折腾下来，我最深的感触是：做事的门槛降了，但把事做好的门槛没降，反而更高了(或者目标更高了)。

代码这一层的门槛被 AI 暴力推平，但那些无法被替代的功夫——对人性的洞察、对体验的打磨、对方向的死磕、对自我节奏的掌控——被更加赤裸裸地摆在了台面上。

在这场浪潮里，兴奋与疲惫是深度捆绑的。

AI 变了，工具变了，人与代码的关系变了。

但最终，你到底想做什么、想为谁做、想活成什么样——这些底层的追问，反而比以往任何时候都更加重要。