教 AI 切苹果!

原创：小姐姐味道（微信公众号ID：xjjdog），欢迎分享，转载请保留出处。我的个人微信xjjdog0，欢迎添加好友，进一步交流。

怎么切苹果？

五岁的小孩就能切苹果。

用的是勺子，一勺一勺地剜，剜得满桌子都是。但他知道一件事——要把苹果吃到嘴里。

2026年，有人在教AI自动切苹果。

一刀的事，写成一本书

人切苹果，一刀下去就完事。

教 AI 切苹果，得这么说：

第0步，你得说明为啥要切苹果。第一步，把案板放正。第二步，把苹果放到案板正中央，别滚到边上。第三步，拿起刀子，握刀柄不握刀刃。第四步，刀面朝苹果，刀背朝自己。第五步，从苹果正中下刀，慢慢压下去，不要一刀劈。第六步……

不小心把苹果放到了食槽里怎么办？那就重新切。切坏了怎么办？换个苹果。

写完这一长串，自己都想笑。

这不就是脱了裤子放屁吗？

但别笑，这就是现在很多 Agent 项目正在干的事——把一个常识动作，拆成几十步描述，再用一堆胶水把这些步骤粘起来。一个变种的、披着工程外衣的--怪胎。

切开了，事情才刚开始

按步骤切开了，事情并没有完。

苹果可能有虫眼，得告诉它：切之前看看有没有虫。苹果可能没洗，得告诉它：切之前用水冲一下。苹果可能有蒂，得告诉它：蒂别端到客人面前。苹果可能太大，得告诉它：切两半之后再切四瓣，每瓣再去核。

人吃了三十年苹果，这些事儿不用想。 AI 没吃过苹果，每一条都得写进 prompt 里。

更要命的是——这些常识，列不完。如果你不列，它就觉得煮熟了可能会更好吃，再给你加一道工序。

今天教它别把虫子留在里面，明天它会把苹果蒂端上桌；后天教它把蒂丢掉，大后天它会把整个苹果都扔了，因为它觉得"丢"是一个完整动作。

问题没法穷举，没有标准答案。这就是问题。

补丁的补丁

现在做 Agent 是怎么做的？

来一个 PRD，AI 拆任务，写代码，跑测试，做 review，再复测。一条流水线，环环相扣。

每一步都有出错概率。

假设每步 95% 准确率，五步连起来：0.95^5 ≈ 77%。十步连起来：60%。二十步连起来：36%。

怎么办？加仲裁节点。在每一步后面挂一个 Judge，专门检查上一步对不对。

可 Judge 自己也是 AI，它也是 95%。

加一层看起来稳了，其实只是把一个 95% 的链路，变成了两个 95% 的链路串联，出错的方式变多了，复杂度上去了，准确率？该错还是错。

补丁打补丁，最后系统比业务本身复杂十倍。

某些所谓"自主 Agent"的项目，光 prompt 就十几万字，分七层 Agent 互相校验。跑一次任务烧十几刀 token，结果出来一看——还不如人写十分钟。

把锤子当万能工具的人，看什么都像钉子。把 AI 当万能工具的人，看什么都像 prompt。

人有判断，机器只有迭代

这是整件事最核心的问题。

人做事，迭代和判断是搅在一起的。

切到一半发现里面烂了，人立刻停手，扔掉，重新拿一个。

机器不行。机器按步骤走，切到烂的那一刀，它依然"完美地"切完了，把烂苹果端到面前。回头去骂它，它一脸无辜：没让我检查苹果有没有烂啊。

判断这种东西，是主观经验。

主观经验的厉害之处在于：它能一秒钟排除 100 种不可能的情况，因为人就是知道。

客观罗列的可怜之处在于：得把这 100 种情况一条一条写出来，因为没人知道 AI 的盲区在哪里。

而且——第 101 种情况一定会出现。软件开发从来不是瀑布式的过程堆叠，而是充满了无数的判断和权衡。

自动化的天花板

自动化 Agent 不是没用，但 AI 这把刀并不在开发者手里。

跑跑日志分析、改改 typo、写写原型，这些模糊的的场景，跑得欢。

可只要任务质量要求一上来，对每一步的容错率一降下来，立刻捉襟见肘。

那些演示视频里，切的永远是无虫的、无蒂的、洗干净的、放在案板正中央的、还提前削好皮的苹果。

现实世界的苹果，是带虫的、是滚的、是有蒂的、是脏的、是大小不一的，有时候拿起来才发现，它压根不是苹果——是个梨。

人吃苹果，从来不需要 PRD。

机器切苹果，光 PRD 就能写一本《本草纲目》，旁边还得围着一群靠尝识百草的华佗。

这就是自主 Agent 现在的尽头。

作者简介：小姐姐味道 (xjjdog)，如有企业AI落地需求，可以咨询我。

无所不能的人，怎么就一事无成！

巴菲特，被炼化成了Skills

为AI进化铺路，Infra核心3件事

最顶级的Harness，是没有Harness!

羊死了！