
原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。我的个人微信xjjdog0,欢迎添加好友,进一步交流。
怎么切苹果?
五岁的小孩就能切苹果。
用的是勺子,一勺一勺地剜,剜得满桌子都是。但他知道一件事——要把苹果吃到嘴里。
2026年,有人在教AI自动切苹果。
一刀的事,写成一本书
人切苹果,一刀下去就完事。
教 AI 切苹果,得这么说:
第0步,你得说明为啥要切苹果。第一步,把案板放正。 第二步,把苹果放到案板正中央,别滚到边上。 第三步,拿起刀子,握刀柄不握刀刃。 第四步,刀面朝苹果,刀背朝自己。 第五步,从苹果正中下刀,慢慢压下去,不要一刀劈。 第六步……
不小心把苹果放到了食槽里怎么办?那就重新切。切坏了怎么办?换个苹果。
写完这一长串,自己都想笑。
这不就是脱了裤子放屁吗?
但别笑,这就是现在很多 Agent 项目正在干的事——把一个常识动作,拆成几十步描述,再用一堆胶水把这些步骤粘起来。一个变种的、披着工程外衣的--怪胎。
切开了,事情才刚开始
按步骤切开了,事情并没有完。
苹果可能有虫眼,得告诉它:切之前看看有没有虫。 苹果可能没洗,得告诉它:切之前用水冲一下。 苹果可能有蒂,得告诉它:蒂别端到客人面前。 苹果可能太大,得告诉它:切两半之后再切四瓣,每瓣再去核。
人吃了三十年苹果,这些事儿不用想。 AI 没吃过苹果,每一条都得写进 prompt 里。
更要命的是——这些常识,列不完。如果你不列,它就觉得煮熟了可能会更好吃,再给你加一道工序。
今天教它别把虫子留在里面,明天它会把苹果蒂端上桌;后天教它把蒂丢掉,大后天它会把整个苹果都扔了,因为它觉得"丢"是一个完整动作。
问题没法穷举,没有标准答案。这就是问题。
补丁的补丁
现在做 Agent 是怎么做的?
来一个 PRD,AI 拆任务,写代码,跑测试,做 review,再复测。一条流水线,环环相扣。
每一步都有出错概率。
假设每步 95% 准确率,五步连起来:0.95^5 ≈ 77%。 十步连起来:60%。 二十步连起来:36%。
怎么办?加仲裁节点。在每一步后面挂一个 Judge,专门检查上一步对不对。
可 Judge 自己也是 AI,它也是 95%。
加一层看起来稳了,其实只是把一个 95% 的链路,变成了两个 95% 的链路串联,出错的方式变多了,复杂度上去了,准确率?该错还是错。
补丁打补丁,最后系统比业务本身复杂十倍。
某些所谓"自主 Agent"的项目,光 prompt 就十几万字,分七层 Agent 互相校验。跑一次任务烧十几刀 token,结果出来一看——还不如人写十分钟。
把锤子当万能工具的人,看什么都像钉子。把 AI 当万能工具的人,看什么都像 prompt。
人有判断,机器只有迭代
这是整件事最核心的问题。
人做事,迭代和判断是搅在一起的。
切到一半发现里面烂了,人立刻停手,扔掉,重新拿一个。
机器不行。机器按步骤走,切到烂的那一刀,它依然"完美地"切完了,把烂苹果端到面前。回头去骂它,它一脸无辜:没让我检查苹果有没有烂啊。
判断这种东西,是主观经验。
主观经验的厉害之处在于:它能一秒钟排除 100 种不可能的情况,因为人就是知道。
客观罗列的可怜之处在于:得把这 100 种情况一条一条写出来,因为没人知道 AI 的盲区在哪里。
而且——第 101 种情况一定会出现。软件开发从来不是瀑布式的过程堆叠,而是充满了无数的判断和权衡。
自动化的天花板
自动化 Agent 不是没用,但 AI 这把刀并不在开发者手里。
跑跑日志分析、改改 typo、写写原型,这些模糊的的场景,跑得欢。
可只要任务质量要求一上来,对每一步的容错率一降下来,立刻捉襟见肘。
那些演示视频里,切的永远是无虫的、无蒂的、洗干净的、放在案板正中央的、还提前削好皮的苹果。
现实世界的苹果,是带虫的、是滚的、是有蒂的、是脏的、是大小不一的,有时候拿起来才发现,它压根不是苹果——是个梨。
人吃苹果,从来不需要 PRD。
机器切苹果,光 PRD 就能写一本《本草纲目》,旁边还得围着一群靠尝识百草的华佗。
这就是自主 Agent 现在的尽头。
作者简介:小姐姐味道 (xjjdog),如有企业AI落地需求,可以咨询我。
夜雨聆风