我用 Codex 做了个自动填表脚本。把一家三口的护照信息存进 Excel,让它识别字段、填进申根签证表,几秒钟,逐项核对,0错误。
这是 AI 最擅长的事:重复的、机械的、不需要任何判断的工作。
于是我顺手让它处理签证照片——35×45mm,排版到 6 寸相纸,方便打印。
第一版,差强人意。我开始补指令:强调尺寸,分辨率,裁切。第二版,更差。继续改。它在比例、边距、像素之间反复横跳,像一个被骂懵了的人,每次修改都在重新理解这件事,而不是在上一轮的基础上往前走。
最后的结果,不如第一版。
很多人把这个体验归因于"AI 还不够好",但微软研究院和 Salesforce 去年发表的联合论文给了另一个解释:测试 15 个主流模型,同样任务单轮完成率约 90%,拆成多轮对话后平均跌到 65%。更关键的是——一旦模型在某一轮走错了方向,无论你怎么继续对话,都很难把它拉回来。
研究者给这个现象起了个名字:lost in conversation。迷失在对话里。
这就是"AI 实习生"这个比喻最大的问题。
实习生做错了,你指出来,他在原有基础上改——80分、85分、90分,线性收敛,最终停在他的能力上限。AI 不是这样工作的。你以为在给反馈,它其实在做一道越来越复杂的方程:变量越多,解越不稳定。你以为在调教它,它其实在平衡所有历史指令的综合压力,每往前一步,都在扰动之前已经稳定的部分。
你给它加一个约束,它就在别处松一颗螺丝。
这里有一个我们集体信以为真的幻觉:和 AI 交互越久,它就越懂你。这个直觉从人类协作经验里来,合情合理——但AI 没有记忆,没有情绪,也没有"吸取教训"的机制。每一轮对话,它都在重新权衡,而不是在积累。
我们把"多轮对话"体验理解成"协作关系",但它其实更像是:每次你说一句话,它就重新洗一次牌。
所以那个最常见的用法——"把任务丢给 AI,不断提出要求,直到满意"——恰恰是最低效的用法。
AI 能做的:有明确输入、固定规则、单轮可以判断完的任务。
AI 不适合的:需要在反馈中持续校准、最终对齐一个模糊目标的过程。
后者,是专业人士花了几十年才学会的东西。不是因为它难,而是因为这件事的本质不是"执行",是"判断"——而判断,是从错误里长出来的,不是从指令里读出来的。
我最后放弃了让 AI 做签证照片,自己手动做完。
让 AI 快速把你从 0 带到 80%,然后自己接手。因为最后那 20%,不是靠加一条指令解决的。
那 20%,是经验。
夜雨聆风