很多团队现在最贵的,不是 AI 写得慢。而是任务没交代清,后面却要靠一轮轮返工把标准补回来。我前几天就踩了一个很典型的维护型需求:给老模块补一个超时兜底和日志对齐。AI 第一版 20 分钟左右就出来了,代码能跑,单测也能过。
真正把人拖住的,不是 patch 本身,而是后面连续三次打回。第一次打回,不是逻辑写错,而是它把一个“只能补日志不能改字段”的模块顺手一起动了。
第二次打回,不是功能没做,而是它把兜底逻辑直接塞进自动重试,踩到了我们内部一直默认人工兜底的分支。
第三次最扎心。功能能跑,日志也补了,review 还是没过。理由只有一句:这个模块上线前必须保留旧告警口径,不能因为“看起来更统一”就改报警文本。那一刻我反而很确定:AI 进项目以后,最难交接的,真的不是代码。
真正难交接的,是那堆没写出来、但大家默认都知道的判断标准。

很多团队嘴上在调模型,实际在逃避“什么叫改对”
我后来回看这类返工,发现一个很尴尬的事实:
只要团队没有把“什么叫改对”显性化,AI 越能干,返工只会越快。因为它会更快地产出一版七八十分、看起来像能交付的东西。而你会更晚意识到,真正缺的不是代码,而是任务背后的判断边界。
这也是为什么很多团队会误判成模型问题。模型最容易背锅,因为代码是看得见的。标准最容易被忽略,因为它往往是口头的、历史的、默认的,甚至是“这个团队的人都懂”的。
可对 AI 来说,任何没写出来的“大家都懂”,都等于不存在。更尴尬的是,很多团队其实不是不知道标准重要。他们不是不知道标准重要。
他们只是把本该前置定义的责任,外包给了 review 和返工。任务先轻轻丢出去,等 AI 或新人做偏了,再靠老同事一句句补:“这个别动”“那个别自动推进”“这个口径不能改”。所以很多返工的真正责任,不在模型,也不在执行端。
而在负责人把本该前置定义的判断,拖到了后置纠偏。
我现在会逼自己把返工记录翻译成标准资产,而不是情绪垃圾桶

以前我记返工,更多是在记“这次又改回来了什么”。现在我不这么记了。我会直接追问:这次被打回,背后缺的到底是哪一类标准。
你会发现,返工记录一旦这样翻译,它就不再只是一次“修错”。它会开始变成下一次交接的护栏。但这里还有一个常见误区:不是所有返工都值得沉淀成长期规则。
我现在只把两类返工升级成长期规则:
• 一类是会直接放大错误方向的返工,比如对象定义和自动化边界,一旦没写清,AI 越快越危险。
• 一类是历史上已经反复出过事故的返工,比如旧告警口径、默认保守项,这种不写出来,团队迟早还会再踩。
至于那种偶发的表达偏差、一次性的命名分歧,我反而不会急着升级成标准。否则团队很容易把噪音也神化成规则,最后谁都不敢动。
真正危险的,不是 AI 会犯错,而是团队一直靠返工传递标准
我现在越来越警惕一种团队状态:
任务说明永远写得很轻,review 永远写得很重。前面一句“帮我按上个模块补一下,别影响线上”就把任务丢出去了。后面却靠 review 一次次补充:
• 这个对象不能碰
• 这个分支别自动推进
• 这个日志口径不能变
• 这个检查项不通过别提测
这不是协作。这是把标准长期寄存在老同事脑子里,再靠返工一点点往外拷。这是在拿返工当知识库。
而 AI 一进来,这件事会被放大得非常明显。因为 AI 不会像老同事一样,替你脑补“你真正的意思”。
我现在先看标准,再决定要不要让 AI 动手
以前我遇到返工,会本能地去调 prompt。现在我先看标准。只要下面四件事里有两件还没写出来,我就不会让 AI 直接开工:
• 改动对象没定义清楚
• 禁止触碰的边界没写出来
• 验收线还停留在“别出问题”
• 历史坑和默认保守项没有留痕
这不是保守。这是在避免一件更贵的事:让 AI 带着模糊标准快速冲进错误方向。很多人以为“先让 AI 干起来,再慢慢修”很灵活。
但在老系统和维护型需求里,这往往是最贵的路径。因为你后面修的不是代码,是团队没说清楚的话。我现在的门槛更明确一点:
• 只要改动对象没写清,不能直接让 AI 改代码。
• 只要自动化边界没写清,不能让 AI 决定是否自动推进。
• 只要验收线还停留在“别出问题”,不能让 AI 产出直接进入提测链路。
但如果只是低风险整理工作,比如先归类日志、先整理现有分支差异、先汇总历史坑,我反而会先让 AI 做。因为那类动作的价值在于帮我把模糊区域照亮,而不是替我拍最终判断。
真正该停住的一刀,不是“AI 能不能做”,而是“这件事到底有没有被定义到足够让人判断”。
如果你只打算今天补一件事,就把返工记录改写成这张标准卡
下面这张卡,是我现在最常复用的版本。它不是写给 AI 一个人看的,是写给任何接手这件事的人看的。
这张卡不会神奇地把 AI 变成完美同事。但它会先挡掉最伤人的低级返工。而这恰恰是工程负责人最该优先买回来的时间。
真正贵的,从来不是多花 10 分钟把标准写出来。真正贵的,是把这 10 分钟省掉以后,让 AI、同事和 review 在后面用几轮返工替你补回来。

最后
如果你最近也在经历那种“AI 明明写出来了,但就是交不上去”的挫败感,先别急着继续换模型。先回头看一眼,你们是不是一直在用返工记录偷偷传递判断标准。我把自己现在在用的《AI 任务返工标准卡》整理成了可直接复用的版本。
如果你想拿去改自己的任务说明书,回复关键词:`返工`。你也可以在评论区留一句:你们团队里,最常见却最少被写出来的判断标准,到底是哪一类?我是博卡,15年工程经验。正在记录一个工程人怎么用AI工具重构自己的工作流。
夜雨聆风