AI 总返工,问题往往不在模型,在任务没交代清

AI 总返工，问题往往不在模型，在任务没交代清

写给正在把 AI 真正接进项目、却总被返工拖住的人。

很多返工不是代码没写出来，而是判断标准一直没写出来。

• 对象定义先写清　• 自动化边界先收住　• 验收线先落地

对象 → 边界 → 验收 → 回滚

博卡学AI

很多团队现在最贵的，不是 AI 写得慢。而是任务没交代清，后面却要靠一轮轮返工把标准补回来。我前几天就踩了一个很典型的维护型需求：给老模块补一个超时兜底和日志对齐。AI 第一版 20 分钟左右就出来了，代码能跑，单测也能过。

真正把人拖住的，不是 patch 本身，而是后面连续三次打回。第一次打回，不是逻辑写错，而是它把一个“只能补日志不能改字段”的模块顺手一起动了。

第二次打回，不是功能没做，而是它把兜底逻辑直接塞进自动重试，踩到了我们内部一直默认人工兜底的分支。

第三次最扎心。功能能跑，日志也补了，review 还是没过。理由只有一句：这个模块上线前必须保留旧告警口径，不能因为“看起来更统一”就改报警文本。那一刻我反而很确定：AI 进项目以后，最难交接的，真的不是代码。

真正难交接的，是那堆没写出来、但大家默认都知道的判断标准。

很多团队嘴上在调模型，实际在逃避“什么叫改对”

我后来回看这类返工，发现一个很尴尬的事实：

只要团队没有把“什么叫改对”显性化，AI 越能干，返工只会越快。因为它会更快地产出一版七八十分、看起来像能交付的东西。而你会更晚意识到，真正缺的不是代码，而是任务背后的判断边界。

这也是为什么很多团队会误判成模型问题。模型最容易背锅，因为代码是看得见的。标准最容易被忽略，因为它往往是口头的、历史的、默认的，甚至是“这个团队的人都懂”的。

可对 AI 来说，任何没写出来的“大家都懂”，都等于不存在。更尴尬的是，很多团队其实不是不知道标准重要。他们不是不知道标准重要。

他们只是把本该前置定义的责任，外包给了 review 和返工。任务先轻轻丢出去，等 AI 或新人做偏了，再靠老同事一句句补：“这个别动”“那个别自动推进”“这个口径不能改”。所以很多返工的真正责任，不在模型，也不在执行端。

而在负责人把本该前置定义的判断，拖到了后置纠偏。

我现在会逼自己把返工记录翻译成标准资产，而不是情绪垃圾桶

以前我记返工，更多是在记“这次又改回来了什么”。现在我不这么记了。我会直接追问：这次被打回，背后缺的到底是哪一类标准。

返工现场原话	背后真正缺的标准	下次必须写进哪里
这个字段别动，我们只是补日志	对象定义	任务说明里的“允许改动 / 禁止改动对象”
这个分支不能自动重试，必须人工兜底	自动化边界	任务说明里的“必须停下来问人”
功能能跑不等于能提测，先过旧告警口径	验收线	任务说明里的“提测前检查项”
以前这个模块因为文案改动出过告警事故	风险习惯	任务说明里的“历史坑与默认保守项”

你会发现，返工记录一旦这样翻译，它就不再只是一次“修错”。它会开始变成下一次交接的护栏。但这里还有一个常见误区：不是所有返工都值得沉淀成长期规则。

我现在只把两类返工升级成长期规则：

• 一类是会直接放大错误方向的返工，比如对象定义和自动化边界，一旦没写清，AI 越快越危险。

• 一类是历史上已经反复出过事故的返工，比如旧告警口径、默认保守项，这种不写出来，团队迟早还会再踩。

至于那种偶发的表达偏差、一次性的命名分歧，我反而不会急着升级成标准。否则团队很容易把噪音也神化成规则，最后谁都不敢动。

真正危险的，不是 AI 会犯错，而是团队一直靠返工传递标准

我现在越来越警惕一种团队状态：

任务说明永远写得很轻，review 永远写得很重。前面一句“帮我按上个模块补一下，别影响线上”就把任务丢出去了。后面却靠 review 一次次补充：

• 这个对象不能碰

• 这个分支别自动推进

• 这个日志口径不能变

• 这个检查项不通过别提测

这不是协作。这是把标准长期寄存在老同事脑子里，再靠返工一点点往外拷。这是在拿返工当知识库。

而 AI 一进来，这件事会被放大得非常明显。因为 AI 不会像老同事一样，替你脑补“你真正的意思”。

我现在先看标准，再决定要不要让 AI 动手

以前我遇到返工，会本能地去调 prompt。现在我先看标准。只要下面四件事里有两件还没写出来，我就不会让 AI 直接开工：

• 改动对象没定义清楚

• 禁止触碰的边界没写出来

• 验收线还停留在“别出问题”

• 历史坑和默认保守项没有留痕

这不是保守。这是在避免一件更贵的事：让 AI 带着模糊标准快速冲进错误方向。很多人以为“先让 AI 干起来，再慢慢修”很灵活。

但在老系统和维护型需求里，这往往是最贵的路径。因为你后面修的不是代码，是团队没说清楚的话。我现在的门槛更明确一点：

• 只要改动对象没写清，不能直接让 AI 改代码。

• 只要自动化边界没写清，不能让 AI 决定是否自动推进。

• 只要验收线还停留在“别出问题”，不能让 AI 产出直接进入提测链路。

但如果只是低风险整理工作，比如先归类日志、先整理现有分支差异、先汇总历史坑，我反而会先让 AI 做。因为那类动作的价值在于帮我把模糊区域照亮，而不是替我拍最终判断。

真正该停住的一刀，不是“AI 能不能做”，而是“这件事到底有没有被定义到足够让人判断”。

如果你只打算今天补一件事，就把返工记录改写成这张标准卡

下面这张卡，是我现在最常复用的版本。它不是写给 AI 一个人看的，是写给任何接手这件事的人看的。

模块	要写到什么程度	没写清前是否允许 AI 开工
改动对象	哪些文件、字段、接口能动，哪些不能碰	否
自动化边界	哪些情况可以直接推进，哪些必须停下来问人	否
验收线	通过的定义、提测前检查项、必须保留的旧行为	否
风险习惯	历史坑、默认保守项、不能“顺手优化”的地方	否
回滚条件	出现什么现象必须回退到人工处理	是，但要先写

这张卡不会神奇地把 AI 变成完美同事。但它会先挡掉最伤人的低级返工。而这恰恰是工程负责人最该优先买回来的时间。

真正贵的，从来不是多花 10 分钟把标准写出来。真正贵的，是把这 10 分钟省掉以后，让 AI、同事和 review 在后面用几轮返工替你补回来。

最后

如果你最近也在经历那种“AI 明明写出来了，但就是交不上去”的挫败感，先别急着继续换模型。先回头看一眼，你们是不是一直在用返工记录偷偷传递判断标准。我把自己现在在用的《AI 任务返工标准卡》整理成了可直接复用的版本。

如果你想拿去改自己的任务说明书，回复关键词：`返工`。你也可以在评论区留一句：你们团队里，最常见却最少被写出来的判断标准，到底是哪一类？我是博卡，15年工程经验。正在记录一个工程人怎么用AI工具重构自己的工作流。