AI 写代码总返工?Claude Code 团队 10 条官方建议:把检查点上移一层

AI 写完代码提交合并时，盯着几百行的 diff 来看，估计一会儿眼睛就受不了。可是又不敢不看——生怕漏检查哪里，回头又是一轮返工。

Claude Code 团队的工程师最近说了句挺反常识的话：这个动作，从一开始就放错了位置。

不是你看得不够仔细。是检查点，放错了层。

一、十条建议，其实是一张新的分工表

6 月 9 日，Anthropic 发了 Claude Fable 5。同一天，Claude Code 团队的工程师 Thariq Shihipar 就在 X 上甩出了 10 条针对新模型的工作流建议。后来被 48 万粉的大 V Rohan Paul 一转，直接刷屏了。（Thariq 的原帖访问受限，下面内容是综合转述帖和几个聚合页交叉还原的，已经尽量滤掉了转述里的噪声。）

大多数人看完，就当 10 个并列的技巧，收藏，关掉。

但你要是换个分法，按「这件事到底归人，还是归 AI」重新分组，会发现它根本不是技巧清单，而是一张分工表。

总纲（第 1 条）：把检查方式从「做没做对」换成「在不在做正确的事」。

这两个有什么区别？打个比方，你带一个能力很强的新人：你不会逐行 review 他每次提交，但方案评审你一定会参加。这一条其实是给你换岗——从质检员变成定方向的人。后面九条，全是换岗后的操作手册。

人的活，全在结构层（第 2 到 6 条）：

• 提前把完整的业务背景给够，别一上来就钻实现细节
• 从一份小 spec 起步，让 AI 反过来访谈你，把歧义和风险一次性问完
• 让它先出几版不同方向的快速 HTML mockup，写代码之前就把方向对齐
• 给业务背景（比如「这是个下个月就下线的临时功能」），别给死约束（比如「函数不许超过 50 行」）
• 方向定了，再给清晰的目标和验收方法

AI 的活，全在执行层（第 7 到 10 条）：

• 用 /goal 命令，让它一直干到目标达成
• 用 Workflows 并行执行、自我验证
• 把前面两步拼成一句咒语：「设一个目标完整实现这份 spec，然后用一个 workflow 验证每个部分」
• 敢于给大任务，把 Fable 5 当成一个能完成以前不可能任务的模型

你发现没有，人的那五条，没有一条发生在代码层。上下文、spec、mockup、业务边界、验收标准，全是「写代码之前」的事。

这就是检查点搬家：你的精力，从「事后趴在 diff 上」，整体挪到「事前把结构定清楚」。

为什么偏偏是现在搬？得看一个时间上的巧合。

十条发布的同一天，Fable 5 在一个叫 FrontierCode 的新基准上拿到了 29.3%。这个榜由 20 多位顶级开源项目的维护者亲手出题，评分标准只有一句话：「这个 PR，我愿不愿意合并。」

一天前，这个榜的最高分还是 Opus 4.8 的 13.4%。一天之间，翻倍。（这两个数字都是该榜最难子集的口径，而且基准才发布两天，建议当「方向参考」，别当精确事实记。）

翻倍说明什么？说明模型第一次让「放手让它跑完」的期望收益，压过了「每一步都盯着」的安全收益。检查点搬家这件事，才从一种理想主义，变成了性价比上的最优解。

再往前翻，这也不是孤例。

Thariq 今年 3 月发过 Skills 使用九条，4 月发 Session 管理六条（讲 context rot、讲 /rewind），5 月写《HTML is the new markdown》主张用 HTML 写 spec，6 月就是这十条。每一篇，都绑着一个新功能。

串起来看是一条很清楚的轨迹：官方教你检查的位置，从代码行，到上下文，再到 spec 和目标，一路往上搬。

二、这套打法你可能眼熟：先列结构，再执行

把十条压扁了看，它跟我之前用 AI 给孩子做科普绘本时踩出来的方法，是同一个路子。

当时的教训很惨：直接跟 AI 说「画一张地球剖面图」，必翻车。因为你逼着它一个人同时扛两件事，既要「想清楚该画哪些结构」，又要「画得好看」，结果两头都塌。

后来我把它拆成两步。

第一步，只让它动脑：先别画，列一份结构清单，该有哪些要素、配什么短标签、要避开哪些常见错误。

第二步，才让它动手：严格照着清单渲染，只管版式和配色。

最值钱的发现不是这个拆法本身，而是拆完之后才看清的一点：表现层那段提示词，成了一个万能模板，换任何主题都一个字不用改。第一步天天换，第二步永远不变。

Thariq 这十条，就是这个两步法放大到整个工程协作的版本。逐项都能对上号：

绘本两步法	Thariq 十条
结构层：先列要素清单	spec 访谈、业务上下文、目标与验收（第 2 到 6 条）
表现层：照固定模板渲染	`/goal` + workflow 的执行与自验（第 7 到 9 条）
第一步换主题	每个任务换一份 spec
第二步永不变	执行框架（设目标，跑 workflow，自验证）固定复用

共同的母模式，就一句话：结构与执行，分家。

人占住结构层，管业务语义、价值判断、验收标准，这恰恰是 AI 最难替代的那一块。AI 占住执行层，管实现、自测、修复，这恰恰是它一天比一天强的那一块。

更有意思的是这条分界线的移动轨迹。

2025 年，官方最佳实践还在教「怎么让它把活干对」，那会儿人还在执行层里陪着跑。2026 上半年，变成教「怎么管理它的注意力」，人退到了上下文层。Fable 5 之后，教「怎么管理它的方向」，人又退到了目标层。

模型每强一代，人就往上退一格。但「结构与执行分离」这条原则，一次都没变过。

所以别死记那十条。十条只是当前这代模型能力下切出来的一个截面，半年后姿势大概率会换。原则才是那个不动点。学会原则，姿势自己会长出来。

三、能直接抄的，和先别全信的

光讲道理没用，给你能上手的。

先说两段可以原样抄走的。

spec 访谈开场白（对应第 3 条）。现在每个不那么琐碎的任务，我都用它开场：

这是背景和一份粗略的 spec。先别写代码，先访谈我：把你觉得有歧义、有风险、需要我拍板的问题，一次性列出来问完。

组合咒语（第 9 条原话）：

设一个目标完整实现这份 spec，然后用一个 workflow 验证每个部分。

前提是你的版本够新：/goal 命令 5 月 12 日随 v2.1.139 上线，Workflows 5 月 28 日随 Opus 4.8 上线。老版本没这两个开关，咒语念了也不灵。

**再说三处，先别全信。**这是调研时交叉验证抠出来的边界。

第一，官方自己留了余地：能用一句话说清的改动，跳过 plan，直接干。别把十条理解成「凡事先开个会」。小任务硬走一遍 spec 访谈，那点固定开销反而亏。这也是社区对 plan-first 打法吐槽最集中的地方，就一个字：贵。

第二，十条是按理想环境写的：干净的仓库、管够的预算。可现实里那种祖传大仓库，业务逻辑长在几个老员工的脑子里，你让 AI 来访谈你，很多问题你自己都答不上来。「方向对不对」这个判断，到头来还是结结实实落回人身上，而这恰恰是最难的部分，十条没替你解决。

第三，29.3% 的另一面，是七成的产出仍然到不了「可合并」那条线。检查点上移，不等于不检查。关键路径上的 diff，该抽查还得抽查，只是别再把「逐行看」当成唯一的、默认的检查方式。

Thariq 这十条最大的价值，其实不是教你十个动作。是它低头承认了一件事：模型再强，「什么值得做、做到什么程度才算好」，依然是人的活。

结构层，暂时还是我们的。能守多久，看下一代模型。