斯坦福大学现代软件开发课程Week 4(上):从写代码到管 Agent

跟着斯坦福 CS146S 学 AI Agent 开发，Week 4 的主题是 Coding Agent Patterns——从写代码到管理写代码的 Agent。客座嘉宾 Claude Code 创造者 Boris Cherney。3 个实操框架 + Anthropic 内部 10 个团队真实数据 + Claude Code 引擎盖下的秘密。

上周解决了"为什么 AI 越聊越蠢"——上下文工程。具体见AI搭档实操系列第12篇：我把 36 个 AI 工具砍到 5 个——装得越多它越蠢，是时候给 AI 做减法了

这周的问题更往前一步：上下文管好了，Agent 能自己干活了——那你该怎么管它？——全放手？它会在复杂任务上跑偏。全盯着？那你还不如自己干。

Week 4 教的就是怎么在这两端之间找到平衡点。客座嘉宾是 Boris Cherney——Claude Code 的创造者。

01丨从 Week 3 到 Week 4：一句话的升级

Week 3 结尾的核心结论：

你给 AI 看到什么信息，决定了它做事质量的天花板。

Week 4 把这句话往前推了一步：信息给对了之后，你还需要根据任务类型动态调整 Agent 的自治程度。

四周的逻辑链条：

• Week 1：教 AI 怎么说话（Prompt Engineering），见：斯坦福大学现代软件开发课程Week 1：6 种 Prompt Engineering 核心技术学习分享

• Week 2：给 AI 装上手和脚（Agent + MCP），见：斯坦福大学现代软件开发课程Week 2：拆开一个 AI Agent，看看里面到底有什么

• Week 3：决定 AI 看到什么信息，因为能写清楚意图的人，会比以往任何时代都值钱，见：斯坦福大学现代软件开发课程Week 3：AI 编程时代的需求文档升级指南：从 PRD 到 Spec

• Week 4：管理 Agent 的自治度和协作模式（Coding Agent Patterns）

课程里的原话：写代码是一种技能。管理写代码的 Agent，是另一种完全不同的技能。

02丨Agent Manager——一个全新的职业角色

课程提出了一个新角色定义：Agent Manager = 不直接写代码，而是指挥 AI Agent 写代码的人。需要同时具备三种能力：

能力	说明	缺了会怎样
技术判断力	能评估 AI 产出的质量，知道什么过关什么不过关	接受了有缺陷的输出而不自知
任务分解力	能把复杂需求拆成 AI 可独立完成的子任务	把太大的任务一股脑丢给 AI，质量骤降
沟通精确度	用最少的信息传达最准确的意图	AI 猜不透你要什么，反复纠正浪费时间

你可以试着给自己打个分。我的自评：技术判断力（业务层面）还行，任务分解力不错，但沟通精确度拖后腿——平均要3 轮左右纠偏才能让 AI 交出满意的结果。

后来仔细想，3轮纠偏的根因不是"说得不好"，是"没给够上下文"。

这里有一个认知转变：你可能觉得自己在"用工具"，但如果你已经在给 AI 写规则、记教训、要求它先报告再执行——你做的这些事，已经是管理行为。

03丨自治光谱——不同任务给不同自治度

AI Agent 不是全自动/全手动二选一，而是一个连续光谱。核心技能是根据任务类型动态调整自治度。

课程里有个练习，你也可以试试——把下面 5 个任务按"需要盯多紧"排序：

A. 查一个字段的含义

B. 写周报

C. 写一份完整的方案文档

D. 改文档格式

E. 分析某个指标突增的原因

我排的是 A → D → B → E → C。映射到自治光谱：

任务	自治度	怎么管
查字段含义	低	说一句话就行
改文档格式	低	结果对错一眼看出
写周报	中	给素材 + 看初稿 + 调措辞
分析指标突增	中偏高	每步可能走偏，需要检查点
写完整方案	高	分阶段确认，不可能一步到位

关键洞察："自治度越高"不是"管得越少"——恰恰相反。

任务越复杂、影响范围越大、不确定性越高，你越需要设检查点。课程给了一个五维判断框架来校准自治度：

维度	放手的信号	介入的信号
影响范围	单文件/单任务	跨多个系统
可逆性	容易回滚	难以撤销
安全性	内部逻辑	涉及敏感数据
确定性	有明确标准答案	需要主观判断
先例	有类似成功案例	全新场景

以"写完整方案"为例：影响范围大 + 不可逆 + 无标准答案 + 开放性强 = 高自治度任务，必须分阶段管控。

这和管理真人的逻辑一模一样——越资深的员工你越"放手"，但越重要的项目你越"盯紧"。两者不矛盾。

核心心态转变：不要指望 Agent 一次完美完成复杂任务。把复杂任务拆成多个中等任务，分阶段推进，每阶段有明确的验收标准。

04丨Anthropic 的 5 大最佳实践

Anthropic 内部验证过 5 个协作模式（Pattern），我做了一次逐项体检：

Pattern	做法	我的体检结果
Plan First	先让 AI 列计划再执行	最大提升点
CLAUDE.md	用项目规则文件建标准	已有三层规则体系 ✓
反馈循环	让 AI 看到自己的工作结果	手动记经验，需升级为自带验证
分而治之	小步快跑，每步验证	会拆，但检查点不够显式
保持聚焦	一个对话做一件事	已有方法论 ✓

如果只改一个习惯，改 Plan First。

对比一下：

❌ "帮我分析某指标数据的突增原因"

✅ "我想分析 3 月某指标数据突增的原因。先列一个分析计划——你打算分几步做、每步用什么数据、预期产出是什么。计划给我看，确认后再执行。"

多 30 个字，省掉后面 3 轮纠偏。Plan First 不是"多加一个步骤"，是把纠错从下游移到上游。

逐个展开：

Pattern 1：Plan First——先规划，再编码。先拿到计划 → 审查可行性 → 再按计划执行。比让 Agent 猛冲一波发现方向错了高效 10 倍。

Pattern 2：CLAUDE.md——项目级"员工手册"。至少包含：项目概述、编码标准、常用命令、文件结构、"不要做"清单。写一次，每次对话自动生效。ROI 极高。

Pattern 3：反馈循环——让 Agent 能自我纠正。让 Agent 看到测试结果、Lint 输出、构建日志。它可以根据反馈自我纠正，减少人工干预。

Pattern 4：分而治之——小步快跑，每步验证。

❌ "把整个前端从 Vue 2 迁移到 Vue 3"

✅ "先迁移 Button.vue，用 Composition API 重写，保持 props 不变。完成后跑 npm test -- --grep Button 确认通过。"

Pattern 5：保持聚焦——一个对话一件事。上下文太长或跑题时，开新会话。

05丨Anthropic 内部案例：从"做事更快"到"获得新能力"

课程素材包含一份 Anthropic 内部文档《How Anthropic Uses Claude Code》，记录了 10 个团队的一手使用案例。挑三个最有冲击力的：

财务团队——零代码经验驱动自动化

零编码经验的财务人员，用自然语言描述"查仪表盘 → 跑查询 → 产出 Excel"的工作流，Claude Code 自动执行全流程。他们不是"写代码更快"了，是"从不会写代码到能用自然语言驱动代码"。

团队 Tips：写详细的 CLAUDE.md——文档质量直接决定 Agent 表现。用 MCP servers 而非 CLI 访问敏感数据——更好的安全控制。

增长营销团队——一个人变成"一个人的军团"

• 广告文案创作：2 小时 → 15 分钟

• 创意产出：10 倍增长

• 一个人做了原来需要专门工程资源的事

方法：先在对话中充分规划 → 让 AI 总结成结构化指令 → 开新会话用干净上下文执行。规划和执行分两个阶段，中间有一次人工审核。

产品设计团队——设计师变成"半个开发者"

• 执行速度：2-3 倍

• 协调周期：从一周缩短到两个 30 分钟通话

设计师直接用 Claude Code 实现前端修改，不再走"Figma → 设计文档 → 反复对焦 → 工程师实现"的流程。关键细节：她在配置文件里写了一句身份声明——"我是设计师，不是工程师，需要详细解释和小步增量变更。"

Anthropic 内部的总结：

开发者得到的是"增强型工作流"——做事更快。非技术人员得到的是"天哪我变成开发者了"——获得了之前完全不可能的能力。

学完这几个案例我有一个反思。课程问我：你用 AI 是效率提升（量变）还是获得了新能力（质变）？我当时说偏量变。但仔细一想——在有 AI 之前，我做不到自己写 Python 分析数据、搭 MCP 服务器、写推送脚本把文章直接发到公众号草稿箱。这些不是"做得更快"，是"从做不了到做得了"。这其实就是获得了新能力（质变）。

指挥 AI 完成的产出，就是你的能力。就像管理者不会说"公司业绩好是员工的功劳跟我没关系"一样。

06丨Claude Code 引擎盖下的秘密

这部分来源于 OutSight AI 通过 LiteLLM 代理拦截 Claude Code API 调用的逆向工程分析。

核心发现：Claude Code 用的模型跟你在网页上聊天用的是同一个。没有什么"特殊版本"。但为什么它更强？是因为一套精心设计的 prompt 脚手架 + 安全护栏 + 持续提醒的组合。

最有趣的发现：Anthropic 在整个管道的每个环节都插入了 <system-reminder> 标签——系统提示中、用户消息中、工具调用结果中、甚至 ls 命令返回值后面都会附一句提醒：

"TodoWrite 工具最近没有被使用。如果你正在做的任务需要追踪进度，考虑使用 TodoWrite。"

即使最聪明的模型，随着上下文变长也会"走神"。解决方案不是写一次完美的 system prompt，而是在整个过程中持续给小提醒。

一句话总结：tiny reminders, at the right time, change agent behavior.（在正确的时间给小提醒，改变 Agent 行为。）

同一个厨师，在乱糟糟的厨房和井井有条的厨房里，出品天差地别。你觉得 AI 聪不聪明，很大程度取决于你给它搭了什么样的脚手架。

07丨技术升级全景

周次	主题	核心概念	一句话
Week 1	Prompt Engineering	6 种核心技术	教 AI 怎么说话
Week 2	Agent + MCP	Agent Loop + 工具协议	给 AI 装上手和脚
Week 3	Context Engineering	上下文管理 5 维度	决定 AI 看到什么
Week 4	Coding Agent Patterns	Agent Manager + 自治光谱 + 5 大 Pattern	管理 Agent 的自治度

四周走下来，一条清晰的进化路径：

怎么说话 → 怎么做事 → 看到什么 → 怎么管人

Week 1-3 教的是"怎么让 AI 更强"。Week 4 换了一个视角：怎么让你自己成为更好的 Agent Manager。

课程里有一句话印象很深：

Ask not what the model can do for you.— ask what you can do for the model.

不是问"AI 能为我做什么"，而是问"我给 AI 提供了成功所需的条件吗"。差距不在模型能力，在你给的条件。

08丨下篇预告

Week 4 内容很厚——Boris Cherney 的 49 页 Slides 还有大量没展开。下篇会覆盖：

• Boris 的 Terminal-First 设计哲学——为什么 Claude Code 跑在终端而不是 IDE

• 四种工作流编排模式：探索→规划→执行 / TDD / 视觉驱动 / 快速原型

• Hooks 概念——从"建议性规则"到"确定性保障"

• Claude Code 的五种形态：Terminal / IDE / Web / GitHub App / SDK

• Boris 的四条 Lessons Learned

下篇见。

附：Week 4 阅读材料

必读（本文深度拆解的三篇）：

1. How Anthropic Uses Claude Code — Anthropic 官方 PDF10 个内部团队的一手实战案例。https://www-cdn.anthropic.com/58284b19e702b49db9302d5b6f135ad8871e7658.pdf

2. Claude Code Best Practices — Anthropic 工程博客官方最佳实践系统文档。https://www.anthropic.com/engineering/claude-code-best-practices

3. Peeking Under the Hood of Claude Code — OutSight AI / Medium通过 LiteLLM 代理逆向工程 Claude Code 内部机制。https://medium.com/@outsightai/peeking-under-the-hood-of-claude-code-70f5a94a9a62