跟着斯坦福 CS146S 学 AI Agent 开发,Week 4 的主题是 Coding Agent Patterns——从写代码到管理写代码的 Agent。客座嘉宾 Claude Code 创造者 Boris Cherney。3 个实操框架 + Anthropic 内部 10 个团队真实数据 + Claude Code 引擎盖下的秘密。
上周解决了"为什么 AI 越聊越蠢"——上下文工程。具体见AI搭档实操系列第12篇:我把 36 个 AI 工具砍到 5 个——装得越多它越蠢,是时候给 AI 做减法了
这周的问题更往前一步:上下文管好了,Agent 能自己干活了——那你该怎么管它?——全放手?它会在复杂任务上跑偏。全盯着?那你还不如自己干。
Week 4 教的就是怎么在这两端之间找到平衡点。客座嘉宾是 Boris Cherney——Claude Code 的创造者。
01丨从 Week 3 到 Week 4:一句话的升级
Week 3 结尾的核心结论:
你给 AI 看到什么信息,决定了它做事质量的天花板。
Week 4 把这句话往前推了一步:信息给对了之后,你还需要根据任务类型动态调整 Agent 的自治程度。
四周的逻辑链条:
• Week 1:教 AI 怎么说话(Prompt Engineering),见:斯坦福大学现代软件开发课程Week 1:6 种 Prompt Engineering 核心技术学习分享
• Week 2:给 AI 装上手和脚(Agent + MCP),见:斯坦福大学现代软件开发课程Week 2:拆开一个 AI Agent,看看里面到底有什么
• Week 3:决定 AI 看到什么信息,因为能写清楚意图的人,会比以往任何时代都值钱,见:斯坦福大学现代软件开发课程Week 3:AI 编程时代的需求文档升级指南:从 PRD 到 Spec
• Week 4:管理 Agent 的自治度和协作模式(Coding Agent Patterns)
课程里的原话:写代码是一种技能。管理写代码的 Agent,是另一种完全不同的技能。
02丨Agent Manager——一个全新的职业角色
课程提出了一个新角色定义:Agent Manager = 不直接写代码,而是指挥 AI Agent 写代码的人。需要同时具备三种能力:
你可以试着给自己打个分。我的自评:技术判断力(业务层面)还行,任务分解力不错,但沟通精确度拖后腿——平均要3 轮左右纠偏才能让 AI 交出满意的结果。
后来仔细想,3轮纠偏的根因不是"说得不好",是"没给够上下文"。
这里有一个认知转变:你可能觉得自己在"用工具",但如果你已经在给 AI 写规则、记教训、要求它先报告再执行——你做的这些事,已经是管理行为。
03丨自治光谱——不同任务给不同自治度
AI Agent 不是全自动/全手动二选一,而是一个连续光谱。核心技能是根据任务类型动态调整自治度。
课程里有个练习,你也可以试试——把下面 5 个任务按"需要盯多紧"排序:
A. 查一个字段的含义
B. 写周报
C. 写一份完整的方案文档
D. 改文档格式
E. 分析某个指标突增的原因
我排的是 A → D → B → E → C。映射到自治光谱:
关键洞察:"自治度越高"不是"管得越少"——恰恰相反。
任务越复杂、影响范围越大、不确定性越高,你越需要设检查点。课程给了一个五维判断框架来校准自治度:
以"写完整方案"为例:影响范围大 + 不可逆 + 无标准答案 + 开放性强 = 高自治度任务,必须分阶段管控。
这和管理真人的逻辑一模一样——越资深的员工你越"放手",但越重要的项目你越"盯紧"。两者不矛盾。
核心心态转变:不要指望 Agent 一次完美完成复杂任务。把复杂任务拆成多个中等任务,分阶段推进,每阶段有明确的验收标准。
04丨Anthropic 的 5 大最佳实践
Anthropic 内部验证过 5 个协作模式(Pattern),我做了一次逐项体检:
如果只改一个习惯,改 Plan First。
对比一下:
❌ "帮我分析某指标数据的突增原因"
✅ "我想分析 3 月某指标数据突增的原因。先列一个分析计划——你打算分几步做、每步用什么数据、预期产出是什么。计划给我看,确认后再执行。"
多 30 个字,省掉后面 3 轮纠偏。Plan First 不是"多加一个步骤",是把纠错从下游移到上游。
逐个展开:
Pattern 1:Plan First——先规划,再编码。先拿到计划 → 审查可行性 → 再按计划执行。比让 Agent 猛冲一波发现方向错了高效 10 倍。
Pattern 2:CLAUDE.md——项目级"员工手册"。至少包含:项目概述、编码标准、常用命令、文件结构、"不要做"清单。写一次,每次对话自动生效。ROI 极高。
Pattern 3:反馈循环——让 Agent 能自我纠正。让 Agent 看到测试结果、Lint 输出、构建日志。它可以根据反馈自我纠正,减少人工干预。
Pattern 4:分而治之——小步快跑,每步验证。
❌ "把整个前端从 Vue 2 迁移到 Vue 3"
✅ "先迁移 Button.vue,用 Composition API 重写,保持 props 不变。完成后跑 npm test -- --grep Button 确认通过。"
Pattern 5:保持聚焦——一个对话一件事。上下文太长或跑题时,开新会话。
05丨Anthropic 内部案例:从"做事更快"到"获得新能力"
课程素材包含一份 Anthropic 内部文档《How Anthropic Uses Claude Code》,记录了 10 个团队的一手使用案例。挑三个最有冲击力的:
财务团队——零代码经验驱动自动化
零编码经验的财务人员,用自然语言描述"查仪表盘 → 跑查询 → 产出 Excel"的工作流,Claude Code 自动执行全流程。他们不是"写代码更快"了,是"从不会写代码到能用自然语言驱动代码"。
团队 Tips:写详细的 CLAUDE.md——文档质量直接决定 Agent 表现。用 MCP servers 而非 CLI 访问敏感数据——更好的安全控制。
增长营销团队——一个人变成"一个人的军团"
• 广告文案创作:2 小时 → 15 分钟
• 创意产出:10 倍增长
• 一个人做了原来需要专门工程资源的事
方法:先在对话中充分规划 → 让 AI 总结成结构化指令 → 开新会话用干净上下文执行。规划和执行分两个阶段,中间有一次人工审核。
产品设计团队——设计师变成"半个开发者"
• 执行速度:2-3 倍
• 协调周期:从一周缩短到两个 30 分钟通话
设计师直接用 Claude Code 实现前端修改,不再走"Figma → 设计文档 → 反复对焦 → 工程师实现"的流程。关键细节:她在配置文件里写了一句身份声明——"我是设计师,不是工程师,需要详细解释和小步增量变更。"
Anthropic 内部的总结:
开发者得到的是"增强型工作流"——做事更快。非技术人员得到的是"天哪我变成开发者了"——获得了之前完全不可能的能力。
学完这几个案例我有一个反思。课程问我:你用 AI 是效率提升(量变)还是获得了新能力(质变)?我当时说偏量变。但仔细一想——在有 AI 之前,我做不到自己写 Python 分析数据、搭 MCP 服务器、写推送脚本把文章直接发到公众号草稿箱。这些不是"做得更快",是"从做不了到做得了"。这其实就是获得了新能力(质变)。
指挥 AI 完成的产出,就是你的能力。就像管理者不会说"公司业绩好是员工的功劳跟我没关系"一样。
06丨Claude Code 引擎盖下的秘密
这部分来源于 OutSight AI 通过 LiteLLM 代理拦截 Claude Code API 调用的逆向工程分析。
核心发现:Claude Code 用的模型跟你在网页上聊天用的是同一个。没有什么"特殊版本"。但为什么它更强?是因为一套精心设计的 prompt 脚手架 + 安全护栏 + 持续提醒的组合。
最有趣的发现:Anthropic 在整个管道的每个环节都插入了 <system-reminder> 标签——系统提示中、用户消息中、工具调用结果中、甚至 ls 命令返回值后面都会附一句提醒:
"TodoWrite 工具最近没有被使用。如果你正在做的任务需要追踪进度,考虑使用 TodoWrite。"
即使最聪明的模型,随着上下文变长也会"走神"。解决方案不是写一次完美的 system prompt,而是在整个过程中持续给小提醒。
一句话总结:tiny reminders, at the right time, change agent behavior.(在正确的时间给小提醒,改变 Agent 行为。)
同一个厨师,在乱糟糟的厨房和井井有条的厨房里,出品天差地别。你觉得 AI 聪不聪明,很大程度取决于你给它搭了什么样的脚手架。
07丨技术升级全景
四周走下来,一条清晰的进化路径:
怎么说话 → 怎么做事 → 看到什么 → 怎么管人
Week 1-3 教的是"怎么让 AI 更强"。Week 4 换了一个视角:怎么让你自己成为更好的 Agent Manager。
课程里有一句话印象很深:
Ask not what the model can do for you.— ask what you can do for the model.
不是问"AI 能为我做什么",而是问"我给 AI 提供了成功所需的条件吗"。差距不在模型能力,在你给的条件。
08丨下篇预告
Week 4 内容很厚——Boris Cherney 的 49 页 Slides 还有大量没展开。下篇会覆盖:
• Boris 的 Terminal-First 设计哲学——为什么 Claude Code 跑在终端而不是 IDE
• 四种工作流编排模式:探索→规划→执行 / TDD / 视觉驱动 / 快速原型
• Hooks 概念——从"建议性规则"到"确定性保障"
• Claude Code 的五种形态:Terminal / IDE / Web / GitHub App / SDK
• Boris 的四条 Lessons Learned
下篇见。
附:Week 4 阅读材料
必读(本文深度拆解的三篇):
1. How Anthropic Uses Claude Code — Anthropic 官方 PDF10 个内部团队的一手实战案例。https://www-cdn.anthropic.com/58284b19e702b49db9302d5b6f135ad8871e7658.pdf
2. Claude Code Best Practices — Anthropic 工程博客官方最佳实践系统文档。https://www.anthropic.com/engineering/claude-code-best-practices
3. Peeking Under the Hood of Claude Code — OutSight AI / Medium通过 LiteLLM 代理逆向工程 Claude Code 内部机制。https://medium.com/@outsightai/peeking-under-the-hood-of-claude-code-70f5a94a9a62
推荐阅读:
4. Awesome Claude Agents — GitHubClaude Code Agent 方案参考库。https://github.com/vijaythecoder/awesome-claude-agents
5. Super Claude — GitHub增强 Claude Code 的框架。https://github.com/SuperClaude-Org/SuperClaude_Framework
6. Good Context Good Code — StockApp 工程博客2.5x 生产力提升的完整上下文管理体系。https://blog.stockapp.com/good-context-good-code/
点击关注下方账号,学习AI的路上,带你一起进步~

往期文章分享
斯坦福大学现代软件开发课程Week 1:6 种 Prompt Engineering 核心技术学习分享
斯坦福大学现代软件开发课程Week 2:拆开一个 AI Agent,看看里面到底有什么
斯坦福大学现代软件开发课程Week 3:AI 编程时代的需求文档升级指南:从 PRD 到 Spec
AI搭档实操系列第12篇:我把 36 个 AI 工具砍到 5 个——装得越多它越蠢,是时候给 AI 做减法了
AI搭档实操系列第11篇:你的 AI 搭档为什么越聊越蠢——4 种上下文中毒和 3 条止损心法
AI搭档实操系列第10篇:你和 AI 聊出来的洞察,正在蒸发——Karpathy 的 LLM Wiki 和我的实践
AI搭档实操系列第9篇:别让 AI 编程工具读走你的密钥,10 分钟搭完 5 层安全防护
AI搭档实操系列第8篇:我给 AI 加了一声「叮」,再也不用反复切屏看它干完没了
产品经理的AI搭档实验系列第7篇:AI 帮我做数据分析,连错了 3 次——我是怎么让它不再犯的
我在微信置顶了微信Clawbot,然后花10分钟让它变成了懂我的老搭档
Karpathy 2025 LLM 年度回顾深度解读:当“幽灵智能”撞碎 AGI 幻想
4个MCP、9个技能、20多条规则:一个PM是怎么把AI搭档"驯服"的
OpenClaw能帮你干什么?8个真实场景,看完你就知道该不该装
夜雨聆风