斯坦福大学现代软件开发课程Week 8(一)——Vibe Coding 翻车地图:5 种必翻车场景 + 一张 3 分钟扫雷图-夜雨聆风

斯坦福大学现代软件开发课程Week 8(一)——Vibe Coding 翻车地图:5 种必翻车场景 + 一张 3 分钟扫雷图

斯坦福 CS146S 第八周主讲人 Mihail Eric 上来就说”我们不是 vibe coding 课，但今天破例讲一次”。一门严肃软件工程课专门留一周讲”用 AI 造应用”，然后花了 45 分钟画了一张”AI 能力边界地图”。我学完后把工作中的真实需求逐个套进去扫雷——发现 PM 最值钱的能力正在从”提需求”变成”画交接线”。

斯坦福 CS146S 第八周，主讲人 Mihail Eric 上来第一句话：

“We are not a vibe coding class, but today we are making an exception.” 我们不是 vibe coding 课，但今天破例讲一次。

一门严肃的软件工程课，专门留一周讲”用 AI 造应用”这种事。

答案藏在后面 45 分钟里。Eric 没有泼冷水，也没有唱赞歌，而是做了一件事：画了一张”AI 能力边界地图”。边界外的活放心交给 AI，边界内的活必须留给真人。

这张地图有 5 个维度。我学完之后，把自己工作中的真实需求逐个套进去扫了一遍雷——发现一个反直觉的事实：PM 最值钱的能力正在从”提需求”变成”画交接线”。

01丨先说清楚 Vibe Coding 到底是什么

2025 年初，前 OpenAI 创始团队成员 Andrej Karpathy 发明了一个词：vibe coding。

不写传统意义上的代码，用自然语言告诉 AI 你想要什么，AI 直接生成可运行的应用。工具代表是 Bolt.new、v0（Vercel 出品）、Lovable、Replit。

课上老师打开 Bolt，对着屏幕输入一句话：

“做一个让人找 salsa 舞伴的网站。用户能注册登录，能发布想跳舞的城市和时间，能浏览别人的发布，能站内私信联系。”

按回车。10 分钟以内，一个能注册、能发帖、能浏览、能私信的活的网站在浏览器里跑起来了。没装任何软件、没部署任何服务器、没写一行代码。

全场鼓掌。

然后 Eric 翻到了下一页 PPT——

“But it will fail in these 5 ways.”

但它会在以下 5 种情况下翻车。

02丨5 种翻车场景，一张扫雷表

#	翻车场景	一句话识别	底层原因
1	复杂度天花板	代码超过 5K 行就别交	LLM 上下文窗口有限，改 A 忘 B
2	设计精度天花板	要 pixel-perfect 还原就别交	品牌设计系统的隐性规则学不到
3	业务逻辑 / 领域知识	业务规则本身就是专业的就别交	公司潜规则不在公开数据里，AI 没读过
4	第三方集成 + 生产级质量	要上线扛流量就别交	接口潜规则只在踩过坑的人脑子里
5	维护迭代 + 多角色协作	要长期维护多人协作就别交	没记忆 + 没学会协作语言

接下来将逐一拆解。其中限制 3 最值得单独展开——它直接击中 PM 每天面对的核心问题；限制 4 和 5 放在一起说，因为它们共同指向同一个现实。

限制 1：复杂度天花板

AI 写代码不是问题，问题是写到后面忘前面。

LLM 的上下文窗口有限，当一个项目膨胀到几十个文件、几千行代码、依赖互相交叉的时候，它改了 A 文件的接口调用，忘了 B 文件也在用这个接口；修了一个 bug，引入了两个新的。

这不是模型不够聪明的问题——是人类工程师也会遇到的问题，只不过人类有 Git 历史、有 code review、有同事提醒。AI 目前这些都没有，或者说有了但不成熟。

判断标准：大型企业系统、长期维护产品 → 高风险。MVP、单页应用、内部小工具 → 低风险。

限制 2：设计精度天花板

你让 Bolt “做一个跟苹果官网一模一样的页面”——它能做出一个”好看的页面”，但绝对做不出”苹果的那个页面”。

因为苹果的设计系统里有大量隐性规则：圆角到底用多少 px、哪种场景用 SF Pro 字体而哪种用苹方、灰色的色值差 1% 在视网膜屏上是什么感觉……这些东西不在任何设计规范文档里，藏在设计师的肌肉记忆里。

AI 能学到的是”通用的好看”，学不到”某个品牌的特定气质”。对内后台、原型 Demo、内部工具 → 够用。对外品牌页、高保真设计稿还原 → 别想了。

03丨限制 3：业务逻辑——最值得展开的一个

这是 5 个限制里最值得展开说的一个，因为它是 PM 每天都在面对的问题。

课上引入了一个理论框架：经济学家 Michael Polanyi 在 1958 年提出的波兰尼悖论（Polanyi’s Paradox）——

“We know more than we can tell.”

我们知道的远比我们能说出来的多。

— Polanyi’s Paradox, 1958

翻译成大白话：很多专业知识存在专家脑子里，连专家自己都说不清是怎么知道的。

根据”能不能写成文字喂给 AI”，业务规则可以分三级：

层级	含义	能不能喂给 AI	例子
L1 显性规则	if-else 类，白纸黑字能写下来	完全可以	“单笔金额 > 5 万触发二次验证”
L2 半显性规则	综合判断类，能描述但比较零散	理论可以，工程巨贵	“XX风险 = 时段权重 + 金额权重 + 行为序列加权”
L3 隐性规则	凭直觉判断，专家都说不清	喂不进去	资深从业者的”一眼看出不对劲”、老员工的”这方案不行”

越是 AI 猜不到的规则，越是一家公司的核心竞争力。

我自己的经历就是一个活生生的例子。

踩坑实录：AI 数据分析连错 3 次

上个月让 AI 用 Python 分析一份 Excel 数据，做五层下钻分析。第一次错了——多值字段只用逗号分隔，没处理换行符和顿号。第二次错了——修复了分隔符但只处理了一层逻辑，没贯穿全部五层。第三次还是错——某字段 55 条记录，报告只出 28 条，包含逻辑漏了一条。三次错误，表面看是技术问题。本质上是：我的业务判断里有大量 L2 和 L3 层面的隐含假设（”这个字段应该是单值的””这层逻辑应该和上一层一致”），我自己都没意识到这些假设的存在，更不可能提前告诉 AI。

AI 不知道的，不只是你没告诉它的东西。是你自己都不知道自己知道的东西。

04丨限制 4 和 5：集成与协作

限制 4：第三方集成 + 生产级质量

Demo 和上线之间，隔着一个团队的工作量。

让 Bolt 接支付宝？接 SSO 单点登录？上生产环境扛并发？处理数据隐私合规？这些事情的核心难点不在代码本身，而在踩过坑的经验。某个第三方接口的文档写得不对，某个配置项在测试环境和生产环境表现不一样，某个安全漏洞只在特定并发量下才暴露——这些知识散落在无数个 issue、Stack Overflow 帖子和深夜的钉钉群里，AI 的训练数据覆盖不到，或者覆盖到了但没有”哪个答案在 2026 年仍然有效”的判断力。

判断标准：沙盒级别、Demo 级别、内部工具 → AI 能搞。涉及真金白银的支付、用户隐私数据、企业级集成 → 让专业人来。

限制 5：维护迭代 + 多角色协作

AI 生成的代码有一个致命问题：没有记忆。

三个月后你要改功能，打开项目——AI 不知道当初为什么这么设计，不知道排除了哪些方案，不知道某个变量命名的含义。代码里的 What（做了什么）都能看到，但 Why（为什么这么做）完全丢失。

更现实的问题是多人协作。AI 目前不会用 Git 分支策略，不会写清晰的 commit message，不会在 code review 里回应质疑，不会在站会上同步进度。这些”协作语言”看起来不像”技术能力”，但在真实工程里占了至少一半的工作量。

课上有人追问：”那让 AI 写完代码后自动生成文档给未来的人看，行不行？”Eric 的回答是方向完全正确——业界已经有 CLAUDE.md、.cursor/rules/、AGENTS.md 这类实践。但有三个边界：第一次写文档时根本想不到要写那么细；文档过期后没人同步；最值钱的”为什么这么做”从代码里扫不出来。

05丨这 5 个限制，能缓解多少？

课上给了一张评估表：

限制	RAG / Memory 技术能缓解多少
1 复杂度天花板	部分缓解（Memory 帮忙记上下文），极复杂项目仍崩
2 设计精度	几乎无解（设计师审美无法显性化）
3 业务逻辑	中等缓解（L1+L2 可以，L3 喂不进）
4 集成 / 生产	几乎无解（踩坑经验难显性化）
5 维护协作	中等缓解（Memory OK，多人协作仍难）

结论很清晰：vibe coding 永远会有”必须留给真人”的领域，只是这个边界会随工程进步慢慢往里缩。

而 PM 正在做的事——梳理业务规则、画交接线、设计兜底路径——恰好是在”突破限制 3″的核心位置。

06丨落地：一张 5 项扫雷图，3 分钟出判断

课上给了 5 个维度框架，我把它落地成了一套可直接用的 SOP。以后任何需求来到面前，先过这 5 道筛子：

Step 1 — 5 项打分（每项判高 / 中 / 低）

#	自检问题	高分信号	低分信号
1 复杂度	代码会不会超 5K 行？文件数爆炸吗？	大型企业系统 / 长期产品	MVP / 单页应用 / 内部小工具
2 设计精度	要 pixel-perfect 还原还是能看就行？	对外品牌页 / 高保真设计稿	内部后台 / 原型 / Demo
3 业务逻辑	有多少”公司潜规则”？L3 占比多吗？	风控 / 金融 / 医疗等专业领域	标准 CRUD / 通用业务流
4 集成生产	要接几个第三方？上线扛流量吗？	真支付 / SSO / 企业级集成	内部工具 / 沙盒 / Demo
5 维护协作	几个月内迭代吗？几个人改？	长期产品 / 多人协作 / 跨团队	一次性需求 / 个人单干

Step 2 — 整体判断三档

5 项全低	→ 端到端交给 AI，你一个人就能做完
1-2 项中	→ AI 做大部分 + 你补关键环节（大多数实战场景）
任意 1 项高	→ AI 只做原型和 UI，主体留给工程团队

Step 3 — 画交接线

不管上面判断结果是哪一档，只要不是”全交给 AI”，就必须明确写出留给人做的环节清单：

类型	具体例子
业务规则定义	阈值设定、话术规范、合规标准
关键集成对接	支付通道接入、SSO 配置、企业系统对接
内容 / 规则人工审核	上线前的 review、灰度验证
历史决策记录	设计决策的 Why、排除选项、调整原则

我用这套方法扫了自己手头正在做的两个需求。

实战案例 A：FAQ 知识库管理后台

初看觉得 5 项都低——不就是增删改查嘛。但二次校准后发现：• 业务逻辑从”低”校准为”中”——FAQ 不是裸文本，背后有分类规则、敏感词过滤、话术规范、优先级排序、合规审查• 集成/生产从”低”校准为”中”——要接系统API、内容审核接口、权限系统、搜索索引最终判断：AI 做大部分 CRUD 后台 + UI，真人补内容审核和关键集成对接。

实战案例 B：专业领域标签配置化

5 项扫下来，3 项重度踩雷（业务逻辑=高、集成=高、维护=中）。标签值判断的规则里全是 L2 和 L3 层面的专业知识，AI 不可能端到端搞定。最终判断：AI 只做配置界面的 UI 原型演示，所有业务逻辑和生产对接留给团队。

这就是配置化 PM 的核心专业能力——不是判断”AI 能不能做”，而是判断”AI 能做哪一段、人必须做哪一段”。

07丨延伸思考：PM 的能力正在迁移

我在搭 AI 协作系统的时候有个体会。

最早只有 3 个规则文件，AI 每次新对话都从零开始问项目背景。后来迭代到 17 个文件、5 个角色分工——需求审视官负责挑毛病，方案架构官出设计，风险挑刺官专治 AI 顺着你写，写作主编管输出质量，执行推进官一波流落地。

搭好之后，每轮对话从 20 轮降到了 5-10 轮，每天省了 40-60 分钟。

这件事的本质是什么？就是把我脑子里的 L1 和 L2 层面经验，一条条挖出来、写清楚、变成 AI 可读的结构化规则。

这个过程很耗时且抽象——你得逼着自己把那些”凭直觉就知道”的东西变成白纸黑字。但一旦写完，后续的效率将大大提升，它就成了独立于工具的智力资产。换 Cursor 能用，换 CodeBuddy 也能用，未来换任何 AI 工具都能用。

回到波兰尼悖论。L3 隐性知识确实喂不进 AI——那是老专家的直觉，是资深从业者”一眼看出不对劲”的本能。但 L1 和 L2 是可以显性化的，而且这件事本身就在重塑 PM 的工作方式。

以前 PM 的核心竞争力是”懂业务”。未来的核心竞争力是”能把懂的业务变成 AI 也能懂的资产”。

中间那条交接线怎么画

这件事，比学会用任何一个 AI 工具都重要。

点击关注下方账号，学习AI的路上，带你一起进步~

如果你对AI也感兴趣，欢迎扫码加微信好友，备注”AI”就可将你拉入AI交流群，一起学习互相进步。