乐于分享
好东西不私藏

斯坦福大学现代软件开发课程Week 8(一)——Vibe Coding 翻车地图:5 种必翻车场景 + 一张 3 分钟扫雷图

斯坦福大学现代软件开发课程Week 8(一)——Vibe Coding 翻车地图:5 种必翻车场景 + 一张 3 分钟扫雷图

斯坦福 CS146S 第八周主讲人 Mihail Eric 上来就说”我们不是 vibe coding 课,但今天破例讲一次”。一门严肃软件工程课专门留一周讲”用 AI 造应用”,然后花了 45 分钟画了一张”AI 能力边界地图”。我学完后把工作中的真实需求逐个套进去扫雷——发现 PM 最值钱的能力正在从”提需求”变成”画交接线”。

斯坦福 CS146S 第八周,主讲人 Mihail Eric 上来第一句话:

“We are not a vibe coding class, but today we are making an exception.”   我们不是 vibe coding 课,但今天破例讲一次。

一门严肃的软件工程课,专门留一周讲”用 AI 造应用”这种事。

答案藏在后面 45 分钟里。Eric 没有泼冷水,也没有唱赞歌,而是做了一件事:画了一张”AI 能力边界地图”。边界外的活放心交给 AI,边界内的活必须留给真人。

这张地图有 5 个维度。我学完之后,把自己工作中的真实需求逐个套进去扫了一遍雷——发现一个反直觉的事实:PM 最值钱的能力正在从”提需求”变成”画交接线”。

01先说清楚 Vibe Coding 到底是什么

2025 年初,前 OpenAI 创始团队成员 Andrej Karpathy 发明了一个词:vibe coding。

不写传统意义上的代码,用自然语言告诉 AI 你想要什么,AI 直接生成可运行的应用。工具代表是 Bolt.new、v0(Vercel 出品)、Lovable、Replit。

课上老师打开 Bolt,对着屏幕输入一句话:

“做一个让人找 salsa 舞伴的网站。用户能注册登录,能发布想跳舞的城市和时间,能浏览别人的发布,能站内私信联系。”

按回车。10 分钟以内,一个能注册、能发帖、能浏览、能私信的活的网站在浏览器里跑起来了。没装任何软件、没部署任何服务器、没写一行代码。

全场鼓掌。

然后 Eric 翻到了下一页 PPT——

“But it will fail in these 5 ways.”

但它会在以下 5 种情况下翻车。

025 种翻车场景,一张扫雷表

#
翻车场景
一句话识别
底层原因
1
复杂度天花板
代码超过 5K 行就别交
LLM 上下文窗口有限,改 A 忘 B
2
设计精度天花板
要 pixel-perfect 还原就别交
品牌设计系统的隐性规则学不到
3
业务逻辑 / 领域知识
业务规则本身就是专业的就别交
公司潜规则不在公开数据里,AI 没读过
4
第三方集成 + 生产级质量
要上线扛流量就别交
接口潜规则只在踩过坑的人脑子里
5
维护迭代 + 多角色协作
要长期维护多人协作就别交
没记忆 + 没学会协作语言

接下来将逐一拆解。其中限制 3 最值得单独展开——它直接击中 PM 每天面对的核心问题;限制 4 和 5 放在一起说,因为它们共同指向同一个现实。

限制 1:复杂度天花板

AI 写代码不是问题,问题是写到后面忘前面

LLM 的上下文窗口有限,当一个项目膨胀到几十个文件、几千行代码、依赖互相交叉的时候,它改了 A 文件的接口调用,忘了 B 文件也在用这个接口;修了一个 bug,引入了两个新的。

这不是模型不够聪明的问题——是人类工程师也会遇到的问题,只不过人类有 Git 历史、有 code review、有同事提醒。AI 目前这些都没有,或者说有了但不成熟。

判断标准:大型企业系统、长期维护产品 → 高风险。MVP、单页应用、内部小工具 → 低风险。

限制 2:设计精度天花板

你让 Bolt “做一个跟苹果官网一模一样的页面”——它能做出一个”好看的页面”,但绝对做不出”苹果的那个页面”。

因为苹果的设计系统里有大量隐性规则:圆角到底用多少 px、哪种场景用 SF Pro 字体而哪种用苹方、灰色的色值差 1% 在视网膜屏上是什么感觉……这些东西不在任何设计规范文档里,藏在设计师的肌肉记忆里。

AI 能学到的是”通用的好看”,学不到”某个品牌的特定气质”。对内后台、原型 Demo、内部工具 → 够用。对外品牌页、高保真设计稿还原 → 别想了。

03限制 3:业务逻辑——最值得展开的一个

这是 5 个限制里最值得展开说的一个,因为它是 PM 每天都在面对的问题。

课上引入了一个理论框架:经济学家 Michael Polanyi 在 1958 年提出的波兰尼悖论(Polanyi’s Paradox)——

“We know more than we can tell.”

我们知道的远比我们能说出来的多。

— Polanyi’s Paradox, 1958

翻译成大白话:很多专业知识存在专家脑子里,连专家自己都说不清是怎么知道的。

根据”能不能写成文字喂给 AI”,业务规则可以分三级:

层级
含义
能不能喂给 AI
例子
L1 显性规则
if-else 类,白纸黑字能写下来
完全可以
“单笔金额 > 5 万触发二次验证”
L2 半显性规则
综合判断类,能描述但比较零散
理论可以,工程巨贵
“XX风险 = 时段权重 + 金额权重 + 行为序列加权”
L3 隐性规则
凭直觉判断,专家都说不清
喂不进去
资深从业者的”一眼看出不对劲”、老员工的”这方案不行”

越是 AI 猜不到的规则,越是一家公司的核心竞争力。

我自己的经历就是一个活生生的例子。

踩坑实录:AI 数据分析连错 3 次

上个月让 AI 用 Python 分析一份 Excel 数据,做五层下钻分析。第一次错了——多值字段只用逗号分隔,没处理换行符和顿号。第二次错了——修复了分隔符但只处理了一层逻辑,没贯穿全部五层。第三次还是错——某字段 55 条记录,报告只出 28 条,包含逻辑漏了一条。三次错误,表面看是技术问题。本质上是:我的业务判断里有大量 L2 和 L3 层面的隐含假设(”这个字段应该是单值的””这层逻辑应该和上一层一致”),我自己都没意识到这些假设的存在,更不可能提前告诉 AI。

AI 不知道的,不只是你没告诉它的东西。是你自己都不知道自己知道的东西。

04限制 4 和 5:集成与协作

限制 4:第三方集成 + 生产级质量

Demo 和上线之间,隔着一个团队的工作量。

让 Bolt 接支付宝?接 SSO 单点登录?上生产环境扛并发?处理数据隐私合规?这些事情的核心难点不在代码本身,而在踩过坑的经验。某个第三方接口的文档写得不对,某个配置项在测试环境和生产环境表现不一样,某个安全漏洞只在特定并发量下才暴露——这些知识散落在无数个 issue、Stack Overflow 帖子和深夜的钉钉群里,AI 的训练数据覆盖不到,或者覆盖到了但没有”哪个答案在 2026 年仍然有效”的判断力。

判断标准:沙盒级别、Demo 级别、内部工具 → AI 能搞。涉及真金白银的支付、用户隐私数据、企业级集成 → 让专业人来。

限制 5:维护迭代 + 多角色协作

AI 生成的代码有一个致命问题:没有记忆。

三个月后你要改功能,打开项目——AI 不知道当初为什么这么设计,不知道排除了哪些方案,不知道某个变量命名的含义。代码里的 What(做了什么)都能看到,但 Why(为什么这么做)完全丢失。

更现实的问题是多人协作。AI 目前不会用 Git 分支策略,不会写清晰的 commit message,不会在 code review 里回应质疑,不会在站会上同步进度。这些”协作语言”看起来不像”技术能力”,但在真实工程里占了至少一半的工作量。

课上有人追问:”那让 AI 写完代码后自动生成文档给未来的人看,行不行?”Eric 的回答是方向完全正确——业界已经有 CLAUDE.md、.cursor/rules/、AGENTS.md 这类实践。但有三个边界:第一次写文档时根本想不到要写那么细;文档过期后没人同步;最值钱的”为什么这么做”从代码里扫不出来。

05这 5 个限制,能缓解多少?

课上给了一张评估表:

限制
RAG / Memory 技术能缓解多少
1 复杂度天花板
部分缓解(Memory 帮忙记上下文),极复杂项目仍崩
2 设计精度
几乎无解(设计师审美无法显性化)
3 业务逻辑
中等缓解(L1+L2 可以,L3 喂不进)
4 集成 / 生产
几乎无解(踩坑经验难显性化)
5 维护协作
中等缓解(Memory OK,多人协作仍难)

结论很清晰:vibe coding 永远会有”必须留给真人”的领域,只是这个边界会随工程进步慢慢往里缩。

而 PM 正在做的事——梳理业务规则、画交接线、设计兜底路径——恰好是在”突破限制 3″的核心位置。

06落地:一张 5 项扫雷图,3 分钟出判断

课上给了 5 个维度框架,我把它落地成了一套可直接用的 SOP。以后任何需求来到面前,先过这 5 道筛子:

Step 1 — 5 项打分(每项判高 / 中 / 低)

#
自检问题
高分信号
低分信号
1 复杂度
代码会不会超 5K 行?文件数爆炸吗?
大型企业系统 / 长期产品
MVP / 单页应用 / 内部小工具
2 设计精度
要 pixel-perfect 还原还是能看就行?
对外品牌页 / 高保真设计稿
内部后台 / 原型 / Demo
3 业务逻辑
有多少”公司潜规则”?L3 占比多吗?
风控 / 金融 / 医疗等专业领域
标准 CRUD / 通用业务流
4 集成生产
要接几个第三方?上线扛流量吗?
真支付 / SSO / 企业级集成
内部工具 / 沙盒 / Demo
5 维护协作
几个月内迭代吗?几个人改?
长期产品 / 多人协作 / 跨团队
一次性需求 / 个人单干

Step 2 — 整体判断三档

5 项全低
→ 端到端交给 AI,你一个人就能做完
1-2 项中
→ AI 做大部分 + 你补关键环节(大多数实战场景)
任意 1 项高
→ AI 只做原型和 UI,主体留给工程团队

Step 3 — 画交接线

不管上面判断结果是哪一档,只要不是”全交给 AI”,就必须明确写出留给人做的环节清单

类型
具体例子
业务规则定义
阈值设定、话术规范、合规标准
关键集成对接
支付通道接入、SSO 配置、企业系统对接
内容 / 规则人工审核
上线前的 review、灰度验证
历史决策记录
设计决策的 Why、排除选项、调整原则

我用这套方法扫了自己手头正在做的两个需求。

实战案例 A:FAQ 知识库管理后台

初看觉得 5 项都低——不就是增删改查嘛。但二次校准后发现:• 业务逻辑从”低”校准为”中”——FAQ 不是裸文本,背后有分类规则、敏感词过滤、话术规范、优先级排序、合规审查• 集成/生产从”低”校准为”中”——要接系统API、内容审核接口、权限系统、搜索索引最终判断:AI 做大部分 CRUD 后台 + UI,真人补内容审核和关键集成对接。

实战案例 B:专业领域标签配置化

5 项扫下来,3 项重度踩雷(业务逻辑=高、集成=高、维护=中)。标签值判断的规则里全是 L2 和 L3 层面的专业知识,AI 不可能端到端搞定。最终判断:AI 只做配置界面的 UI 原型演示,所有业务逻辑和生产对接留给团队。

这就是配置化 PM 的核心专业能力——不是判断”AI 能不能做”,而是判断”AI 能做哪一段、人必须做哪一段”。

07延伸思考:PM 的能力正在迁移

我在搭 AI 协作系统的时候有个体会。

最早只有 3 个规则文件,AI 每次新对话都从零开始问项目背景。后来迭代到 17 个文件、5 个角色分工——需求审视官负责挑毛病,方案架构官出设计,风险挑刺官专治 AI 顺着你写,写作主编管输出质量,执行推进官一波流落地。

搭好之后,每轮对话从 20 轮降到了 5-10 轮,每天省了 40-60 分钟。

这件事的本质是什么?就是把我脑子里的 L1 和 L2 层面经验,一条条挖出来、写清楚、变成 AI 可读的结构化规则。

这个过程很耗时且抽象——你得逼着自己把那些”凭直觉就知道”的东西变成白纸黑字。但一旦写完,后续的效率将大大提升,它就成了独立于工具的智力资产。换 Cursor 能用,换 CodeBuddy 也能用,未来换任何 AI 工具都能用。

回到波兰尼悖论。L3 隐性知识确实喂不进 AI——那是老专家的直觉,是资深从业者”一眼看出不对劲”的本能。但 L1 和 L2 是可以显性化的,而且这件事本身就在重塑 PM 的工作方式。

以前 PM 的核心竞争力是”懂业务”。未来的核心竞争力是”能把懂的业务变成 AI 也能懂的资产”。

中间那条交接线怎么画

这件事,比学会用任何一个 AI 工具都重要。


点击关注下方账号,学习AI的路上,带你一起进步~

如果你对AI也感兴趣,欢迎扫码加微信好友,备注”AI”就可将你拉入AI交流群,一起学习互相进步。