斯坦福大学现代软件开发课程Week 7——为什么程序员宁愿听 AI 的,也不愿听同事的-夜雨聆风

斯坦福大学现代软件开发课程Week 7——为什么程序员宁愿听 AI 的,也不愿听同事的

跟着斯坦福 CS146S 学 AI Agent 开发,Week 7 的主题是「代码审查与软件支持」——客座嘉宾 Graphite CPO Tomas Reimers。这周学到的最大冲击不是技术细节,而是一组反直觉的数据:同样一条审查意见,人提的会被工程师反驳,AI 提的会被直接采纳。这背后藏着 AI 产品真正的护城河。

上周读到一组数据,愣了一下。代码审查这件事——就是写完代码让另一个人帮你看一遍——在 AI 时代正在发生一件特别有意思的事:

同样一条审查意见,如果是人提的,工程师会反驳、辩解、甚至吵起来;如果是 AI 提的,工程师往往直接说一句”fair point”然后就改了。

数据来自 Graphite——一家做 AI 代码审查的公司,他们的产品已经处理了百万次以上真实的 PR 审查。CPO Tomas Reimers 在斯坦福 CS146S 的客座演讲里讲了这个发现,听完之后我反复琢磨。

不是因为 AI 比人聪明——技术上 AI 找 bug 的准确率是 80-90%,人也差不多。

是因为对面没有”人”了。

01丨这个数据反常在哪

先把数据摆清楚。

Graphite 处理百万次 AI 代码审查后的核心发现:

指标	数值
AI 找 bug 的准确率	80-90%
AI 审查覆盖率	95%+ 的 PR 在几分钟内拿到反馈
工程师对 AI 反馈的采纳率	显著高于”人类提同样建议”的采纳率

最反直觉的就是最后一行。准确率高不奇怪——AI 在结构化任务上做到 80% 不算新闻。覆盖率高也不奇怪——机器嘛,7×24 不睡觉。

但“同样的话,AI 说能被采纳,人说就被反驳”——这个就有点意思了。

我自己也回想了一下:用 Cursor 写代码的时候,如果它弹一条建议说”这个变量名建议改成 X”,我基本没怎么犹豫就按 Tab 接受了。但如果是同事在 Code Review 里写”这变量名取得不好,改成 X 吧”——我大概率会先在心里反驳一句”也没多差吧”,然后才慢慢改。

同样一句话,反应完全不同。

为什么?

02丨剥离”人”之后,信息就纯粹了

Tomas Reimers 给了三个解释,我觉得每一条都准。

第一,AI 没有”权力关系”。

人审你的代码,你脑子里会自动跳出来一堆背景:这是我 mentor,他说的我得听;这是个比我资浅的同事,凭什么挑我;这是别的组的,他不懂我的业务。

人和人之间有身份、级别、立场——这些都会污染”我应该不应该接受这个建议”的判断。

AI 没有身份。它只有内容。剥离了权力关系,反馈就只剩信息本身。

第二,AI 不会让你”丢面子”。

人提的意见,你要是当场反驳了,场面有点尴尬;你要是接受了,多少有”被打脸”的感觉。所以你会先反驳一波再说,哪怕心里知道对方是对的。

AI 提的意见?你改不改没人看见。没有”丢面子”的成本——你会更冷静地评估”它说得有没有道理”。

第三,AI 不会”记仇”。

人审过你的代码之后,他会记得”上次我说他写得烂”——下次合作可能会带情绪。AI 不会。这降低了”接受批评”的长期心理负担。

三个原因加起来,就是 Graphite 那个数据的根源:AI 没让代码审查更聪明,只是把”人”那一层心理摩擦摘掉了。

03丨这其实戳破了一个我们一直假装看不见的真相

Tomas Reimers 把这个发现往深里推了一步,这一步是这场演讲的精髓:

人类代码审查里有大量摩擦,不是来自意见本身,而是来自”人和人”这件事。

也就是说,人类评审的低效,不是因为评审者不够专业,是因为”人”这个介质本身就有损耗——身份、面子、关系、情绪、过往恩怨。

AI 提供了一个”无菌”的评审通道。同样的信息,在没有人际摩擦的通道里传递,效率高得多。

听完这个我想起一件事。我自己用 AI 学斯坦福这门课,已经持续 7 周了。每周 2-3 个小时,跟 AI 一对一互动式学完一周内容,然后整理成笔记发出来。

如果换成”找一个真人 mentor 一对一讲这门课”呢?

我大概率不愿意。

不是怕花钱。是怕”我占用了人家这么多时间,我是不是该装作很聪明、不该问太基础的问题”——这是巨大的社交压力。

跟 AI 聊?我可以问任何问题、可以打断、可以跑题、可以说”听不懂”,零社交成本。

我以为自己学得快是因为找到了好工具,后来才意识到——真正让我能学下去的,不是 AI 多聪明,是它把”问蠢问题的羞耻感”清零了。

04丨想明白这件事之后,我看 AI 产品有了一个新框架

这周给我最大的收获,其实不是关于代码审查本身,是关于看 AI 产品的一个新角度。

大多数人评估一个 AI 产品,第一反应看模型能力——它的回答聪不聪明?它的代码写得好不好?它的图画得精不精?

但拉开来看,你会发现一件反常的事:

很多模型一般、甚至比竞品差的 AI 产品反而爆发了;反过来,很多模型很强的产品却没起来。

为什么?

决定”用户用不用”的,从来不是它比上一版聪明多少,而是它消除了多大的摩擦——尤其是,人和人之间那种隐性的、说不出口的摩擦。

模型能力是天花板。摩擦消除是启动键。

把几个爆发的 AI 产品摆在一起看,规律一下子就清晰了:

AI 产品	它消除了什么”人际摩擦”
ChatGPT	“我有问题想问,但不好意思问别人——怕显得蠢、怕浪费别人时间”
Cursor / Copilot	“找资深工程师问问题怕打扰人家”——初级工程师终于敢问”笨问题”了
Replika / Character.AI	“找人聊心事怕被评判、怕被泄露、怕欠人情”
Notion AI / Jasper	“找编辑帮我改稿要赔笑脸、要解释、要顾及对方面子”

每一个,真正的护城河都不是模型本身——而是“它把某种长期存在的人际摩擦,干掉了”。

反过来,光靠模型能力的 AI 产品就很危险:

DeepL、Google 翻译——翻译质量好就是好,跟”摩擦”没关系。结果就是模型一被超过,护城河立刻消失。

Midjourney(早期)——画图质量是核心,但被开源模型快速追上,护城河肉眼可见在掉。

大量”GPT 套壳”应用——既没有模型,也没有消除任何独特摩擦。99% 会死。

模型可以被复制,摩擦消除不能。

05丨给出三个判断问题

写到这里,把这个洞察整理成三个问题。下次看到一个新 AI 产品,不管是别人发的还是自己想做的,都可以问一下:

1. 它消除了什么”人和人之间的摩擦”?

如果说不清,大概率没有真护城河,只是个套壳。

2. 这个摩擦是不是用户”每天经历但说不出来”的?

越隐性、越长期的摩擦,价值越大。”我每天都觉得别扭但又没意识到这是个问题”——这种摩擦如果被一个产品干掉了,用户会黏得很死。

3. 如果模型能力相同,有没有别的产品能轻易复制?

如果能,那就是 wrapper。模型一升级,你的优势就没了。

这三个问题,我觉得是这周课程给我的最贵的工具。

写在最后

Graphite 那个数据再看一遍:

同样的话,人提就被反驳,AI 提就被采纳。

这条数据看起来在讲代码审查,其实在讲一件更大的事:AI 真正改变的,可能不是”工作怎么做”,而是”信息怎么在人和人之间流动”。

你以为 AI 在跟人类比聪明。

其实它在跟人类的”社交摩擦”较劲——而后者,才是它真正的护城河。

下周 Week 8 的主题是「Automated UI and App Building」——AI 自动化构建 UI 和应用。客座嘉宾是 Vercel 的相关团队。

如果你也在跟这门课,或者想聊聊”AI 怎么消除你身边的人际摩擦”,评论区聊。

点击关注下方账号，学习AI的路上，带你一起进步~

如果你对AI也感兴趣，欢迎扫码加微信好友，备注”AI”就可将你拉入AI交流群，一起学习互相进步。