对话OpenAI首席产品官:做了二十年社交产品的人,怎么看AI

每日学习：第202天
播客：Kevin Weil on AI: The New Rules for Skills, Coding & Building Startups

Kevin Weil在OpenAI管产品，之前二十年都在做社交产品。Twitter、Instagram、Facebook都待过。我本来以为他会聊交互、聊体验、聊人跟机器的关系。

结果他整场播客说得最多的只有一件事：PM最需要学会的新技能，是给模型出考题。

验证比生成更值钱

就是给模型出考卷。Kevin把它类比成单元测试，你给模型一个问题，看它给出多好的答案。60%准确率跟99.5%准确率，对应的是两种完全不同的产品。

他用Deep Research举了个例子。这个产品能让ChatGPT花二三十分钟帮你查资料、读论文、写出一篇原本要花你一周的报告。做这个产品的时候，他们是先定好"什么样的答案算好"，然后拿这些考卷去微调模型，看着分数往上爬，就知道产品快能用了。

模型的能力上限，其实是人类出题水平决定的。模型很聪明，但聪明是多维的。一个模型能拿竞赛编程冠军，不见得能写好前端代码。你能教会它任何东西，前提是你得知道自己想要什么。

这跟Terence Tao那期播客讲的是一回事。猜想变得异常廉价的时候，昂贵的是验证机制。当模型本身不再是瓶颈，能精确描述"什么叫好"的人，比训练模型的人更稀缺。

出题这件事，说到底，是逼你先想清楚自己到底要什么。

补丁全白写

OpenAI内部有一条产品原则，Kevin管它叫"模型极大主义"。意思很简单，别花太多时间给模型当前版本的弱点打补丁。

因为两个月后新模型一出，那些补丁全白写了。

这跟传统软件工程是完全反过来的。以前做产品，底层是固定的，你的精力全在UI、容错、异常处理上面。Kevin说在OpenAI，底层本身在飞，你今天绞尽脑汁解决的边缘案例，下个版本的模型可能直接就不会出现了。

他用了一句艾森豪威尔的话来概括：计划没用，规划有用。OpenAI也做季度路线图，也写年度策略，也开全体会。但Kevin说他从不相信写在纸上的东西三个月后还会照做。规划的价值，是那个停下来集体问"我们学到了什么、接下来往哪走"的时刻。至于写在纸上的东西，过几周推翻了也正常。

这个判断跟他之前的职业经历有关系。他在传统科技公司做了十几年产品，见过太多给破烂底层打补丁的困局。Twitter、Instagram、Facebook都是这样，底层的社交图谱、信息流算法、广告系统几年不变，竞争全在表层。到了OpenAI他才发现，当底层本身在指数级变好，传统防御性工程思维全是负资产。

主持人Lenny提了一个具体的案例。Bolt这家公司默默做了七年产品都不行，Sonnet 3.5一出，所有功能突然全跑通了。这就是模型极大主义的反向验证。你真正在赌的，是底层的进化速度。至于工程能力，反而是次要的。

你也是一个被微调过的模型

Kevin讲OpenAI怎么内部做客服系统自动化的时候，提到了一个细节。

他们用了不止一个模型。有的处理简单问题，又快又便宜。有的需要推理能力，就上O系列模型，贵但准。特定场景的，单独微调了专门的知识库和语气。然后把这些模型拼在一起用，像搭积木。

说完他补了一句，这不就是一个公司吗。

每个人的大学专业、职业生涯，就是在做"微调"。你学了四年计算机，你被微调过。你在创业公司干过三年，你又多了一层微调。公司做的事情，就是把一群被不同方式微调过的人组合起来，产出超过任何单一个体的结果。

他说有的同事回答问题快但浅，有的人慢但深，有的从视觉出发，有的喜欢用文字。有些人更贵，有些人会幻觉。跟选模型一模一样。

这个类比的根是同一个数学事实。把不同专长的单元拼在一起，整体产出大于任何单一部分。你管理团队用的是这招，搭AI pipeline用的也是这招。只不过以前你只管理人，现在你两边都管。

Kevin说他很意外，大部分公司还是把一个通用模型当万能工具用，而不是把问题拆开，给每个子任务匹配最合适的模型。这跟管理失败是同一个病根，你让一个前端工程师去调数据库，双方都痛苦。

把它当人看

Kevin说过一个让他自己都意外的发现。设计AI产品的时候，你就把它当一个人去想，大多数时候这招都好使。

最早做推理模型的时候，团队遇到了一个UI问题。模型要思考10到25秒才能给出答案，这个时长很尴尬。不是25分钟你可以切到别的标签页，也不是即时响应。Kevin说他们就问了自己一个问题：如果我问你一个需要想20秒的问题，你会怎么做？

你不会完全闭嘴，但你也不会把脑子里每一个念头都说出来。你可能会说"嗯，这个问题问得好"，然后大概讲一下你在往哪个方向想，最后给出答案。这就是他们最终设计的交互形态，给模型的思考过程做一个摘要，而不是暴露整条原始思维链。

DeepSeek后来出了完全暴露思维链的版本，很多人觉得新鲜。Kevin说他们内部试过，放在4亿用户规模上，没人想读模型在那自言自语好几段。

Kevin一个做了二十年社交产品的人会有这个直觉，其实一点不奇怪。社交产品的核心就是理解人。他只是把这套肌肉记忆搬到了AI上面。结果发现，底层是概率矩阵还是神经网络，在交互层上差别没那么大。

这个思路反过来也成立。Kevin推荐过一个技巧，就是在提问的时候塞进去几个"问题→好答案"的示例，他管这叫"穷人的微调"。跟前面出考题的逻辑是同一件事，你给它看几个范例，它就会往那个方向学。带一个新同事也一样，光说"你要做得好"没用，你得拿具体的给ta看。

出题这件事，说到底，是逼你先想清楚自己到底要什么。你要什么、怎么判断好坏、哪一步不行，这些在模型跑起来之前就已经定了。剩下的才是算力的事。

你今天用的AI模型，是你余生中用过的最差的。