每日学习:第202天
播客:Kevin Weil on AI: The New Rules for Skills, Coding & Building Startups

Kevin Weil在OpenAI管产品,之前二十年都在做社交产品。Twitter、Instagram、Facebook都待过。我本来以为他会聊交互、聊体验、聊人跟机器的关系。
结果他整场播客说得最多的只有一件事:PM最需要学会的新技能,是给模型出考题。
验证比生成更值钱
就是给模型出考卷。Kevin把它类比成单元测试,你给模型一个问题,看它给出多好的答案。60%准确率跟99.5%准确率,对应的是两种完全不同的产品。
他用Deep Research举了个例子。这个产品能让ChatGPT花二三十分钟帮你查资料、读论文、写出一篇原本要花你一周的报告。做这个产品的时候,他们是先定好"什么样的答案算好",然后拿这些考卷去微调模型,看着分数往上爬,就知道产品快能用了。
模型的能力上限,其实是人类出题水平决定的。模型很聪明,但聪明是多维的。一个模型能拿竞赛编程冠军,不见得能写好前端代码。你能教会它任何东西,前提是你得知道自己想要什么。
这跟Terence Tao那期播客讲的是一回事。猜想变得异常廉价的时候,昂贵的是验证机制。当模型本身不再是瓶颈,能精确描述"什么叫好"的人,比训练模型的人更稀缺。
出题这件事,说到底,是逼你先想清楚自己到底要什么。
补丁全白写
OpenAI内部有一条产品原则,Kevin管它叫"模型极大主义"。意思很简单,别花太多时间给模型当前版本的弱点打补丁。
因为两个月后新模型一出,那些补丁全白写了。
这跟传统软件工程是完全反过来的。以前做产品,底层是固定的,你的精力全在UI、容错、异常处理上面。Kevin说在OpenAI,底层本身在飞,你今天绞尽脑汁解决的边缘案例,下个版本的模型可能直接就不会出现了。
他用了一句艾森豪威尔的话来概括:计划没用,规划有用。OpenAI也做季度路线图,也写年度策略,也开全体会。但Kevin说他从不相信写在纸上的东西三个月后还会照做。规划的价值,是那个停下来集体问"我们学到了什么、接下来往哪走"的时刻。至于写在纸上的东西,过几周推翻了也正常。
这个判断跟他之前的职业经历有关系。他在传统科技公司做了十几年产品,见过太多给破烂底层打补丁的困局。Twitter、Instagram、Facebook都是这样,底层的社交图谱、信息流算法、广告系统几年不变,竞争全在表层。到了OpenAI他才发现,当底层本身在指数级变好,传统防御性工程思维全是负资产。
主持人Lenny提了一个具体的案例。Bolt这家公司默默做了七年产品都不行,Sonnet 3.5一出,所有功能突然全跑通了。这就是模型极大主义的反向验证。你真正在赌的,是底层的进化速度。至于工程能力,反而是次要的。
你也是一个被微调过的模型
Kevin讲OpenAI怎么内部做客服系统自动化的时候,提到了一个细节。
他们用了不止一个模型。有的处理简单问题,又快又便宜。有的需要推理能力,就上O系列模型,贵但准。特定场景的,单独微调了专门的知识库和语气。然后把这些模型拼在一起用,像搭积木。
说完他补了一句,这不就是一个公司吗。
每个人的大学专业、职业生涯,就是在做"微调"。你学了四年计算机,你被微调过。你在创业公司干过三年,你又多了一层微调。公司做的事情,就是把一群被不同方式微调过的人组合起来,产出超过任何单一个体的结果。
他说有的同事回答问题快但浅,有的人慢但深,有的从视觉出发,有的喜欢用文字。有些人更贵,有些人会幻觉。跟选模型一模一样。
这个类比的根是同一个数学事实。把不同专长的单元拼在一起,整体产出大于任何单一部分。你管理团队用的是这招,搭AI pipeline用的也是这招。只不过以前你只管理人,现在你两边都管。
Kevin说他很意外,大部分公司还是把一个通用模型当万能工具用,而不是把问题拆开,给每个子任务匹配最合适的模型。这跟管理失败是同一个病根,你让一个前端工程师去调数据库,双方都痛苦。
把它当人看
Kevin说过一个让他自己都意外的发现。设计AI产品的时候,你就把它当一个人去想,大多数时候这招都好使。
最早做推理模型的时候,团队遇到了一个UI问题。模型要思考10到25秒才能给出答案,这个时长很尴尬。不是25分钟你可以切到别的标签页,也不是即时响应。Kevin说他们就问了自己一个问题:如果我问你一个需要想20秒的问题,你会怎么做?
你不会完全闭嘴,但你也不会把脑子里每一个念头都说出来。你可能会说"嗯,这个问题问得好",然后大概讲一下你在往哪个方向想,最后给出答案。这就是他们最终设计的交互形态,给模型的思考过程做一个摘要,而不是暴露整条原始思维链。
DeepSeek后来出了完全暴露思维链的版本,很多人觉得新鲜。Kevin说他们内部试过,放在4亿用户规模上,没人想读模型在那自言自语好几段。
Kevin一个做了二十年社交产品的人会有这个直觉,其实一点不奇怪。社交产品的核心就是理解人。他只是把这套肌肉记忆搬到了AI上面。结果发现,底层是概率矩阵还是神经网络,在交互层上差别没那么大。
这个思路反过来也成立。Kevin推荐过一个技巧,就是在提问的时候塞进去几个"问题→好答案"的示例,他管这叫"穷人的微调"。跟前面出考题的逻辑是同一件事,你给它看几个范例,它就会往那个方向学。带一个新同事也一样,光说"你要做得好"没用,你得拿具体的给ta看。
出题这件事,说到底,是逼你先想清楚自己到底要什么。你要什么、怎么判断好坏、哪一步不行,这些在模型跑起来之前就已经定了。剩下的才是算力的事。
你今天用的AI模型,是你余生中用过的最差的。
夜雨聆风