从清华到OpenAI,翁家翌的5条人生算法:为什么学得慢的人反而走得更远?

从清华到OpenAI，翁家翌的5条人生算法：为什么学得慢的人反而走得更远？

本文约3300字，预计阅读时间：12分钟

翁家翌，清华大学计算机系本科，CMU硕士，2022年加入OpenAI。

从ChatGPT到GPT-4o再到GPT-5，OpenAI每一次核心模型发布的Blog上，都有他的名字。他搭建了整个post-training的强化学习基础设施——用他自己的话说，「每一家的infra都有不同程度的bug，谁修的bug越多，谁的模型训的就越好」，而他就是那个修bug最多的人。

这份简历已经足够让大多数人仰望了。

但如果你真的听完他长达2小时的访谈，你会发现一个让人意外的事实：他并不是那种从小碾压所有人的天才。

「我是一个学习相比于其他人算比较偏慢的人。学一个新的东西，我经常要花别人2到3倍的时间。」

这句话不是谦虚。他在OpenAI读代码的时候依然如此——比同事花更多时间理解整个context。在Mila暑研期间，他花了很长时间才入门Transformer。清华申请季，同学们带着一作论文申到了顶级PhD，他只拿到了Master。

那问题来了：一个承认自己学得慢的人，是怎么站到AI风暴中心的？

答案不在天赋里。答案在他的认知操作系统里——一套从小学就开始构建、持续迭代的决策框架。

一、正反馈筛选器：不是什么都努力，而是只在有正反馈的地方加倍投入

你有没有过这样的经历——

明明已经很努力了，但某件事就是做不好。身边的人说「再坚持一下」，老师说「功夫不负有心人」，于是你咬牙继续，越做越痛苦，越痛苦越怀疑自己。

我们从小被教育「坚持就是胜利」。但没有人告诉过我们：如果一件事需要你靠意志力死撑，那很可能方向已经错了。

翁家翌从一年级就开始学奥数。不是因为被家长逼，而是因为他发现自己做数学题比谁都快——「比如二年级的时候心算题，别人可能还没做完，我就已经做完了。那种不用过脑子的，用现在的话说就是System 1。」

每点一次技能树都有正反馈，再点一次又有正反馈，于是他就一直在这条路上走下去。

但真正让他跟大多数人拉开差距的，不是他选择了什么，而是他放弃了什么。

打篮球？「经常被舍友按着打。」放弃。跆拳道？「一打实战就被对手揍着打。」放弃。语文？「完全不感兴趣。」放弃。连数学竞赛省选，他评估后发现「没有那么早接触，学习起来非常累」，果断转去了信息学竞赛。

想想我们自己。有多少人在明知没有正反馈的事情上，一耗就是好几年？考研二战三战，不是因为热爱，而是因为「我都投入这么多了」。学一门不喜欢的语言、考一个用不上的证、做一份没有成就感的工作——我们不是不够努力，是太害怕放弃了。

翁家翌的筛选逻辑极其简单：

用正反馈判断天赋所在，用负反馈判断沉没成本。确认投入产出比低，立刻止损。

这个筛选器贯穿了他整个人生——从小学选奥数，到高中选OI而非数竞，到大学选RL infra而非算法研究，再到选工业界而非学术界。每一次选择，同一个逻辑：去正反馈最强的地方。

但承认「这件事我不行」需要极大的诚实。对大多数人来说，放弃比坚持更难——因为放弃意味着承认自己的局限。

而这种诚实，恰恰是他下一条算法的起点。

二、慢学者的逆袭策略：承认慢，然后用系统弥补

「学得慢」三个字，放在任何竞争环境里都像一个死刑判决。

在清华，周围的人一个比一个快。看一遍论文就能抓住核心思路的人大有人在，上午听完课下午就能复现代码的人比比皆是。如果你是那个需要花别人2-3倍时间才能搞懂一段代码的人，你会怎么办？

大多数人的反应是：要么否认（「我不慢，我只是还不够认真」），要么焦虑（「完了，我真的比别人差」）。

翁家翌的选择是：承认，然后用策略弥补。

第一招：学得慢，就提前学。

「因为我需要花更多的时间，所以我需要比别人提前学东西。」

别人初中学初中的东西，他初中学高中数学。初二学完高中课程，初三开始啃微积分。不是卷，不是焦虑，是一种冷静的计算——我知道我消化得慢，所以我给自己多留时间。

第二招：不记知识点，建直达通路。

「正常来说知识树有很多层，每次用最顶层的结论，你要从头到尾过一遍。但我可能直接建立一个shortcut，直接上去，不用反应了。」

他不是在记忆，而是在重新布线。就像别人走楼梯，他花更长时间修了一部电梯——但电梯一旦建好，永远比楼梯快。

他背课文也是一样：睡觉之前磕磕巴巴背出来，哪怕有很多停顿。睡一觉，第二天醒来倒背如流。不是靠重复，是让大脑在睡眠中完成深度编码。

第三招：用极端方式锻炼底层硬件。

高三备考期间，他用iPad的Safari浏览器直接裸打代码——没有编辑器，没有编译器，没有语法高亮。写完直接提交，靠大脑模拟运行。

「这种方式强迫我在大脑中构建程序逻辑，训练思考和反应能力。」

这看起来是自讨苦吃。但他不是在做题，他是在训练思维的底层硬件。就像拳击手在沙地上跑步——不是为了在沙地比赛，是为了回到正常赛道时比所有人都快。

学得慢不是诅咒。不知道自己慢、也不知道怎么应对，才是。

但光知道自己慢还不够。他还有一种大多数同龄人不具备的东西——对时间的本能敏感。

三、投资未来的元认知：初中生的时间套利

问你一个问题：你现在做的事，有多少是对三年后的你有价值的？

大多数人的日常被「紧急」的事填满——今天的作业、这周的DDL、下个月的考试。我们像仓鼠一样在轮子上跑，很忙，但很少停下来问：这些忙碌，到底在通往哪里？

翁家翌在初二的时候就问了这个问题。

当主持人问他「为什么初中就想提前学高中数学」时，他说：

「我想投资未来。我想投资我自己的未来。」

主持人追问：这个想法是父母教的吗？

「不是。我父母根本不太关心我怎么学。」

一个初二学生，在没有人指点的情况下，自发地把当下的时间视为一种可以投资的资源——而不是一段被动经历的过程。

「与其说我现在浪费时间在刷题上面，不如学一点对未来有用的东西，后面的收益可能更多。」

这本质上是一种时间套利：用当下的低成本时间，换取未来的高价值能力。初中数学题对他来说边际收益趋近于零。但微积分，在未来会产生复利。

这种思维在后来反复出现：

• 大四不急着发论文，花时间做天授（开源RL框架），为整个社区搭基建
• 申请季没拿到PhD，不纠结，选Master直奔工业界
• 在OpenAI搭infra而非做具体模型调参——因为infra能让他的贡献体现在每一个核心产品的发布上

他从来不做「当下看起来最正确」的事。他做的是「三年后回头看最正确」的事。

但要做到这一点，你需要一种能力：跳出当前环境的评价标准，用自己的尺子衡量什么是值得的。

而这，正是他最叛逆、也最清醒的地方。

四、独立的评价体系：在清华拒绝GPA崇拜

你有没有想过——你现在拼命追求的那些东西，GPA、学历、头衔，真的是你想要的？还是环境告诉你「应该想要」的？

清华是一个极其容易被同化的地方。GPA越高越好，PhD远比Master好，论文越多越好——身在其中，你很难不被卷进去。

翁家翌卷进去了吗？

没有。他很早就想清楚了一件事：自己要进工业界，不是学术界。

「GPA选择在最少时间达到够用的成绩就行，重点是在行业里积累经验。」

「如果你想进工业界，那读PhD就是浪费生命。教一个researcher如何做好engineering，要远比教一个engineer如何做好research来得难。」

他自己的核心指标只有一个——有多少人在使用他做的东西。

这就是为什么暑研没出成果、申请季只拿到Master，他没有崩溃。因为在他的坐标系里，这些根本不是核心指标。

想想我们自己有多少焦虑，是因为在用别人的尺子量自己？绩点3.5的人羡慕3.8的，3.8的羡慕保研的，保研的羡慕直博的——但有几个人停下来问过：这条路的终点，是我想去的地方吗？

当你用别人的标尺衡量自己，你永远在追赶。当你有了自己的标尺，你才知道自己在哪里。

翁家翌不是逃避竞争。他是选择了一个自己有绝对正反馈的竞争维度——「把工程做到极致，让成千上万人用自己的代码」。在这个维度上，他有强烈的正反馈。

你看，所有选择的底层，还是那个筛选器在运转。

而这套逻辑最反直觉的一次输出，发生在他决定把自己的「竞争优势」免费送给所有人的时候。

五、打破信息差：把代码视为一种慈善

在任何竞争环境里，信息差就是权力。你知道的比别人多，你就比别人强。

在清华尤其如此。哪个教授给分高、哪门课往年考什么、作业的正确思路是什么——这些信息通常只在小圈子里流通。知道的人活得轻松，不知道的人疲于奔命。

翁家翌做了一件很多人觉得「傻」的事：他把自己收集到的所有作业和历年材料，全部在GitHub上开源了。

「你在清华随便抓一个计算机系的学弟问，你认不认识捐了新系楼的人？不认识。你认不认识翁家翌？应该认识，因为大家都看我的作业活下来。」

为什么要做这种「损己利人」的事？

「很多人其实不擅长搜集东西，但他其实很有能力。如果能给这些人一个信息平权的机会，他在清华可能会活得更好。」

后来做天授（开源RL框架）、做退学Online（免费签证查询系统），都是同样的逻辑——用自己的能力降低别人的门槛。

但这件事最有意思的地方在于：看起来他在散播优势，实际上他在建立更深的护城河。

当你成为信息的枢纽节点，你收获的不是信息本身的价值，而是网络效应——声誉、信任、影响力。开源作业让他成了清华计算机系的一个「品牌」。天授让他在RL社区有了声量。这些都在后来转化为了真实的职业资本。

他对「有用」的定义始终面向真实用户。他明确说「发paper完全没有意义」。退学Online早期甚至是手动更新数据的，技术粗糙到不行，但它解决了留学生的燃眉之急。

技术的复杂程度不重要，精准命中需求才重要。

大多数人在积攒优势。翁家翌在散播优势——然后在散播的过程中，建立了比积攒更深的壁垒。

写在最后

回到最初的问题：一个承认自己学得慢的人，是怎么站到AI风暴中心的？

不是天赋，不是运气。是一套极其诚实的自我认知，加上一套持续运转的决策系统：

• 没有正反馈？果断放弃，去有正反馈的地方。
• 学得慢？那就提前学，用深度换速度。
• 时间有限？只投资对未来有复利的事。
• 环境的标准不适合自己？那就建一套自己的。
• 拥有优势？散播出去，让优势变成影响力。

这五条算法的底层是同一个东西：不跟环境的默认规则死磕，找到自己的最优解。

大多数人面对「别人比我强」这个事实，选择的是更努力地追赶。翁家翌的选择是：承认差距，然后换一条自己有优势的路。

他在访谈最后说了一句意味深长的话：

「AGI是板上钉钉的事了。曾经觉得很喜欢的RL Infra也好，做有impact的事也好，现在反而处在人生的某个迷茫期。」

连站在AI风暴中心的人都在迷茫。

但或许这正是他的操作系统在运行——当一条路上的正反馈开始消退，筛选器就会重新启动，驱使他去寻找下一个值得全力投入的方向。

这不是迷茫。这是系统在等待下一个信号。