从清华到OpenAI,翁家翌的5条人生算法:为什么学得慢的人反而走得更远?

本文约3300字,预计阅读时间:12分钟
翁家翌,清华大学计算机系本科,CMU硕士,2022年加入OpenAI。
从ChatGPT到GPT-4o再到GPT-5,OpenAI每一次核心模型发布的Blog上,都有他的名字。他搭建了整个post-training的强化学习基础设施——用他自己的话说,「每一家的infra都有不同程度的bug,谁修的bug越多,谁的模型训的就越好」,而他就是那个修bug最多的人。

这份简历已经足够让大多数人仰望了。
但如果你真的听完他长达2小时的访谈,你会发现一个让人意外的事实:他并不是那种从小碾压所有人的天才。
「我是一个学习相比于其他人算比较偏慢的人。学一个新的东西,我经常要花别人2到3倍的时间。」
这句话不是谦虚。他在OpenAI读代码的时候依然如此——比同事花更多时间理解整个context。在Mila暑研期间,他花了很长时间才入门Transformer。清华申请季,同学们带着一作论文申到了顶级PhD,他只拿到了Master。
那问题来了:一个承认自己学得慢的人,是怎么站到AI风暴中心的?
答案不在天赋里。答案在他的认知操作系统里——一套从小学就开始构建、持续迭代的决策框架。

一、正反馈筛选器:不是什么都努力,而是只在有正反馈的地方加倍投入
你有没有过这样的经历——
明明已经很努力了,但某件事就是做不好。身边的人说「再坚持一下」,老师说「功夫不负有心人」,于是你咬牙继续,越做越痛苦,越痛苦越怀疑自己。
我们从小被教育「坚持就是胜利」。但没有人告诉过我们:如果一件事需要你靠意志力死撑,那很可能方向已经错了。
翁家翌从一年级就开始学奥数。不是因为被家长逼,而是因为他发现自己做数学题比谁都快——「比如二年级的时候心算题,别人可能还没做完,我就已经做完了。那种不用过脑子的,用现在的话说就是System 1。」

每点一次技能树都有正反馈,再点一次又有正反馈,于是他就一直在这条路上走下去。
但真正让他跟大多数人拉开差距的,不是他选择了什么,而是他放弃了什么。
打篮球?「经常被舍友按着打。」放弃。跆拳道?「一打实战就被对手揍着打。」放弃。语文?「完全不感兴趣。」放弃。连数学竞赛省选,他评估后发现「没有那么早接触,学习起来非常累」,果断转去了信息学竞赛。
想想我们自己。有多少人在明知没有正反馈的事情上,一耗就是好几年?考研二战三战,不是因为热爱,而是因为「我都投入这么多了」。学一门不喜欢的语言、考一个用不上的证、做一份没有成就感的工作——我们不是不够努力,是太害怕放弃了。
翁家翌的筛选逻辑极其简单:
用正反馈判断天赋所在,用负反馈判断沉没成本。确认投入产出比低,立刻止损。

这个筛选器贯穿了他整个人生——从小学选奥数,到高中选OI而非数竞,到大学选RL infra而非算法研究,再到选工业界而非学术界。每一次选择,同一个逻辑:去正反馈最强的地方。
但承认「这件事我不行」需要极大的诚实。对大多数人来说,放弃比坚持更难——因为放弃意味着承认自己的局限。
而这种诚实,恰恰是他下一条算法的起点。
二、慢学者的逆袭策略:承认慢,然后用系统弥补
「学得慢」三个字,放在任何竞争环境里都像一个死刑判决。
在清华,周围的人一个比一个快。看一遍论文就能抓住核心思路的人大有人在,上午听完课下午就能复现代码的人比比皆是。如果你是那个需要花别人2-3倍时间才能搞懂一段代码的人,你会怎么办?
大多数人的反应是:要么否认(「我不慢,我只是还不够认真」),要么焦虑(「完了,我真的比别人差」)。
翁家翌的选择是:承认,然后用策略弥补。
第一招:学得慢,就提前学。
「因为我需要花更多的时间,所以我需要比别人提前学东西。」
别人初中学初中的东西,他初中学高中数学。初二学完高中课程,初三开始啃微积分。不是卷,不是焦虑,是一种冷静的计算——我知道我消化得慢,所以我给自己多留时间。
第二招:不记知识点,建直达通路。
「正常来说知识树有很多层,每次用最顶层的结论,你要从头到尾过一遍。但我可能直接建立一个shortcut,直接上去,不用反应了。」
他不是在记忆,而是在重新布线。就像别人走楼梯,他花更长时间修了一部电梯——但电梯一旦建好,永远比楼梯快。
他背课文也是一样:睡觉之前磕磕巴巴背出来,哪怕有很多停顿。睡一觉,第二天醒来倒背如流。不是靠重复,是让大脑在睡眠中完成深度编码。
第三招:用极端方式锻炼底层硬件。
高三备考期间,他用iPad的Safari浏览器直接裸打代码——没有编辑器,没有编译器,没有语法高亮。写完直接提交,靠大脑模拟运行。
「这种方式强迫我在大脑中构建程序逻辑,训练思考和反应能力。」
这看起来是自讨苦吃。但他不是在做题,他是在训练思维的底层硬件。就像拳击手在沙地上跑步——不是为了在沙地比赛,是为了回到正常赛道时比所有人都快。
学得慢不是诅咒。不知道自己慢、也不知道怎么应对,才是。

但光知道自己慢还不够。他还有一种大多数同龄人不具备的东西——对时间的本能敏感。
三、投资未来的元认知:初中生的时间套利
问你一个问题:你现在做的事,有多少是对三年后的你有价值的?
大多数人的日常被「紧急」的事填满——今天的作业、这周的DDL、下个月的考试。我们像仓鼠一样在轮子上跑,很忙,但很少停下来问:这些忙碌,到底在通往哪里?
翁家翌在初二的时候就问了这个问题。
当主持人问他「为什么初中就想提前学高中数学」时,他说:
「我想投资未来。我想投资我自己的未来。」
主持人追问:这个想法是父母教的吗?
「不是。我父母根本不太关心我怎么学。」
一个初二学生,在没有人指点的情况下,自发地把当下的时间视为一种可以投资的资源——而不是一段被动经历的过程。
「与其说我现在浪费时间在刷题上面,不如学一点对未来有用的东西,后面的收益可能更多。」
这本质上是一种时间套利:用当下的低成本时间,换取未来的高价值能力。初中数学题对他来说边际收益趋近于零。但微积分,在未来会产生复利。
这种思维在后来反复出现:
• 大四不急着发论文,花时间做天授(开源RL框架),为整个社区搭基建 • 申请季没拿到PhD,不纠结,选Master直奔工业界 • 在OpenAI搭infra而非做具体模型调参——因为infra能让他的贡献体现在每一个核心产品的发布上
他从来不做「当下看起来最正确」的事。他做的是「三年后回头看最正确」的事。

但要做到这一点,你需要一种能力:跳出当前环境的评价标准,用自己的尺子衡量什么是值得的。
而这,正是他最叛逆、也最清醒的地方。
四、独立的评价体系:在清华拒绝GPA崇拜
你有没有想过——你现在拼命追求的那些东西,GPA、学历、头衔,真的是你想要的?还是环境告诉你「应该想要」的?
清华是一个极其容易被同化的地方。GPA越高越好,PhD远比Master好,论文越多越好——身在其中,你很难不被卷进去。
翁家翌卷进去了吗?
没有。他很早就想清楚了一件事:自己要进工业界,不是学术界。
「GPA选择在最少时间达到够用的成绩就行,重点是在行业里积累经验。」
「如果你想进工业界,那读PhD就是浪费生命。教一个researcher如何做好engineering,要远比教一个engineer如何做好research来得难。」
他自己的核心指标只有一个——有多少人在使用他做的东西。
这就是为什么暑研没出成果、申请季只拿到Master,他没有崩溃。因为在他的坐标系里,这些根本不是核心指标。
想想我们自己有多少焦虑,是因为在用别人的尺子量自己?绩点3.5的人羡慕3.8的,3.8的羡慕保研的,保研的羡慕直博的——但有几个人停下来问过:这条路的终点,是我想去的地方吗?
当你用别人的标尺衡量自己,你永远在追赶。当你有了自己的标尺,你才知道自己在哪里。

翁家翌不是逃避竞争。他是选择了一个自己有绝对正反馈的竞争维度——「把工程做到极致,让成千上万人用自己的代码」。在这个维度上,他有强烈的正反馈。
你看,所有选择的底层,还是那个筛选器在运转。
而这套逻辑最反直觉的一次输出,发生在他决定把自己的「竞争优势」免费送给所有人的时候。
五、打破信息差:把代码视为一种慈善
在任何竞争环境里,信息差就是权力。你知道的比别人多,你就比别人强。
在清华尤其如此。哪个教授给分高、哪门课往年考什么、作业的正确思路是什么——这些信息通常只在小圈子里流通。知道的人活得轻松,不知道的人疲于奔命。
翁家翌做了一件很多人觉得「傻」的事:他把自己收集到的所有作业和历年材料,全部在GitHub上开源了。
「你在清华随便抓一个计算机系的学弟问,你认不认识捐了新系楼的人?不认识。你认不认识翁家翌?应该认识,因为大家都看我的作业活下来。」
为什么要做这种「损己利人」的事?
「很多人其实不擅长搜集东西,但他其实很有能力。如果能给这些人一个信息平权的机会,他在清华可能会活得更好。」
后来做天授(开源RL框架)、做退学Online(免费签证查询系统),都是同样的逻辑——用自己的能力降低别人的门槛。
但这件事最有意思的地方在于:看起来他在散播优势,实际上他在建立更深的护城河。
当你成为信息的枢纽节点,你收获的不是信息本身的价值,而是网络效应——声誉、信任、影响力。开源作业让他成了清华计算机系的一个「品牌」。天授让他在RL社区有了声量。这些都在后来转化为了真实的职业资本。
他对「有用」的定义始终面向真实用户。他明确说「发paper完全没有意义」。退学Online早期甚至是手动更新数据的,技术粗糙到不行,但它解决了留学生的燃眉之急。
技术的复杂程度不重要,精准命中需求才重要。
大多数人在积攒优势。翁家翌在散播优势——然后在散播的过程中,建立了比积攒更深的壁垒。

写在最后
回到最初的问题:一个承认自己学得慢的人,是怎么站到AI风暴中心的?
不是天赋,不是运气。是一套极其诚实的自我认知,加上一套持续运转的决策系统:
• 没有正反馈?果断放弃,去有正反馈的地方。 • 学得慢?那就提前学,用深度换速度。 • 时间有限?只投资对未来有复利的事。 • 环境的标准不适合自己?那就建一套自己的。 • 拥有优势?散播出去,让优势变成影响力。
这五条算法的底层是同一个东西:不跟环境的默认规则死磕,找到自己的最优解。
大多数人面对「别人比我强」这个事实,选择的是更努力地追赶。翁家翌的选择是:承认差距,然后换一条自己有优势的路。
他在访谈最后说了一句意味深长的话:
「AGI是板上钉钉的事了。曾经觉得很喜欢的RL Infra也好,做有impact的事也好,现在反而处在人生的某个迷茫期。」
连站在AI风暴中心的人都在迷茫。
但或许这正是他的操作系统在运行——当一条路上的正反馈开始消退,筛选器就会重新启动,驱使他去寻找下一个值得全力投入的方向。
这不是迷茫。这是系统在等待下一个信号。
夜雨聆风