Andrej Karpathy,1986年出生于斯洛伐克(Slovakia),成长于一个普通家庭。年幼时随家人移民加拿大,这段经历让他比同龄人更早学会了适应新环境。
2005年,他进入加拿大本科学习计算机科学。本科毕业后,他直接申请了斯坦福大学的 PhD 项目,拜入 Geoffrey Hinton 门下——没错,就是那个被称为"深度学习之父"、2024年获得诺贝尔物理学奖的 Hinton。
在斯坦福读博期间,Karpathy展现了惊人的教学天赋。他开设的课程CS231n(Convolutional Neural Networks for Visual Recognition) 成为斯坦福最受欢迎的深度学习课程之一,课堂录像在网络上疯传,至今仍是全球 AI 自学者必看的经典教程。他的讲座风格独特:用大白话讲最硬的数学,用代码现场推导每一步公式,学生们称他"能把反向传播讲到你会为止"。
2009年,他在斯坦福获得计算机科学 PhD 学位。
2011-2015:DeepMind 初露锋芒
博士毕业后,Karpathy 加入 DeepMind(当时还是一家小创业公司)。在那里的几年,他参与了一个"能在像素层面学会玩 Atari 游戏"的强化学习项目——这个项目后来演变为著名的 DeepMind DQN,直接奠定了强化学习在游戏 AI 领域的统治地位。
这段经历让他积累了强化学习 + 深度学习结合的实战经验,也为后来加入特斯拉埋下了伏笔。
2015-2017:OpenAI 创业元老
作为 OpenAI 的创始成员之一,Karpathy 从公司创立之初就参与其中。OpenAI 聚集了 Ilya Sutskever、Greg Brockman 等一批顶级 AI 人才,Karpathy 是少数几个横跨研究和工程的人。他参与构建的早期 GPT 模型训练框架,为后来的 GPT-2、GPT-3 奠定了基础。
2017-2022:特斯拉——从高光到风暴
2017年,Karpathy 加入特斯拉,头衔是 Director of AI,直接向 Elon Musk 汇报。他领导 Autopilot 的计算机视觉团队,负责特斯拉所有自研神经网络训练、数据标注、推理芯片部署。
在特斯拉的五年,是他职业生涯中最受争议也最耀眼的五年。
高光时刻:
• 他主导设计的 Autopilot 视觉感知系统,成为特斯拉自动驾驶的核心壁垒
• 2021年特斯拉 AI Day,他站在台上向全世界展示特斯拉如何用纯视觉方案实现自动驾驶,成为当年 AI 圈最轰动的事件之一
• 他带队构建了特斯拉自有的Dojo 超算,用于超大规模神经网络训练
风暴时刻:
• 2022年,特斯拉频繁出事故,Autopilot 安全争议不断,Musk 多次公开施压
• 2022年7月,Karpathy 突然宣布从特斯拉离职。他发推说"这是个艰难的决定",但没有解释具体原因
• 离开后,他在社交媒体上表现出明显的疲惫感——那个在斯坦福课堂上意气风发的教授,被特斯拉的运营压力磨去了棱角
2023-2024:回归 OpenAI
离开特斯拉后,Karpathy 短暂休整。2023年,他重返 OpenAI,这次他不再做基础研究,而是组建了一支专注于中训练(mid-training)和合成数据生成的团队。他的任务是:找到方法让已经预训练好的大模型,通过高质量合成数据进一步提升能力。
这个方向现在被称为"后训练"(post-training)的核心赛道,是让 ChatGPT 变得更好用的关键技术之一。
Karpathy 的影响力,很大程度上来自他做事的风格:不追求论文数量,不刷引用排名,只做"能让普通人看懂 AI"的事情。
最著名的三件事:
1. 让全世界看懂 RNN
2015年,他发表博客文章 《The Unreasonable Effectiveness of Recurrent Neural Networks》,用极其直白的语言讲解 RNN(循环神经网络)为什么有效。这篇文章至今在 GitHub 上被收藏超过 3 万次,几乎是每个 NLP 研究者入门必读。
2. nanoGPT:手把手教你造 GPT
2023年初,他在 GitHub 上传了一个 nanoGPT 项目——从头用不到 300 行 Python 代码实现了一个可训练的 GPT 模型。这件事的意义不在于技术突破,而在于他用最透明的方式,拆解了"大模型到底是怎么炼成的"。整个 AI 圈为之震动,开发者们第一次看到,原来 GPT 的核心原理可以这么清晰地被解释。
3. YouTube 频道:用"人话"讲 AI
2024年,他开始在 YouTube 上系统性发布 AI 科普视频。他的风格独树一帜:
• 技术向:Zero to Hero 系列,从零讲解深度学习,适合想真正入行的程序员
• 科普向:Deep Dive into LLMs,适合有一定基础但想深入理解大模型工作原理的人
他在视频里不堆术语,不讲废话,每一步推导都现场写代码。有人说,看他的视频就像"在斯坦福旁听了一门最好的课"。
关于他的性格,AI 圈有几个共识:
极度真实。 他在 Twitter 上异常活跃,会直接承认"我不知道这个模型为什么效果好"。面对批评,他不会删帖拉黑,而是认真回应。这种风格在 AI 圈大佬中极为罕见。
较真。 在斯坦福教书时,他对学生的作业要求极高,但他自己也从不敷衍。他的 CS231n 课程作业是出了名的"做完能真正理解反向传播"——不是调调 API 就完事,而是真的从底层实现每一个算法。
热爱教学。 离开特斯拉后,他没有去更高的管理岗位,而是选择做内容、做教程。他曾说:"我想让更多人感受到 AI 的力量,而不是让 AI 变成少数人的专属玩具。"
一件小事:
2016年,他在自己的博客上发表了一篇 《A Survival Guide to a PhD》,写给所有想读博士的年轻人。文章坦诚到令人惊讶——他写了博士生涯的各种坑:如何选导师、如何面对实验失败、如何在论文被拒后保持心态。这篇文章被翻译成十几种语言,至今是计算机方向留学生必读指南。
关于争议:
2022年离开特斯拉时,有人猜测是因 Musk 施压,也有人猜测是 Autopilot 项目方向分歧。Karpathy 本人从未公开回应具体原因,他在 Twitter 上只留下一句:"有时候,你需要给自己一些空间。"
对 AI 行业:
Karpathy 可能是全球范围内,把深度学习讲得最清楚的人之一。他的教程影响了数以百万计的自学者,包括现在很多一线 AI 公司的研究员和工程师。
他主导的特斯拉 Autopilot 视觉系统,虽然争议不断,但证明了端到端深度学习可以解决真实的自动驾驶问题,为整个行业指明了一条可落地的技术路线。
他回归 OpenAI 后主攻的合成数据生成,正在成为大模型后训练的核心赛道——这意味着你今天用到的更好的 ChatGPT,可能就有他的贡献。
对普通人的启示:
他说过一句话,被无数人截图保存:
(神经网络没什么神奇,它只是一堆层的堆叠,只要你愿意去理解,就一定能理解。)
这句话的潜台词是:AI 不是天才的专属领域,普通人也可以入门。他的 nanoGPT 就是证明——300 行代码,从零到 GPT,一个初学者只要有基础 Python 能力,就能完整复现。
Andrej Karpathy 的故事,是一个从斯洛伐克普通家庭出发、一路走到 AI 舞台中央的故事。他没有显赫家世,没有名校光环加持(至少在 2009 年深度学习还是冷门时没有),有的只是对 AI 的热爱和把复杂问题讲简单的天赋。
他让我们看到,真正的大师不只是写出突破性论文的人,更是能让普通人也理解、也爱上这项技术的人。
金句
"不要害怕看不懂。神经网络的第一步,永远是你愿意坐下来,花时间去看懂它。"
1. Andrej Karpathy 个人网站:https://karpathy.ai/
2. 斯坦福大学 CS231n 课程主页:https://cs231n.stanford.edu/
3. GitHub nanoGPT 项目:https://github.com/karpathy/nanoGPT
4. Andrej Karpathy 博客 PhD 生存指南:http://karpathy.github.io/2016/09/07/phd/
5. TechCrunch 报道 Tesla 雇佣 Karpathy:https://techcrunch.com/2017/06/20/tesla-hires-deep-learning-expert-andrej-karpathy-to-lead-autopilot-vision/
6. YouTube @AndrejKarpathy 频道:https://www.youtube.com/@AndrejKarpathy
7. 《A Survival Guide to a PhD》原文:http://karpathy.github.io/2016/09/07/phd/
8. 2021年特斯拉 AI Day 视频:https://www.youtube.com/watch?v=j0z4FweCy4M
夜雨聆风