1986年10月23日,Andrej Karpathy 出生于斯洛伐克首都布拉迪斯拉瓦。15岁那年,他的父母做出一个艰难的决定——放弃安稳的生活,带着他和妹妹移民加拿大多伦多,为两个孩子寻找更广阔的发展机会。这份牺牲在 Karpathy 心中埋下了一颗种子。多年后他坦言:"很大程度上,正是我想证明父母的这次冒险是正确的、让他们感到骄傲的决心,驱动着我一路前行。"

少年时代的 Karpathy 展现出对模式破解的痴迷——他能在不到16秒内还原一个魔方。这种对复杂模式的敏锐直觉,在人工智能领域被证明是无价的财富。

学术觉醒:从量子力学到人工智能
在多伦多大学,Karpathy 主修计算机科学与物理学。最初他的职业规划是进入量子计算领域,但当真正沉浸于量子力学课堂时,他感到某种不对劲。
在一段采访中他回忆道:"我逐渐意识到自己并不享受这个过程。它太遥不可及,局限性太强,我无法真正动手实践。"
就在这时,一个图书馆的午后彻底改变了他的人生轨迹。站在无尽的书架之间,Karpathy 意识到他想学习所有书籍中的知识——但这显然不可能,人类的精力根本无法消化如此庞大的知识海洋。"如果我无法亲自学会所有的知识,也许我可以创造一个能够学习的机器。" 带着这个念头,他将研究重心转向机器学习,一门专注于教计算机识别模式、从数据中学习的AI分支。

师从大师:从Hinton到Fei-Fei Li的学术进化
Karpathy 的学术轨迹与AI发展史上的关键节点紧密交织。在多伦多大学,他选修了 Geoffrey Hinton 的课程——这位教授后来被誉为"AI教父"。2012年,Hinton 与他的学生们训练的神经网络 AlexNet 在 ImageNet 竞赛中惊艳全场,以远低于竞争对手的图像识别错误率震动了整个AI世界。这一年被广泛视为深度学习革命的起点。

随后,Karpathy 前往不列颠哥伦比亚大学攻读硕士学位,研究方向是物理模拟机器人。这些系统并非通过手动编程控制每一个动作,而是通过学习来遵守物理定律——平衡、跌倒、移动,其行为几乎与生命体无异。"与其编写程序规定每一个动作,不如让系统自己理解物理世界的规则。" 这个理念贯穿了他后来的整个职业生涯。
博士阶段,Karpathy 来到斯坦福大学,师从计算机视觉领域最具影响力的研究者之一李飞飞教授。他后来多次感谢这位导师:"她教会了我如何思考。"

深度学习时代的洞察:计算机视觉的本质局限
在斯坦福期间,Karpathy 的研究聚焦于一个极具挑战性的课题:让计算机不仅能识别图像,还能用自然语言描述图像内容。
传统AI系统的运作方式相对简单——分类标签,比如"大象"、"婴儿"、"里约热内卢基督像"。但 Karpathy 想要突破这个边界:"机器能否用人类语言描述它所看到的东西?"
一个生动的例子是:他家宠物狗 Luffy 的照片。早期AI系统只会输出标签"哈士奇",而更新一代的系统能够生成这样的描述:"一只哈士奇混血犬四脚朝天瘫在狗窝里,其中一只腿尴尬地翘在空中。"

这种能力听起来神奇,但在2010年代初期,让计算机自然地描述一张图片被认为近乎天方夜谭。这个突破并非自然发生,而是无数学者不懈推动的结果。
2012年,在许多重大突破之前,Karpathy 曾陷入深深的沮丧。他写下博文《计算机视觉与AI的现状:我们真的差得太远》,文中用一张图解释了这一困境:巴拉克·奥巴马偷偷用脚压在体重秤上,而一个男人正站在秤上。人类几乎能瞬间理解这个恶作剧的笑点。
但 Karpathy 意识到,计算机要真正理解这张图,需要掌握大量隐含知识——镜中倒影中的人是真实的还是反射、奥巴马的脚正在施加力、这会增加体重读数、人们对体重敏感、秤上的人毫不知情、旁观者觉得他的困惑很有趣、由总统来执行这个恶作剧使其更加滑稽。人类在一瞬间处理海量信息,甚至没有意识到自己在做什么。"我们怎么可能开始编写一个能像人类一样推理这个场景的算法?" 他在文末绝望地写道:"无论如何,我们真的差得太远,这让我很沮丧。出路在哪里?:("
从悲观到引领:人机对决的惊人发现
Karpathy 的悲观可以理解,因为那张奥巴马图片确实暴露了AI系统的巨大缺陷。然而,接下来发生的事几乎让所有人震惊。
在接下来十年间,视觉模型取得了惊人的进步。2014年,Karpathy 做了一个大胆的实验:他手工标注了大约1500张高难度图片,与当时全球最先进的图像识别系统 GoogLeNet——Google为 ImageNet 竞赛打造的神经网络——进行直接对抗。结果令人瞠目结舌:Karpathy 的错误率是5.1%,GoogLeNet 是6.8%。人类勉强获胜。

但更值得深思的是:在某些特定场景下,机器实际上表现得更好。神经网络在大规模数据集上检测细微视觉差异的能力已经达到了惊人的水平,在识别狗的品种等任务上甚至超越了人类。Karpathy 从中领悟到一个深刻的道理:"很明显,人类很快将只能通过大量的努力、专业知识积累和漫长的时间才能超越最先进的图像分类模型。"
换句话说:机器正在以前所未有的速度追赶人类。
特斯拉岁月:从理论到自动驾驶的跨越
这一认知的意义远不止于学术研究。当神经网络终于能够足够好地感知世界时,AI领域最雄心勃勃的目标之一变得触手可及——自动驾驶汽车。
Karpathy 成为 OpenAI 的创始成员之一,随后被埃隆·马斯克亲自从 OpenAI 挖走,出任特斯拉 Autopilot 的计算机视觉团队负责人。在一封写给工程师 Jim Keller 的邮件中,马斯克直言不讳:"Andrej 在计算机视觉领域仅次于 Ilya Sutskever,堪称世界第二。OpenAI 的人可能会想杀了我,但这是必须的。"
他的团队负责设计神经网络,将车辆八个摄像头的视频流整合为对三维世界的统一理解。这些网络需要解读车道、车辆、行人、停车标志、交通信号灯等一切道路元素。
但项目初期遇到了重大障碍。特斯拉最初的做法是分别处理每个摄像头的画面,再在后期合并结果。这种方式效果很差——每个摄像头对世界的理解略有不同,最终的三维表示混乱不堪。
在 Karpathy 的主导下,特斯拉做出了关键改变:不再分别处理图像再后期融合,而是让单一神经网络同时接收所有摄像头的输入。 网络直接从所有数据中同步学习统一的、一致的三维表示。
后来的效果用他自己的话说:"简直是判若云泥。你真的可以靠这个开车了。"
五年后,他短暂回归 OpenAI,但很快又开启新的篇章——创办AI教育公司 Eureka Labs,将全部精力投入培养下一代。

跨越AI浪潮:顶级工程师的持续进化
在个人YouTube频道上,Karpathy 开始发布深度教育视频,内容涵盖大型语言模型如 ChatGPT 的运作原理。这些视频已累计数百万观看。
到这时,AI已经进化到令 Karpathy 本人都始料未及的程度。他发明了一个词——"vibe coding"——来描述一场重大转变:开发者越来越多地扮演引导者的角色,指导AI系统完成工作,而非亲自编写每一行代码。正如他本人所说:"我几乎不怎么碰键盘了。"
即便如此,AI巨头们仍在争相抢夺世界上最优秀的研究人员。Anthropic——Claude 的开发公司——将 Karpathy 招入预训练团队,负责教会 Claude 如何理解这个世界。他现在正帮助打造下一代更强大的 Claude。
这场人才争夺战的激烈程度令人咋舌:据报道,Meta 已向 OpenAI 员工开出高达1亿美元的签约奖金以吸引他们跳槽。
然而,即便站在AI世界之巅,Karpathy 依然感到力不从心。他在推特上写道:"作为一名程序员,我从未感到如此落后。"
金句卡片
"如果我无法学会所有的知识,也许我可以创造一个能够学习的机器"
"人类的图像分类能力很快将只能通过大量的努力、专业知识积累和漫长的时间才能超越最先进的模型"
"在AI时代,最危险的不是被机器取代,而是停止学习"
夜雨聆风