红杉AI峰会之Andrej Karpathy:由菜单宝引发的范式思考——从氛围编程到智能体工程
Andrej Karpathy:由菜单宝引发的范式思考——从氛围编程到智能体工程
2026 Sequoia Capital 红杉 Ascent AI 峰会 — Andrej Karpathy 访谈
Watch on YouTube[1]
Andrej Karpathy 走进 Sequoia Capital 的办公室,抛出一句你很难从一位传奇程序员口中听到的话:「我作为程序员,从未感觉如此落后。」
那个一起创立了 OpenAI 的人,那个设计了整整一代人 AI 课程的人,那个比地球上任何人都更会解释 Transformer(目前所有前沿大模型的技术架构)的人,告诉你他觉得自己落后了?因为”菜单宝”?这不是谦逊。这是一个信号。
接下来的 30 分钟里,是一场深刻、时而幽默、充满哲学密度的对话,关于软件工程的未来走向——以及机器的能力边界中,哪些东西至今依然属于人类。
先来一个太长不看版
-
Karparthy 在访谈中认为建立一个思维框架非常重要,即 AI 模型是什么?不要把 AI 过度拟人化,也不要过度拟物化。AI 模型就是一个数据统计和模拟的回路,叠加强化学习(本质上也是数学函数)。听起来像是一个哲学问题,但 Karparthy 认为一个正确的思维框架将有助于你更好地获得 AI 模型的能力,增强自己。
-
人类依然拥有 AI 无法具备的高维认知,对世界的洞察,品味,判断力,这些是模型无法在数据分布中提取的知识维度。
-
理解力是人类独有的一个内质,但也是人类认知的一个瓶颈,AI 模型帮助提炼和增进个人知识积累,增强人的理解力,AI 往这个方向发展令人兴奋。
-
Karparthy 引用读到的一段话—-“你可以外包思考,但不能外包理解”。对上一论点背书。
-
Vibe Coding 直接拆掉了编程的门槛,是 AI 的普惠性,但软件工程仍然是一个严肃的工程学科,有严格的质量标准,它的升维是 Agentic Engineering,即智能体工程。智能体工程将推高 AI 编程的水平到一个极高的上限。
-
现有的技术栈几乎都是为人编写的,以后的基础设施应该是以智能体为中心打造,未来无论是个人还是企业都会有一个智能体代表,智能体之间会有很多交互。憧憬一个智能体原生的世界。
-
神经元计算机!建立在 GPU 集群上的大型神经网络将主导计算和算力支出,传统的基于 CPU 的软件成为协行附属。
-
2025 年 12 月是一个巨大的转折点,Agent 的能力发生了范式巨变,实现了基本自主完成任务。AI 模型的端到端交付能力形成,Karpathy 的个人项目”菜单宝”失去开发的必要。
-
软件 1.0 是手搓编程,软件 2.0 是训练 AI 模型来编程,软件 3.0 是给 AI 模型足够的提示,神经网络来自主编程,广义上的信息处理变得高度自动化。
-
最强大的模型也面临参差不齐的能力,强的部分已经摆脱地球引力,弱的地方智力不堪入目。前沿实验室在甄选训练数据的范围和取向会导致这样的结果。在数据覆盖范围内,个人能力会直接起飞,否则就面临挣扎。
-
即便不在前沿实验室关注范围内,个人仍然可能在一个可以验证的问题上撬动 AI 的杠杆,如果你有多样化的强化学习环境数据集。
主持人:Stephanie Zhang,红杉资本合伙人 嘉宾:Andrej Karpathy,AI 大牛,前 OpenAI 联创,特斯拉自动驾驶实验室领导,Vibe Coding 概念创建者

Introduction 介绍
Stephanie Zhan: 今天很高兴迎来我们的第一位特别嘉宾。他帮助构建了现代人工智能,然后又解释了现代人工智能,甚至偶尔还会为现代人工智能重新命名。他实际上就在这个办公室里参与共同创立了 OpenAI。当年也是他让特斯拉的 Autopilot 真正运作起来,而且他有一种罕见的天赋,能让最复杂的技术变革既显得触手可及,又仿佛势在必行。你们都知道他去年创造了”vibe coding”这个术语,但就在过去几个月里,他说了一件更令人震惊的事:作为一名程序员,他从未感觉自己如此落后。这正是我们今天的起点。感谢你 Andre 加入我们。
Andrej Karpathy: 是的。你好。很高兴来到这里,一起为峰会开幕。
Q1:十二月,一切改变的节点
Stephanie Zhan: 就在几个月前,你说你作为一名程序员从未感到如此落后。从你这样的人口中听到这话令人震惊。你能帮我们剖析一下吗?那种感觉是令人兴奋还是令人不安?
Andrej Karpathy: 是的,确实是两者的混合。嗯,首先,我想就像你们很多人一样,从过去一年它们刚推出开始,我已经使用像类似 Claude Code 这样的智能体工具有一段时间了。它在处理代码块方面非常不错,有时候也会出错,你需要去修改,但总体来说还是挺有帮助的。
到了去年 12 月有一个很清晰的转折点,对我来说那段时间我正好在休息,所以有更多时间。我开始注意到,随着最新模型的出现,这些代码块基本上直接就能很好地生成,然后我不断地要求更多,它依然能很好地生成,然后我就记不清上一次我还需要去修正它是什么时候了。我开始越来越信任这个系统,我就这样进行”氛围编程”(笑声)。所以我确实认为这是一个非常明显的转变。
我也试图在 Twitter 或者 X 上强调这一点,因为我认为很多人在去年体验 AI 时,更多是把它当作类似 ChatGPT 的东西。但你真的需要重新去看,而且需要从 12 月开始重新看,因为事情已经发生了根本性的变化,尤其是在这种智能式的连贯工作流程上,它真的开始运作起来了。
所以就是这种认知让我一头扎进了那个”兔子洞”,做了无数的个人项目。我的个人项目文件夹现在非常满,里面有很多随机的东西,就是一直在做”氛围编程”。所以,是的,我会说这一切大概是在 12 月发生的,而从那之后我一直在关注它带来的影响。
老武点评: 这种变化感同身受,我在 cursor 出现之前都是用 ChatGPT 做 Vibe Coding,从聊天窗口复制,粘贴代码编辑器,运行,报错,再来回往复……Cursor 的出现带来了革新,粘贴复制少了,自动补全多了,但是直到 Claude Code 出现,你基本可以提出一个开发设想,大致要做成什么样个东西,Claude Code 可以自动完成到上线部署,中间就是不断地审阅输出结果,提出修改建议,各种 approve……最后发现键盘上用得最多的就是……

Q2:软件 1.0、2.0、3.0,以及那个不该存在的菜单宝
Stephanie Zhan: 你已经谈了很多关于把大型语言模型(LLMs)视为一种新型计算机的想法。也就是说,它不仅仅是更好的软件,而是一个全新的计算范式。软件 1.0 是显式规则,软件 2.0 是学习到的权重,而软件 3.0 就是这个(刚刚 Karpathy 描述的场景)。如果这确实是真的,那么当一个团队真正相信这一点的那一天,他们会在构建方式上有哪些不同?
Andrej Karpathy: 对吧?所以是的,确实如此。软件 1.0 是我在写代码;软件 2.0 则是我实际上通过创建数据集和训练神经网络来进行”编程”。因此,编程某种程度上变成了整理数据集,也许再加上一些目标函数和神经网络架构。
然后发生的是,如果你在一个足够大的任务集合上训练这些 GPT 模型或 LLM,本质上是隐式地进行的,因为在互联网上训练就意味着你必须对数据集中的所有内容进行多任务学习。这些模型在某种意义上就变成了一种可编程的计算机。
所以软件 3.0 现在更像是:你的编程转向了提示(prompting),而上下文窗口中的内容就是你操控这个解释器(也就是 LLM)的杠杆,它会解释你的上下文并在数字信息空间中执行计算。所以我觉得,这大概就是这种转变。
我觉得有几个例子真的让我深刻体会到了这一点,也许会有启发性。比如,当 OpenClaw 发布时,如果你想安装 OpenClaw,你通常会预期这是一个 bash 脚本、一个 shell 脚本。所以运行这个 shell 脚本来安装 OpenClaw。但问题是,为了支持各种不同的平台和各种不同类型的计算机,这些 shell 脚本通常会膨胀得非常复杂。
但关键是,你仍然被困在软件 1.0 的世界里,想着要写代码。实际上,OpenClaw 的安装方式是复制粘贴一段文本,然后把它交给你的 agent。所以本质上,它是一种小技能:复制粘贴这段内容给你的 agent,它就会安装 OpenClaw。之所以这更强大,是因为你现在是在软件 3.0 范式中工作,你不需要精确地列出设置过程中的所有细节。agent 有它自己的智能,会把这些封装起来,然后按照你的指令执行,它会查看你的环境、你的电脑,并执行智能操作来让一切正常运行,还会在循环中调试问题,这强大得多,对吧?
所以我觉得,这是一种完全不同的思考方式:你要复制粘贴给 agent 的那段文本是什么?这就是现在的编程范式。
我再举一个更极端的例子,是我在构建 MenuGen(Karpathy 的一个个人项目:菜单宝)的时候想到的。菜单宝的想法是:你去一家餐厅,他们给你一份菜单,通常没有图片。所以我并不知道这些菜是什么,通常有 30% 的内容我完全不知道,甚至 50%。于是我想拍一张菜单的照片,然后知道这些菜长什么样子。
于是我构建了这个应用——我用 vibe coding 做了这个应用,你只要上传一张菜单照片,在 Vercel 上运行一系列操作,OCR 会识别菜单中所有菜品名字,然后使用图像生成 AI 并为每个菜品生成图片并展示给你。
但是后来我看到了这个让我震惊的”软件 3.0 版本”:你只需要拍一张菜单照片,把它交给 Gemini,然后说”用 NanoBanana 把这些菜的照片叠加到菜单上”。NanoBanana 会返回一张图像,这张图像就是我拍的菜单,但是它直接在菜单上添加了各个菜的照片。这让我震惊,因为实际上,我做的整个 MenuGen 都是多余的。它是在旧范式下工作的,这个菜单宝应用根本就不应该存在。
是的,软件 3.0 范式更加”原始”,神经网络承担了越来越多的工作,而你的提示词或者上下文就是那张图像,输出也是一张图像,根本不需要任何中介应用。
所以我认为,人们需要重新构建思维方式,不要在现有范式中思考”已有的东西只是变快了”,而是要意识到现在有全新的可能性。回到你关于编程的问题,我甚至觉得这也是一种旧思维,因为这不仅仅是编程变快了。这其实是更广义的信息处理正在变得可自动化。
这甚至不只是关于代码。过去的代码主要处理结构化数据,对吧?你对结构化数据写代码。但例如我做的 LLM 知识库项目,本质上是让 LLM 为你的组织或个人创建 wiki。这甚至不是一个”程序”。在以前,这种东西根本不可能存在,因为没有任何代码可以基于一堆事实自动生成知识库。
但现在,你可以把这些文档拿过来,以不同的方式重新编译、重新排序,并创造出一个新的、有趣的结果,本质上是对数据的一种重新表达。
所以这些是以前不可能做到的新事物。我一直试图强调的一点是:不仅仅是我们现在能更快地做以前能做的事情,更重要的是出现了以前根本不可能实现的新机会,而我认为这其实更加令人兴奋。
老武点评: 这一段输出超强,在他举 OpenClaw 安装的例子之前,概念还比较晦涩,但是 OpenClaw 这个例子一说,顿时晴朗了,我最近就有切身的体会,之前安装 OpenClaw 是很麻烦的一件事情,但是现在先安装一个 OpenCode(简单),然后打开 OpenCode,告诉 OpenCode 帮我安装 OpenClaw,附上 GitHub 链接地址,OpenCode 就自己去 GitHub 查安装指南,自己在后台执行安装命令,碰到难题比如什么库下不了会自己绕其他镜像等等,反正它一通忙活,过了几分钟,会提示你安装好了,等 OpenClaw 安装好了你又在 OpenClaw 里如法炮制,把 Hermes 也安装好!中途任何不管是龙虾还是爱马仕出错了,都可以让 OpenCode 去检查修复。
事情就是这么发生了巨大的变化,你要做的就是提出一个目标,让 Agent 去干活!到了”菜单宝”,这真是一个鲜活的例子,当年在欧治旅行,那是深受其苦,那里的菜单都是纯文字,不管法语德语意大利语,吃个饭就跟抽奖似的,保不齐就来一盘凉凉生生的东西……Karpathy 废了不少劲 vibe coding 开发了一个手机 app 解决这个问题,但是当 nano banana 能力到了的时候,它一看菜单就直接给出各种菜品。模型自身的能力边界扩展直接消灭了中间层,无论是 OpenClaw 安装,纳米香蕉菜单宝,这一切都昭示了新的能力的涌现,以及我们将如何应对生活中的问题的方式。


Q3:神经元计算机
Stephanie Zhan: 我很喜欢你所阐述的”菜单宝”的发展路径和二分法,我甚至认为这里的很多人肯定都经历了你从去年十月到今年一月、二月初的那段编程进阶过程。如果把这个趋势再往前推演,比如在 90 年代做网站、2010 年代做移动应用、以及上一轮云时代做 SaaS,那么对于 2026 年来说会发生的东西会是什么?就是回顾时会显而易见的,但今天仍然尚未被构建的,会是什么?
Andrej Karpathy: 嗯,就拿菜单宝这个例子来说吧,我觉得很多这样的代码其实不应该存在,大部分工作应该由神经网络来完成。我确实觉得这种推演看起来很奇怪,因为你基本上可以想象——在某种意义上完全由神经元构成的计算机。想象一个设备把原始视频或音频输入到本质上是一个神经网络的系统中,并利用扩散模型来渲染一个在某种程度上对当下来说是独特的用户界面。
而且我感觉在计算机发展的早期,人们其实有点困惑,不确定计算机会更像计算器,还是更像神经网络。在 50 年代和 60 年代,这个方向并不明显,当然我们最终走上了计算器的路线,构建了经典计算体系,而神经网络目前是在现有计算机上以虚拟化的方式运行。但我认为你可以想象,这种格局会在很大程度上发生反转,神经网络会成为类似主进程的存在,而 CPU 则变成某种协处理器。所以我们看到智能计算的图景是,神经网络将会接管,并成为算力(FLOPs)支出的主导。
因此你可以想象一种非常奇特且陌生的情况,在那里神经网络承担了大部分繁重工作。它们使用的工具(传统计算机上的各种软件),就像一种附属的历史遗留,用于处理某些确定性的任务。但真正主导一切的是这些在某种意义上的神经网络。所以你可以把这种推演想象成非常陌生的东西,但我认为我们很可能会一步一步地走到那一步。至于这个过程如何发展,我会说目前仍有待确定。
老武点评: 这一段又是超有意思,神经元计算机!赞!上个周六 ArchiClaw 分享会我和超级建筑个体分享了人工神经元的发展,线索是两次 AI 寒冬,从最早 1943 年的首个人工神经元(在人脑神经元工作机制的启发下),到 Hinton 两次力挽狂澜,挽救人工神经网络于深锁。相信大家现在都能大概齐看懂神经网络的示意图了,也大概知道连接权重,激活函数是什么,GPU 的作用。
老武点评: 所以这次联结主义强势回归,要主导未来的计算范式,目前的情况是 OpenClaw 这样的智能体还是得运行在以 CPU 为核心的传统计算机上,而它要执行的任务,指令全部来自大型神经网络。运行在超大规模 GPU 集群上的数字化最强大脑,全世界数十亿人按各自的时区轮流访问,收发 token。这个时间点东半球的人放下手机,沉沉睡去,西半球开始人潮涌动,GPU 集群,大型神经元计算机,不眠不休,为全球牛马贡献算了……
Q4:参差不齐的前沿模型
Stephanie Zhan: 我想稍微谈一谈这个”可验证性”的概念,也就是 AI 会更快、更容易地自动化那些其输出可以被验证的领域。如果这个框架是正确的,那么有哪些工作将会比人们意识到的更快发生变化?以及有哪些职业是人们认为很安全,但其实是高度可验证的?
Andrej Karpathy: 是的。所以我花了一些时间来写关于可验证性的内容,基本上,传统计算机可以轻松自动化你能用代码明确指定的事情,而这一轮最新的 LLM 在某种意义上可以轻松自动化那些你可以验证的事情。
因为其工作方式是这样的:当前沿实验室在训练这些大语言模型时,都是规模巨大的强化学习环境,它们会被给予验证奖励。由于这些模型的训练方式,它们最终会发展出这种”锯齿状”的参差不齐的能力结构,在可验证的领域(比如数学、代码及其相邻领域)能力会达到峰值,而在不属于这个空间的事情上则会停滞,表现得有些拉胯。
所以我认为我之所以写关于可验证性的内容,是想理解为什么这些东西如此”锯齿化”。其中一部分与实验室如何训练模型有关,但我认为也与实验室的关注点以及它们在数据分布中放入了什么有关。因为有些事情在经济上显著更有价值,从而创造了更多的环境,因为实验室希望在那些设置中工作。所以我认为代码就是一个很好的例子。可能还有很多可验证的环境是他们可以考虑的,但由于这些能力不那么有用,所以没有进入组合。
但对我来说,一个大的谜团是:曾经一个很受欢迎的例子是”strawberry 这个词里有多少个字母”,模型会著名地答错,这是锯齿性的一个例子。现在模型已经修复了这个问题,但新的例子是:我想去一个洗车场洗车,它在 50 米外。我应该开车还是走路?如今最先进的模型会告诉你走路,因为距离很近。怎么可能最先进的 Opus 4.7 可以同时重构一个 10 万行代码库或者发现零日漏洞,却又告诉我应该走路去这个洗车场?这太疯狂了。
在某种程度上,这些模型仍然是锯齿状的,这表明:第一,也许有些地方稍微有点问题;或者第二,你确实需要稍微参与其中,需要把它们当作工具,并且要持续关注它们在做什么。所以长话短说,我关于可验证性的所有写作,本质上是在试图理解为什么这些东西是”锯齿状”的。这里面有没有某种模式?我认为是”可验证性 + 实验室关注”的某种组合。
再补充一个有启发性的例子:从 GPT 3.5 到 GPT-4,人们注意到国际象棋能力提升了很多。很多人认为这只是能力自然进化的结果,但实际上更多是因为——有大量国际象棋数据被加入到了预训练集中(互联网公开信息)。正是因为进入了数据分布,模型的能力提升远远超过了默认情况。所以 OpenAI 的某个人决定加入这些数据,于是你就得到了一项能力显著增强的模型。这也是为什么我强调这个维度:在某种程度上,我们受制于实验室在做什么,以及它们把什么放进组合中。你必须去探索他们给你的这个”没有说明书”的东西。它在某些场景中有效,但在另一些场景中可能无效。你必须自己去摸索。如果你处在强化学习涉及的那些”回路”中,你就会飞起来;如果你处在数据分布之外的回路中,你就会挣扎,你需要弄清楚你的应用处在哪些回路中。如果你不在那些回路中,那你就必须认真考虑微调,并做一些自己的工作,因为它不会直接从 LLM 中”开箱即用”地出现。
老武点评: 所以前沿实验室的研究重点就是模型强弱点的分布,如果你的个人兴趣范围刚好在模型的训练数据集里,那么恭喜,你不想飞 AI 能力也可以把你吹得飘起来,如果你所在的领域文本数据匮乏,且暂时也没有什么实验室顾得上,那也是一种幸运,你还可以按原来的惯性继续前进,等待未来模型终于愿意带路。或者自己罗织一些数据,通过后训练获得 AI 模型的能力,过程相当考验钱包和技术……反正目测现在还没有一家前沿实验室会投入算力解决洗车的问题,洗车在未来很长一段时间还是得自己解决。
Q5:撬动个人杠杆
Stephanie Zhan: 我想稍后再回到”锯齿智能”的概念。如果你今天是一位创业者,正在考虑建立一家公司,你试图解决一个你认为是可处理的问题,也就是一个可验证的领域,但你环顾四周,觉得”天啊,实验室在那些最明显的领域已经达到了逃逸速度,比如数学、编程等等。”你会给在场的创业者什么建议?
Andrej Karpathy: 所以我认为这可能回到之前的问题。我确实认为可验证性使得某件事在当前范式下变得可以处理,因为你可以对它施加大量的强化学习。
所以一种理解方式是:即使实验室没有直接关注,它仍然成立。所以如果你处在一个可验证的环境中,并且你可以创建这些强化学习环境或示例,那么这实际上为你进行自己的微调提供了条件,你可能会从中受益。但这本质上是一种有效的技术:如果你拥有大量多样化的强化学习环境数据集等等,你可以使用你喜欢的微调框架,撬动这个”杠杆”,得到一个表现相当不错的结果。
所以我不知道具体的例子会是什么,但我确实认为有一些非常有价值的强化学习环境是人们可以去思考的,而且目前还没有成为主流的一部分。我不想直接说答案,但确实有一个我认为非常……哦,好吧,对不起,我不想在台上”卖关子”,但确实有这样的例子。
老武点评: 看得出来 Karpathy 很想为大家指出机会窗口在哪里,又怕被批带货。基本上一个你 know how 的可验证的事情,寻找熟悉领域的数据集,去撬动一个”杠杆”,实现这些目的的技术越来越多,门槛也越来越低,尤其是有了 Claude Code,Hermes 这样的智能体,现在任何人都可以搭建自己的 skills,或者蒸馏同事呵呵,能力稍强的直接进行后训练。
Stephanie Zhan: 反过来,你认为有哪些事情目前看起来只能”远距离上”被自动化?
Andrej Karpathy: 我确实认为,最终几乎所有事情在某种程度上都可以被验证。有些事情比其他事情更容易。因为即使是写作之类的事情,你也可以想象有一个由 LLM 评审组成的委员会,可能可以从这种方法中得到某种合理的结果。所以更多的是关于什么容易、什么困难。所以我确实认为,最终是的,我觉得一切(笑)一切都是可以自动化的。
Q6:Vibe Coding 与 Agentic Engineering
Stephanie Zhan: 太棒了。好的。所以去年你创造了”氛围编码”(vibe coding)这个术语,而今天我们所处的世界感觉更严肃一些,更偏向于”智能体工程”(agentic engineering)。你认为这两者之间的区别是什么?你又会如何称呼我们今天所处的这种状态?
Andrej Karpathy: 是的。所以我会说,”氛围编程”(vibe coding)是关于提高每个人在软件领域能力的下限。也就是说,下限提升了,每个人都可以用氛围编程做任何事情,这非常惊人、不可思议。但与此同时,我会说”智能体工程”(agentic engineering)是关于在专业软件中保持原有质量标准的。也就是说,你不能因为 Vibe Coding 而引入漏洞。你仍然要像以前一样对你的软件负责,但问题是:你能不能更快?答案是可以的,但关键在于你如何正确地做到这一点。
对我来说,”智能体工程”之所以这样称呼,是因为我确实认为它是一种工程学科。你有这些智能体(agents),它们像是一些”锯齿状”的实体,有点不稳定,带有一定的随机性,但又极其强大。那么问题就是:你如何协调它们,在不牺牲质量标准的前提下加快速度?而把这件事做好、做对,就是智能体工程的范畴。
所以我把两者看作是不同的方向:一个是提升下限,另一个是向上外推能力。而我目前观察到的是,智能体工程的能力上限非常高。人们过去常说”10 倍工程师”(10x engineer),但我认为这种能力被放大了很多,10 倍并不是你能获得的加速幅度。从我现在的视角来看,那些非常擅长这方面的人,其提升远远超过 10 倍。
老武点评: OpenClaw,Claude Code,这些可以说是智能体工程的代表作,它们的代码大部分都是由 AI 输出的,比如 OpenClaw 就是 Codex 编写的。但是编写这两个 Agent 的人都具备强大的软件工程知识和经验,都是老兵 + 高手。几十万行代码的软件远远没到他们的天花板。尽管如此受人欢迎,但是那些古庙高手,那些操盘过数千万代码的架构大师,他们仍然认为 OpenClaw 这些基本就是屎山代码,都是抓虾玩,不忍直视……不过随着基于神经网络的应用层越来越厚,希望这些打通了任督二脉的古庙高手也都能下场抓虾,他们将是智能体工程的天花板。
Q7:招聘也要转型
Stephanie Zhan: 我真的很喜欢那种框架。有一件事是,去年 Sam Altman 来到红杉 AI 论坛的时候,他说过一句让我印象深刻的话:不同世代的人使用 ChatGPT 的方式是不同的。所以如果你在 30 多岁,你会把它当作 Google 搜索的替代品。但如果你是青少年,ChatGPT 是你通往互联网的入口。那在今天的编程中,有什么类似的对应关系?如果我们观察两个人使用 OpenClaw、Claude Code、Codex 编码,一个你会认为水平一般,另一个你会认为是完全的 AI 原生。你会如何描述他们之间的差异?
Andrej Karpathy: 我认为这只是尽可能充分利用可用工具的过程,发挥它们所有的功能,并投入到你自己的那一套配置中。所以,以前所有工程师基本上都是在尽可能充分利用你所使用的工具,无论是 vim、VS Code,还是现在的 Claude Code、Codex 等等。所以就是要投入到你的配置中,并充分利用所有可用的工具。我觉得大概就是这样。
我确实认为,或许一个相关的想法是,现在很多人也在为此招聘,对吧?因为他们想招聘强的智能体(agentic)工程师。但我确实觉得,我看到的大多数人仍然没有重构他们的招聘流程,以评估这种智能体工程师的能力。他们仍然在发放谜题让人去解决,那还是旧的范式。我会说,招聘应该变成:给我一个非常大的项目,看看某人如何实现这个大项目。比如说,写一个面向智能体的克隆版 Twitter,然后把它做得非常好、非常安全,再让一些智能体在这个 Twitter 上模拟一些活动。接着,我会用 10 个 Codex(5.4x,X high)来尝试攻击你部署的这个网站,它们会尝试去攻破它,而且它们应该无法攻破。
所以,也许看起来就是那样,对吧?因此,在那种环境下观察人们、构建更大的项目,并利用各种工具,可能是我大体上会关注的重点。
老武点评: 招聘现在是有了新事物出现,简历直接看做了什么 vibe 项目,Palantir 甚至招高中生自己培养,招聘模式的转型将很大程度上影响到教育和就业的传统输送机制。但是 HR 并不在变革的中心,却面临最大的挑战,现在 AI 领域基本就是砸钱抢人,传统的 HR 流程跟不上 AI 发展的速度了,脑补一下人力资源总监的焦虑……
Q8:那些变得更有价值的人类技能
Stephanie Zhan: 随着智能体承担更多工作,你认为哪种人类技能会变得更加有价值,而不是更不重要?
Andrej Karpathy: 所以,是的,这是个好问题。我觉得目前的答案是,这些智能体有点像实习生一样的实体,对吧,所以很值得注意的是,你基本上仍然需要负责美学、判断、品味以及一点点监督。也许我最喜欢的关于智能体”怪异性”的一个例子是,对于 MenuGen 菜单宝,你用一个 Google 账户注册,但你用一个 Stripe 账户购买积分,这两个都有各自的电子邮件地址,而我的智能体实际上在你购买积分时,试图用 Stripe 的电子邮件地址去分配到 Google 的电子邮件地址上。并没有一个持久的用户 ID,对人来说它是在尝试匹配这些电子邮件地址,但你完全可以为 Stripe 和 Google 使用不同的邮箱地址,这样基本上就无法关联资金了。
所以这就是这些 Agent 目前仍然会犯错的那类事情:为什么要用电子邮件地址来尝试交叉关联资金?它们可以是任意的,你可以用不同的邮箱等等。这真的是一件很奇怪的事情。所以我认为人必须负责这个规范(spec)、这个计划。实际上我甚至觉得不只是所谓的”计划模式”,当然它很有用,但我认为这里有一个更普遍的点,就是你需要和你的智能体一起设计一个非常详细的规范,也许基本上就是文档,然后让智能体去编写这些内容,你负责监督和顶层分类,智能体在底层做大量工作。
因此我觉得你不再需要关心一些细节。举个例子,在神经网络中的数组或张量方面,在 PyTorch、NumPy 以及各种 pandas 等之间有大量细节,各种小的 API 差异。我已经忘了 keep dims 和 keep dim 的区别,或者是 dim 还是 axis,或者 reshape、permute、transpose。我已经不记得这些东西了,对吧?因为你不需要记。这类细节可以交给”实习生”来处理,因为它们有非常好的记忆能力。但你仍然需要知道,比如说底层有张量(tensor),有底层的视图(view),你可以操作同一存储的视图,也可以有不同的存储(那样效率更低)。所以你仍然需要理解这些东西在做什么,以及一些基础原理,这样你就不会不必要地复制内存等等。
但 API 的细节现在可以交给智能体来处理。所以你负责的是品味、工程、设计,确保一切合理,确保你在提出正确的需求,比如说这些必须是唯一的用户 ID,我们要把所有东西绑定到一起。所以你在做一部分设计和开发,而工程师(Agent)在做填充细节的工作。这大致就是我们目前所处的位置,我认为这也是现在大家都在看到的情况。
老武点评: 这里涉及很多的行业 know how,软件工程知识。尽管菜单宝是一个被大模型能力消灭的项目,Karpathy 仍然用它来描述高维的抽象知识的重要性,人类工程师需要知道底层原理,顶层架构知识,智能体处理中间层具体的业务。一些高级工程师所依赖的实战经验、技巧,都已经被 AI 掌握了,这些中间层知识密度非常高,基本和具体执行有关。但是有没有注意到这里有一个悖论,顶层架构师的 know how 不是自动从脑子里长出来的,美学、品味、判断需要从实习生开始历练,需要真实项目的打磨,这个层级的工作都被代替的话,那这个职业的价值有成长性吗?
Q9:上限在哪?
Stephanie Zhan: 你觉得这种品味和判断力随着时间推移会变得不那么重要,还是上限只会不断提高?
Andrej Karpathy: 是的,这是个好问题,我会这样说。好吧。我希望它能有所改进。我认为现在它没有改进的原因,很可能还是因为它不属于强化学习(RL)的一部分。可能没有审美方面的成本或奖励,或者它还不够好之类的。我确实觉得,当你实际去看代码时,有时候我会有点心塞,因为那并不总是特别出色的代码,它非常臃肿,有很多复制粘贴,还有一些很别扭、很脆弱的抽象。它是能运行,但真的很粗糙。而且我确实希望未来的模型能改进这一点。另一个很好的例子是这个 micro GPT 项目,我当时试图把大语言模型(LLM)的训练简化到尽可能简单的程度。但模型讨厌这个,它们做不到。我尝试不断提示一个 LLM 去”再简化一点、再简化一点”,但它就是做不到,你会感觉自己在强化学习回路之外。感觉就像在”拔牙”,并不是光速的过程。所以我确实认为人类仍然掌控着这一切。但我也觉得,从根本上来说,没有什么阻碍它实现,只是实验室还没有做到而已。是的。
老武点评: 这似乎是上一个问题的延申,但我感觉这是这场对话中最具挑战性的一个问题。面对其他的送分题,Karpathy 都能挥洒自如,金句频出。但面对这个绵里藏针的问题,他也没有给出正面的回答,绕了一下,顺势吐槽了一下 AI slop,为前沿实验室做了一些免罪开脱。尽管说得很委婉,但是大致能看出 Karpathy 对实验室同行的工作持批判性态度。可以看出来,模型的上限,就是来自人的上限。
Q10:一个思维框架,AI 是什么?
Stephanie Zhan: 所以我很想回到”锯齿状智能”这个想法。你曾经写过一点关于这个的内容,用一个非常发人深省的比喻,把动物和幽灵作对比。你的观点是,我们不是在构建动物,我们是在召唤幽灵。这些是由数据和奖励函数塑造的锯齿状智能,但并不是由内在动机、乐趣、好奇心或赋权驱动的,这些东西更像是通过进化形成的。那么,这种框架为什么重要?它实际上会如何改变你构建、部署、评估甚至信任这些系统的方式?
Andrej Karpathy: 是的,我之所以写这个,是因为我在试图弄清楚这些东西到底是什么,对吧?因为如果你对它们是什么或不是什么有一个好的思维框架,你在使用它们时就会更有能力。而且我确实认为,我不确定它是否真的具有实际的力量。(笑声)我觉得这多少有点哲学化。但我确实认为,这更多是接受这样一个事实:这些东西并不是动物式的智能。如果你对它们大喊大叫,它们也不会变得更好或更差,不会产生任何影响。这一切本质上都是统计模拟电路,其基础是预训练,也就是统计,然后在此之上叠加了强化学习。因此,它某种程度上增加了”附肢”,也许这更像是一种心态:我在面对的是什么,什么可能有效,什么不太可能有效,或者该如何修改它。但我其实并不知道有什么”五个显而易见的方法可以让你的系统变得更好”。更多的是对它保持怀疑,并随着时间慢慢摸索。
老武点评: “因为如果你对它们是什么或不是什么有一个好的思维框架,你在使用它们时就会更有能力。” 个人觉得这是整个访谈最重要的论点之一!模型是什么,确实决定了使用者的心态。感觉这个思维框架是否建立,是目前的 AI 焦虑的根源之一,毕竟,这是全人类第一次遇到了一个心智上可以 PK 的对手,AI 前沿实验室的不限速竞争正在加速引导这个心灵对手前往一个无人之境。但是,不要太多拟人化的思考,ArchiClaw 的神经网络分享会让你宏观上看清大模型在处理什么数据,全是数学、统计、逻辑判断,一个巨大的函数。
Q11:憧憬智能体原生的世界
Stephanie Zhan: 那就是它开始的地方。好的,所以你已经深入到与那些不仅仅是聊天的智能体一起工作。它们拥有真实的权限。它们有本地上下文。它们实际上会代表你采取行动。当我们所有人都开始生活在那个世界里时,这个世界会是什么样子?
Andrej Karpathy: 是的,很多人可能都对这种以智能体为原生的环境会是什么样子感到兴奋,而且一切都必须被重写。现在的一切从根本上仍然是为人类编写的,还需要被重新调整。
我现在在使用不同的框架、库或其他东西时,大多数情况下它们的文档本质上仍然是为人类写的。这是我最烦的一点。我不明白,为什么人们还在告诉我该做什么?我什么都不想做。我应该复制粘贴到我的智能体里的到底是什么?(笑声)所以每次有人让我去这个 URL 或者类似的地方时,我就会觉得很无语(笑声)。
所以我觉得大家都很兴奋的是,我们如何把需要完成的工作分解成本质上是对世界的”传感器”和对世界的”执行器”?我们如何让它成为以智能体为原生的?基本上就是先把它描述给智能体,然后围绕那些对大语言模型来说非常易读的数据结构做大量自动化。所以我觉得,是的,我希望会有很多以智能体为优先的基础设施出现。
而且对于菜单宝来说,众所周知,当我写那篇关于菜单宝 MenuGen 的博客文章时——我也不确定是不是那么”出名”——(笑声)很多工作、很多麻烦甚至不在于编写 MenuGen 的代码,而是在 Vercel 上部署它,因为我必须和所有这些不同的服务打交道,我必须把它们串联起来,我还得进入它们的设置、菜单并配置我的 DNS,这一切都太烦人了。所以这是一个很好的例子,我希望对于菜单宝来说,我可以给 AI 模型一个提示词让它帮我构建菜单宝,然后我什么都不用碰,它就能以同样的方式部署到互联网上。
我认为这可以作为一个很好的测试,看看我们将来的基础设施是否正在变得越来越以智能体为原生。
最终,我会说,是的,我确实认为我们正走向一个世界,在那里人和组织都会有智能体的代表,我的智能体会和你的智能体对话,以弄清楚我们会议的一些细节或其他事情。所以(笑声)我确实认为事情大致就是朝这个方向发展,不过,是的,我觉得这里的每个人都对此感到兴奋。
Stephanie Zhan: 我真的很喜欢传感器和执行器的视觉类比。我之前其实没想到这一点。这非常有意思。
Andrej Karpathy: 那必须的。
老武点评: 这里感觉聊开了,和第一个问题开始接上了。我们确实生活在一个六七十年代建立起来的基础设施之上,无论软件、硬件,都号称以人为本。当每个架构师、每个 UI/UX 设计师都以各自的人为本的时候,结果常常都是互相制造麻烦 😅 相信智能体的基础设施开始重构的时候,就是把所有人类制造的麻烦逐渐消除的时候。
Q12:你的理解力无法外包
Stephanie Zhan: 好的,我觉得我们得以一个关于教育的问题收尾。因为你大概是世界上最擅长把复杂技术概念讲得简单的人、对如何围绕它设计将来的教育,你也是有深刻思考的人之一。当我们进入下一个人工智能时代、智能变得普惠便宜时,究竟还有哪些东西仍然值得深入学习的?
Andrej Karpathy: 是的。最近有一条推文让我大开眼界,我每隔几天就会想到它。大概意思是,你可以外包你的思考,但你无法外包你的理解。我觉得这句话说得非常好。所以,是的,因为我仍然是这个系统的一部分,信息仍然必须以某种方式进入我的大脑,而我感觉自己正在变成一个瓶颈,甚至连我们到底在试图构建什么、为什么值得去做、我该如何引导我的这些智能体等等这些事情,都变得难以把握。所以我仍然认为,归根结底,必须有某种东西来引导思考和处理过程等等,而这在根本上仍然受到理解的某种限制。
这也是为什么我对所有这些语言模型知识库感到非常兴奋的原因之一,因为我觉得那是我处理信息的一种方式,而且每当我看到对信息的不同投射时,我总觉得自己获得了新的洞见。所以对我来说,这其实就是围绕某些固有数据进行合成数据生成的大量提示。我真的很享受每当我读一篇文章时,我都有自己的维基在从这些文章中不断构建,我也很喜欢就各种事情提问。
我认为,归根结底,这些工具都是以某种方式增强理解力,因为理解力仍然有点像一个瓶颈,会导致你无法成为一个好的指挥者,毕竟语言模型在理解方面并不擅长,这一点仍然是你独特负责的部分。所以,是的,我认为朝这个方向发展的工具非常有趣,也非常令人兴奋。
老武点评: “你可以外包你的思考力,但你无法外包你的理解力。” 这是整个访谈的点睛之笔,这里接上了上一个问题提到的思维框架,就是理解力是人类智力的特点,也是真正的人类心智的基石,这是概率统计和数学模型永远无法具备的。AI 模型、大型神经网络、神经元电脑,终究需要人类的理解力,这种理解力永远建立在高维空间,是对世界本质的洞察。Karpathy 也强调理解力是有瓶颈的,所以毫无疑问达芬奇虽然观测到了水从一个移动的瓶子里倒出来时的重力加速现象,但要理解和建立重力和加速度的科学理论和数学方程,还是要等到牛顿,新的观测和计算工具打通了理解力瓶颈。
Ending 结语
Stephanie Zhan: 我很期待在几年后回到这里,看看我们是否已经被完全自动化地排除在流程之外,以及他们是否真的也承担起了理解的工作。非常感谢你加入我们,Andre。我们真的非常感激。
转录:Hermes + DeepSeekSkill: Youtube-content

翻译:ChatGPT编辑:Obsidian校对 & Comments:老武

有不同意见请联系
引用链接
[1]Watch on YouTube: https://www.youtube.com/watch?v=96jN2OCOfLs
夜雨聆风