Karpathy的下一代软件工程观:从 Vibe Coding 到 Agentic Engineering

如果说去年大家还在兴奋地喊“AI 会写代码了”，这场访谈更像是 Karpathy 给技术圈的一次校准：会写代码只是起点，真正的变化是工程师开始学习如何指挥、约束和验证一组会执行

、会推理、也会犯错的智能体。文末附中文版采访全文，方便读者回到原始问答语境中对照阅读。

视频：Andrej Karpathy: From Vibe Coding to Agentic Engineering

采访者：Stephanie Zhan，Sequoia partner

嘉宾：Andrej Karpathy，Eureka Labs founder

本文的目的不是复述一场名人访谈，而是把这次对话整理成 Karpathy 关于下一代软件工程的完整判断：当代码生成、任务执行、知识管理和协作流程都开始被智能体接管，工程师真正需要重建的，是工作流、责任边界和组织知识的形态。

这个判断并不是在访谈现场突然出现的。进入 2026 年后，Karpathy 的公开分享和 GitHub 实践已经沿着同一条线展开：autoresearch 先把单个智能体放进可验证的研究实验回路；AgentHub 再尝试把 GitHub 式的人类协作模型改写为面向智能体群体的协作基础设施；LLM Wiki 则把知识库从“每次提问重新检索”的 RAG 思路，推进到由 LLM 持续编译、维护和链接的 Markdown wiki。三者合在一起，回答的是同一个问题：当智能体开始长期工作，工程系统要如何组织任务、协作和知识。

这也是本文选择从 Agentic Engineering 角度切入的原因。Karpathy 所说的“从未感觉作为程序员如此落后”，不是单纯的职业焦虑，而是一个工程信号：软件开发正在从“人写代码、工具辅助”转向“人定义目标、智能体执行、系统持续积累知识”。本号的 Agentic Engineering 知识仓库，也采用 Karpathy 的 LLM Wiki 思路来沉淀这类实践材料，避免每次讨论都从零重建上下文。

第一个信号：12 月之后，AI Coding 变成了另一种东西

Karpathy 回忆自己一开始也只是把智能体工具当成“能帮忙写代码块”的助手。它能生成一些东西，也会出错，你再去改。这个阶段很多人都熟：AI 像一个勤快但不太稳的补全器。

但他提到一个明显转折点：从去年 12 月前后开始，新模型在连续生成、连续完成任务上的表现突然变得可信。他开始不断让系统生成更多代码，而自己越来越少去手改。到最后，他发现自己已经在“凭感觉编码”了。

重点不是 AI 写了几行代码，而是你开始把一段连续工作流交给它，然后观察它能不能一路跑完。

这里有个会让技术读者兴奋的点：Karpathy 不是把这描述成单点能力提升，而是把它看成“智能体连续工作流”开始真正发挥作用。也就是说，AI Coding 的主战场从“补全函数”变成了“接住任务”。

软件 3.0：Prompt 不是提示词，是新的控制界面

访谈里最硬核的一段，是 Karpathy 重新讲了他的软件分层框架。

软件 1.0
：人类直接写显式规则，也就是传统代码。
软件 2.0
：人类整理数据集、目标和网络结构，用训练出来的权重表达程序。
软件 3.0
：LLM 像一台可编程计算机，Prompt 和上下文窗口变成控制它的方式。

这个说法听起来已经不新鲜，但 Karpathy 在访谈里给了两个特别好懂的例子。

第一个是安装工具。按照软件 1.0 的思路，你会写一个兼容各种平台的 shell 脚本。脚本越写越复杂，里面全是分支、检测、异常处理。但软件 3.0 的写法可能是：给用户一段清楚的文字，让他复制给智能体，由智能体自己观察环境、执行命令、遇到问题再调试。

这时，“安装脚本”不再是唯一答案。真正的程序可能是一段面向智能体的说明文档。

第二个例子是菜单生成器。传统做法是写一个应用：上传菜单图片、识别菜名、生成图片、重新渲染界面。但在软件 3.0 的路径里，你可能只需要把菜单照片交给多模态模型，让它直接在图像上叠加生成内容。中间大量应用逻辑，可能根本不该存在。

这对产品和工程团队都是一次提醒

我们习惯问：“这个功能怎么做成应用？”但在软件 3.0 里，更好的问题可能是：“这里真的需要一个应用吗？还是给模型更好的上下文就够了？”

可验证性：AI 最先重塑的，不是最简单的活

主持人问到一个很关键的问题：哪些工作会比大家想象中更快被自动化？Karpathy 的回答绕不开“可验证性”。

他的判断是：传统计算机擅长自动化“你能写成规则”的事；新一代 LLM 擅长自动化“你能验证结果”的事。为什么代码、数学、漏洞发现这些领域进展快？因为它们天然适合做强化学习环境，结果对错相对容易检查。

这也解释了模型那种很诡异的“锯齿状智能”：一边能重构十万行代码，一边可能答错一个生活常识题。不是因为模型突然笨，而是因为它在哪些数据和奖励环境里被训练过，能力分布非常不均匀。

这对创业者很重要。Karpathy 的潜台词是：如果你所在的领域可以构造大量可验证任务、可验证反馈、可验证环境，那你就有机会用微调或强化学习把模型能力往前推。不要只盯着通用大模型竞争最激烈的方向，要找那些“可验证但还没被实验室充分覆盖”的垂直场景。

从 Vibe Coding 到 Agentic Engineering

“Vibe Coding”这个词火，是因为它把门槛打下来了。不会写完整工程的人，也可以凭感觉做出东西。Karpathy 对这个现象的态度挺正面：地板升高了，每个人都能创作，这很棒。

但他马上补了一刀：专业软件不能只靠 vibe。你不能因为用了 AI，就把漏洞、坏抽象、脆弱架构、混乱权限当成理所当然。软件上线后，责任仍然是你的。

所以他更愿意把今天这个阶段叫做Agentic Engineering。它不是“让 AI 帮我快速生成代码”，而是一门新的工程纪律：如何协调多个强大的智能体，在不牺牲质量标准的前提下，把速度拉上去。

Vibe Coding 提高下限，Agentic Engineering 拉高上限。前者让更多人能做东西，后者让高水平工程师获得更大的速度优势。

这点特别像当年 vim、IDE、CI/CD、云平台逐步改变工程师效率。只不过这次工具不是静态工具，而是一批会执行、会推理、会犯错的智能体。工程师的新工作不是亲手敲每个 API，而是设计任务、写规范、设边界、看结果、做判断。

未来更值钱的人类能力：品味、判断、监督和理解

当智能体越来越能干，人类还剩什么？Karpathy 给的答案很朴素：现在的智能体更像实习生。它们记忆力好、动作快，但仍会犯严重的工程错误。

他举了一个很真实的例子：一个应用用 Google 账号登录，用 Stripe 购买积分，智能体居然试图用两个邮箱地址去关联资金和用户。懂工程的人一眼就知道这不行，应该用稳定的用户 ID，而不是拿邮箱碰运气。

这就是人类还必须在场的地方。你要负责：

把需求写成足够清楚的规格说明。
判断设计是不是合理，数据模型是不是稳。
识别那些“能跑但很烂”的代码。
控制安全、权限、身份、资金这些高风险边界。
决定什么值得做，以及为什么值得做。

Karpathy 也承认，现在模型写出来的代码经常臃肿、复制粘贴多、抽象脆弱。它们能把东西跑起来，但不一定能写出漂亮、克制、长期可维护的工程。这正是 Agentic Engineering 的价值空间。

招聘也该变了：别再只考小题，给候选人一个真项目

访谈里还有个很有现实意义的点：如果你想招聘 AI 原生工程师，传统算法题可能已经不够用了。

Karpathy 设想的考核更像真实战场：给候选人一个大项目，比如做一个面向智能体的 Twitter 克隆版。要求它做得好、做得安全，再让一批智能体去模拟使用甚至尝试破坏。候选人可以使用最强的编码智能体，关键是看他如何组织、监督、验证和加固这个系统。

这套标准其实很残酷，但很合理。AI 原生工程师的差异，不在于谁记得更多 API，而在于谁更会把工具、规格、测试、审查、安全边界组合成一个可靠的生产流程。

Agent-First 基础设施：今天的世界仍然太“人类优先”

Karpathy 吐槽了一个所有用智能体写代码的人都懂的痛点：现在的文档、平台、部署流程，几乎都是写给人看的。网页告诉你点哪里、复制什么、去哪个控制台配置 DNS。可如果真正的执行者是智能体，那我们需要的不是“人类操作指南”，而是“智能体可读、可执行、可验证”的接口和上下文。

他希望未来有更多 Agent-First 基础设施：你告诉智能体“我要部署这个应用”，它能自己理解服务、权限、密钥、DNS、构建、监控，并在失败时循环修复。对开发者来说，最理想的状态不是到处点控制台，而是把意图表达清楚，然后让智能体去协调传感器和执行器。

这也是整场访谈最有想象力的部分：未来个人和组织都可能拥有自己的智能体代表。我的智能体与对方的智能体沟通会议细节、处理任务交接、维护组织知识库。听起来像科幻，但如果你今天已经把一部分开发流程交给 Claude Code、Codex、OpenClaw 这类工具，其实已经触及这个方向。

最后的教育问题：思考可以外包，理解不能

访谈最后落到教育。主持人问：当智能变便宜，还有什么值得深入学习？Karpathy 引用了一句话：你可以把思考外包出去，但你不能把理解外包出去。

这句话很适合当这场访谈的结尾。AI 可以帮你读、写、改、查、生成、部署，但它不能替你决定自己到底想构建什么，也不能替你形成长期稳定的技术判断。你仍然是系统的一部分，而且很可能是瓶颈最明显的一部分。

所以真正值得训练的，不是和模型抢记忆力、抢 API 细节，而是训练理解力：理解系统为什么这样设计，理解边界在哪里，理解哪种抽象会活得久，理解一个方案为什么值得被做出来。

给技术读者的 6 条要点

不要再把 AI Coding 只看成自动补全，它已经开始进入连续工作流阶段。
Prompt 和上下文窗口正在变成新的编程界面，文档可能就是程序的一部分。
可验证领域会进展更快，因为它们适合训练、奖励和自动评估。
Vibe Coding 适合抬高下限，但专业软件需要 Agentic Engineering。
工程师不会因为 AI 失去价值，但价值会更集中到规格、判断、品味、安全和监督。
未来的基础设施要从 Human-First 转向 Agent-First，否则智能体越强，人类操作控制台越被动。

这场访谈最让人兴奋的地方，不是 Karpathy 又造了一个新词，而是他把大家隐约感受到的变化讲清楚了：我们不是在给旧软件开发流程加一个 AI 插件，而是在重新定义“谁来执行、谁来验证、谁来负责”。

对技术读者来说，这就是最值得盯紧的地方。下一代 10x 工程师，可能不是敲代码最快的人，而是最会指挥、约束、验证智能体的人。

附录：采访记录全文

以下为中文版采访全文，按采访者与嘉宾的发言顺序整理，便于读者对照正文观点回到完整问答语境。

采访者Stephanie Zhan / Sequoia partner

嘉宾Andrej Karpathy / Eureka Labs founder

Stephanie Zhan采访者 / Sequoia partner · 01

我们非常激动地迎接我们的第一位特别嘉宾。他帮助构建了现代人工智能，然后解释了现代人工智能，然后偶尔还会给现代人工智能重新命名。事实上，他就在这间办公室里参与了 OpenAI 的共同创立。他当年在特斯拉成功实现了自动驾驶功能，他有一种罕见的天赋，能将最复杂的技术变革变得既易于理解又势在必行。大家都知道他去年创造了“氛围编码”这个词，但就在最近几个月，他说了一些更令人震惊的话。他从未感到自己作为程序员如此落后。这就是我们今天开始的地方。谢谢安德烈先生的到来。

Andrej Karpathy嘉宾 / Eureka Labs founder · 02

你好。很高兴来到这里，并为我们的活动拉开序幕。

Stephanie Zhan采访者 / Sequoia partner · 03

好的。就在几个月前，你还说你觉得自己作为程序员从未如此落后过。没想到这话竟然是从你嘴里说出来的，真是令人惊讶。嗯，你能帮我们解释一下吗？那种感觉令人兴奋还是不安？

Andrej Karpathy嘉宾 / Eureka Labs founder · 04

嗯，没错，肯定是两者兼而有之。嗯，首先，我想和你们中的许多人一样，我一直在使用 Claude Code 等智能体工具，大概从去年这些工具刚推出时就开始用了。它在处理代码块方面非常出色，但有时它会出错，你需要编辑它们，这在某种程度上很有帮助。然后，我想说，12 月对我来说是一个很明显的转折点，因为我当时在休假，所以我有更多的时间。我想很多人也都有类似的经历，嗯，我开始注意到，在最新的模型中，嗯，代码块生成得很好，然后我不断要求生成更多，它也都生成得很好，然后我不记得上次修正它是什么时候了，然后我就越来越信任这个系统，然后我就开始凭感觉编码了[笑声]，嗯，所以这确实是一个非常明显的转变。我认为很多人，实际上，我试图在推特或其他社交媒体上强调这一点，因为我认为很多人去年体验人工智能的方式与 ChatGPT 相关。呃，但是你真的需要重新审视一下，而且你必须从 12 月份开始重新审视，呃，因为情况已经发生了根本性的变化，呃，尤其是在这种像智能体连续工作流这样的方面，呃，它真的开始真正发挥作用了。

嗯，所以我想说，嗯，是的，正是这种认识让我真正地，嗯，嗯，一头扎进了他们那无穷无尽的副业项目的兔子洞里。呃，我的业余项目文件夹里塞满了各种各样的东西，而且，呃，我一直在用 V 语言编程。嗯，是的，那件事大概发生在十二月，从那以后我一直在关注这件事的后果。

Stephanie Zhan采访者 / Sequoia partner · 05

嗯，你曾多次谈到大语言模型（LLM）就像一台新型计算机。嗯，这不仅仅是更好的软件，而是一种全新的计算范式。软件1.0 是显式规则，软件 2.0 是学习权重，软件 3.0 是这样的。嗯，如果这是真的，那么当一个团队真正相信这一点时，他们会在哪些方面做出改变呢？

Andrej Karpathy嘉宾 / Eureka Labs founder · 06

嗯，没错。所以软件1.0 版本，我是在编写代码；软件 2.0 版本，我实际上是在通过创建数据集和训练神经网络来进行编程。所以编程有点像整理数据集，可能还有一些目标和神经网络架构。然后发生的事情是，基本上，如果你在足够大的任务集上训练这些 GPT 模型或 LLM，基本上是隐式的，因为通过互联网进行训练，你必须对数据集中的所有事物进行多任务处理。嗯，从某种意义上说，它们实际上有点像可编程计算机。所以软件 3.0 的本质在于，你知道，你的编程现在变成了提示，而上下文窗口中的内容就是你对解释器的控制，也就是 LLM，它有点像解释你的上下文，并在数字信息空间中执行计算。所以我想，嗯，这就是转变的过程，我认为有一些例子让我真正理解了这一点，也许这对其他人会有启发意义。例如，当 OpenClaw 发布时，当你想要安装 OpenClaw 时，你通常会期望它是一个类似 shell 脚本的 bash 脚本。因此，运行 shell 脚本来安装 OpenClaw。嗯，但问题是，为了针对许多不同的平台和许多不同类型的计算机，你可能会运行一个 OpenClaw。这些 shell 脚本通常会变得臃肿不堪，而且极其复杂。

但问题是，你仍然停留在软件 1.0 的思维模式中，仍然想自己编写代码。实际上，OpenClaw 的安装说明就是复制粘贴一大段文字，你应该把这段文字交给你的智能体。嗯，基本上就是一个小技巧，你知道，复制粘贴这段代码，然后把它给你的智能体，它就会安装 OpenClaw。而它之所以更强大，是因为你现在使用的是软件 3.0 范式，你不需要精确地详细说明设置的所有细节。这个智能体拥有自己的智能，它会将智能打包，然后按照指令运行，观察你的环境、你的计算机，并执行智能操作来使程序正常运行，它还会循环调试问题，它的功能要强大得多，对吧？所以我觉得这是一种非常不同的思考方式，就像是应该把哪段文字复制粘贴给你的智能体？这就是编程范式。现在我想到一个可能更极端的例子，那就是我构建菜单生成器的时候。所以，菜单生成就是这个概念，你来到一家餐厅，他们会给你一份菜单。通常没有照片。所以，我不知道这些东西是什么，呃，通常有 30% 的东西我完全不知道它们是什么，50% 的东西我完全不知道。所以，我想拍一张餐厅菜单的照片，看看这些东西大致长什么样。

所以我用 VS Code 编写了这个应用程序，它基本上可以让你上传照片，它能做很多事情，它在 Vercel 上运行，它会重新渲染菜单，给你显示所有项目，并给你一张图片，它使用图像生成器来识别所有不同的标题，然后使用图像生成器获取它们的图片，并将其显示给你。然后我看到了这个软件的 3.0版本，它让我大开眼界，你只需要拍张照片，把它交给 Gemini，然后告诉它使用 Nano Banana 将内容叠加到菜单上。呃，Nano Banana基本上返回了一张和我拍摄的菜单照片一模一样的图像，但它实际上把菜单中的不同元素渲染到了像素中，这让我大吃一惊，因为我所有的菜单生成实际上都是沿用旧范式的。它沿用了旧的思维模式，即应用程序不应该存在。嗯，软件 3.0 范式确实更加原始粗糙。嗯，你的神经网络正在承担越来越多的工作，你的提示或上下文就是图像，输出也是图像，中间不需要任何应用程序的介入。所以我觉得人们需要重新思考，不要再用现有的思维模式来看待事物，而是把它看作是现有事物的加速发展。现在好像有很多新东西出现了。回到你关于编程的问题，我认为这甚至也是旧思维方式的一个例子，因为它不仅仅是关于编程和让编程变得更快。

这是目前可以自动化的更通用的信息处理方式。所以，嗯，这甚至不仅仅是代码的问题。所以之前的代码处理的是类似结构化数据的数据，对吧？呃，你是在结构化数据上编写代码。但举个例子，比如我的LLM 知识库项目，基本上就是让 LLM 为你的组织或你本人创建wiki等等。这甚至算不上一个项目。这是以前不可能存在的，因为当时没有代码可以基于大量事实创建知识库。但现在你可以把这些文档重新整理，以不同的方式重新排列，重新排序，从而创造出一些新颖有趣的数据，作为对数据的重新定义。所以这些都是以前不可能实现的新事物。所以我觉得这是我一直在努力回想的事情，不仅是我们现在能更快地完成哪些以前存在的事情，而且我认为还有以前不可能实现的新机遇，我甚至觉得这更令人兴奋。

Stephanie Zhan采访者 / Sequoia partner · 07

我非常喜欢你制定的菜单生成过程和二元结构，而且我相信这里很多人都关注了你从去年十月到今年一二月初的节目编排过程。嗯，如果进一步推断，那么到 2026 年，相当于 20 世纪 90 年代构建网站、2010 年代构建移动应用程序、以及在上一个云计算时代构建 SaaS 的哪些方面，事后看来会显得完全显而易见，而如今却大多尚未实现？

Andrej Karpathy嘉宾 / Eureka Labs founder · 08

嗯，（清嗓子）好吧，以菜单为例，我想，呃，所以很多代码都不应该存在，大部分工作都是神经网络完成的。嗯，我确实觉得这种推断看起来很奇怪，因为你可以想象，嗯，你可以想象完全神经计算机在某种意义上，你输入原始视频，比如想象一个设备，它接收原始视频或音频，基本上就是一个神经网络，它使用扩散来渲染一个用户界面，这个用户界面在某种意义上是独一无二的。嗯，我觉得在计算机发展的早期，人们对计算机最终会像计算器还是像神经网络感到有些困惑。在五六十年代，发展方向并不明朗。当然，我们最终选择了计算器这条路，构建了经典的计算机系统。而神经网络目前在现有的计算机上以虚拟化的方式运行。但你可以想象，我认为很多事情都会发生转变，神经网络会变成类似主机进程的东西，而CPU会变成类似协处理器的东西。我们看到了智能计算的示意图，神经网络将接管并成为浮点运算的主要用途。所以你可以想象…… 虽然神经网络承担了大部分繁重的工作，但结果却非常奇怪和陌生。他们把工具的使用当作一种历史性的附属品，用于某些确定性的任务。但真正主导一切的是这些神经网络，它们以某种方式发挥作用。嗯，你可以想象一下，这种推断可能会非常陌生，但我认为我们可能会一点一点地实现它。

嗯，我不太确定，这个进展还有待观察。

Stephanie Zhan采访者 / Sequoia partner · 09

[嗤笑]我想稍微谈谈可验证性这个概念，人工智能将更快、更容易地自动化那些输出结果可以验证的领域。嗯，如果这个框架是正确的，那么哪些工作的发展速度将远远超出人们的想象？还有哪些职业，人们认为很安全，但实际上却高度可验证？

Andrej Karpathy嘉宾 / Eureka Labs founder · 10

嗯，是的。所以我花了一些时间写关于可验证性的文章，基本上，传统计算机可以轻松自动执行你在代码中指定的内容，而最新一轮的 LLM 可以轻松自动执行你在某种意义上可以验证的内容，因为它的工作原理是，当 Frontier Labs 训练这些 LLM 时，它们是巨大的强化学习环境。所以它们会获得验证奖励，然后由于这些模型的训练方式，它们最终基本上会取得进步，并创造出一些锯齿状的实体，这些实体在数学、代码和相关等可验证领域的能力达到顶峰，而在不属于该领域的其他领域则会停滞不前，并且边缘粗糙。所以我认为我写关于可验证性的文章的原因是，我试图理解为什么这些事情如此复杂多变。嗯，部分原因与实验室如何训练模型有关，但我认为部分原因也与实验室的研究重点以及他们如何进行数据分布有关。嗯，因为有些东西在经济上更有价值，最终会创造出更多的环境，因为实验室想要在这些环境中工作。所以我认为代码就是一个很好的例子。他们可能想到了很多可验证的环境，但这些环境最终都没有被纳入考虑范围，因为具备这些环境的能力并没有多大用处。嗯，但我认为对我来说，最大的谜团是，一段时间以来最受欢迎的例子是草莓里有多少个字母，而模型总是答错，这就是锯齿状的一个例子。

嗯，现在的模型应该可以修复这个问题了，但是新的问题是，我想去洗车场洗车，洗车场离我50米远。我应该开车还是走路？而如今最先进的模型会告诉你，因为终点就在眼前，所以步行即可到达。最先进的Opus 4.7 怎么可能同时重构一个拥有 10 万行代码的庞大代码库（笑声），或者发现零日漏洞，却让我去洗车？这太疯狂了。如果这些模型仍然存在缺陷，这表明第一，可能有些地方不太对劲；或者第二，你需要真正了解情况，把它们当作工具，并且要时刻关注它们正在做什么。所以我觉得，总而言之，我所有关于可验证性的文章，都只是为了理解为什么这些东西会被搞砸。这其中有什么规律吗？我认为这是一种可验证的因素与实验室检测相结合的结果。也许还有一个有启发性的轶事：从 GPT 3.5 到 GPT 4，人们注意到国际象棋的模型性能有了很大的提升。我想很多人会认为这只是模型能力的进步，但实际上，我认为更确切地说，这是公开的信息，我在网上看到过。大量的国际象棋数据被纳入了预训练集，正是因为这些数据分布在预训练集中，模型的性能才比默认情况下提升得更多。所以 OpenAI 的某位员工决定添加这些数据，现在你们的能力得到了极大的提升。

所以我觉得我强调这个方面的原因在于，我们在某种程度上受制于实验室的所作所为，受制于他们碰巧在混合物中添加的任何物质。你必须认真研究他们给你的这个没有说明书的东西。在某些情况下有效，但在另一些情况下可能无效。你得稍微探索一下。呃，如果你在RL的赛道上，你就能飞。如果你处于数据分发范围之外的电路中，那么你将会遇到困难，你必须弄清楚你的应用程序处于哪些电路中。如果你不熟悉电路，那么你就必须认真考虑微调和自己做一些工作，因为LLM不一定能直接提供你想要的结果。

Stephanie Zhan采访者 / Sequoia partner · 11

我稍后会再详细探讨一下“锯齿状智能”这个概念。嗯，如果你今天是一位创始人，正在考虑创建一家公司，你试图解决一个你认为可行的问题，一个可验证的领域，但你环顾四周，心想：“我的天哪，实验室在那些看似最显而易见的领域，比如数学、编程等等，真的已经开始取得突破性进展了。” 您会给在座的各位创始人什么建议？

Andrej Karpathy嘉宾 / Eureka Labs founder · 12

嗯，所以我觉得这可能和之前的问题有关，我确实认为可验证性很重要，因为……让我想想。因此，可验证性使得某些东西在当前范式下变得易于处理，因为你可以投入大量的强化学习。嗯，或许可以这样理解：即使实验室没有直接关注这一点，这个结论仍然成立。因此，如果你身处一个可以创建这些 RL 环境或示例的可验证环境中，那么这实际上为你进行自己的微调奠定了基础，你可能会从中受益。但从根本上来说，这是行之有效的技术。如果你拥有大量多样化的强化学习环境数据集等等，你可以拉动一个控制杆。嗯，你可以使用你最喜欢的微调框架，然后拉动控制杆，得到一些实际上效果相当不错的结果。嗯……我不知道这方面的例子有哪些。嗯，但我确实认为有一些非常有价值的强化学习环境，人们可以想到，我认为它们不属于……是的，我不想透露答案，但有一个领域我认为非常……哦，好的。抱歉，我无意在台上发布有关电子烟的帖子，但确实有一些这样的例子。

Stephanie Zhan采访者 / Sequoia partner · 13

另一方面，你认为还有哪些事情只能通过远程操作来实现自动化？

Andrej Karpathy嘉宾 / Eureka Labs founder · 14

我认为最终几乎所有事情都可以在某种程度上得到验证。有些事情比其他事情容易。嗯，因为即使是像写作之类的事情，你可以想象有一个由大语言模型组成的评委委员会，并且可能会从这种方法中得到一些合理的结果。所以，关键在于事情是容易的还是难的。嗯，所以我的确认为最终，嗯，是的，我认为一切（笑声）一切皆可自动化。

Stephanie Zhan采访者 / Sequoia partner · 15

惊人的。好的。嗯，去年你创造了“氛围编码”这个词，而今天我们身处的世界感觉更加严肃，更加注重工程设计。你认为这两者之间有什么区别？你又会如何称呼我们今天所处的这种状态？

Andrej Karpathy嘉宾 / Eureka Labs founder · 16

嗯，是的。所以我认为，Vibe 编码的意义在于提高每个人在软件开发方面的能力门槛。所以地板升高了，每个人都可以随心所欲地创作，这太棒了，太不可思议了。但我认为，智能体工程的意义在于保持专业软件原有的质量标准。所以，你不能因为使用 Vibe Coding 而引入漏洞。嗯，你仍然像以前一样对你的软件负责，但是你能加快速度吗？剧透一下，你可以做到，但是如何正确地做到呢？所以对我来说，我称之为“智能体工程”，是因为我认为它有点像一门工程学科。这些智能体就像带刺的实体。它们有点像寓言，有点传奇色彩，但它们的力量非常强大。问题在于，如何协调他们以更快的速度运行，同时又不牺牲质量标准，并且要做好、正确地完成这项工作？这属于智能工程的范畴。所以我认为它们之间存在着某种差异，一个是关于提高最低标准，另一个是关于外推。我认为智能工程的能力上限非常高，以前人们常说的“10倍工程师”现在被放大了很多。10倍并不是你获得的速度提升。嗯，我觉得，嗯，在我看来，那些非常擅长这个的人，嗯，他们的巅峰状态似乎比现在的10倍要好得多。

Stephanie Zhan采访者 / Sequoia partner · 17

我非常喜欢这个构图。嗯，去年 Sam Altman 来 AIN 时，他说的有一件令人印象深刻的事，那就是不同世代的人使用 ChatGPT 的方式不同。所以，如果你正值三十多岁，你可以把它当作谷歌搜索的替代品。但如果你正值青少年时期，ChatGPT 就是你进入互联网的入口。这和当今的编程有什么相似之处？如果我们观看两个人使用 OpenClaw、Claude Code 或 Codex 进行编程，你会认为其中一个人水平一般，而另一个人则完全是人工智能原生开发者。你会如何描述二者的区别？

Andrej Karpathy嘉宾 / Eureka Labs founder · 18

[清嗓子]我的意思是，我认为这只是努力充分利用现有工具，运用它们的所有功能，投资于你自己的……嗯，某种设置。嗯，就像以前一样，所有工程师都习惯于充分利用他们使用的工具，无论是 vim 还是 VS Code，或者现在的 Claude Code 或 Codex 等等。所以，嗯，就是投资你的设备，嗯，并充分利用你能使用的各种工具。嗯，我觉得它看起来就是这样。我确实认为，嗯，也许相关的问题是，嗯，很多人可能正在招聘这类人才，因为他们想要招聘具有强大自主性的工程师。我确实认为，我看到的是，大多数人还没有重构他们针对智能体工程师能力的招聘流程，就像你仍然在布置难题让他们解决一样，这仍然是旧的模式。我认为招聘应该像这样：给我一个真正的大项目，看看应聘者如何实现它，比如说，写一个面向智能体的 Twitter 克隆版，然后把它做得非常好、非常安全，然后让一些智能体模拟在这个 Twitter 上的活动，然后我会使用 10 个 Codex 实例，以 xhigh 级别的高强度配置，来尝试攻破你部署的网站，他们会尝试破坏它，但他们不应该能够破坏它。所以也许看起来就是这样，对吧？所以，是的，观察人们在那种环境下构建更大的项目，并利用工具，这可能是我主要关注的内容。

Stephanie Zhan采访者 / Sequoia partner · 19

随着智能体承担的任务越来越多，你认为哪些人类技能会变得更有价值，而不是更没价值？

Andrej Karpathy嘉宾 / Eureka Labs founder · 20

嗯，是的，这是个好问题。我觉得，嗯，现在的答案是，智能体有点像实习生，对吧？所以这很了不起，嗯，你基本上仍然要负责美学、判断、品味和一些监督。我最喜欢的智能体怪异之处的例子之一是，嗯，对于 MenuGen，你用Google 账号注册，但你用 Stripe 帐户购买积分，两者都有电子邮件地址。我的智能体实际上尝试，嗯，当你购买积分时，它会使用 Stripe 的电子邮件地址将积分分配给 Google 电子邮件地址，就像没有一个持久的用户 ID 一样，嗯，它试图匹配电子邮件地址，但你可以为 Stripe 和 Google 使用不同的电子邮件地址，基本上不会将资金关联起来。所以，这类事情这些智能体仍然会犯错，比如，为什么要使用电子邮件地址来尝试交叉关联资金？它们可能是任意的。你可以使用不同的邮箱等等。这样做真的很奇怪。所以我认为必须有人负责制定这个规范、这个计划。嗯，其实我甚至都不喜欢计划模式。我的意思是，这当然非常有用，但我认为这里还有更普遍的道理，那就是你需要和你的智能体一起设计一个非常详细的规范，也许基本上就是文档，然后让智能体来撰写，你负责监督和顶级类别，但智能体负责很多幕后工作。

嗯，我觉得你不太在意一些细节。举例来说，也可以使用神经网络中的数组或张量。嗯，PyTorch 和 NumPy 之间有很多细节上的差异，还有 pandas 等等各种不同的 API 细节。而且我已经忘记了是保持尺寸还是保持尺寸，或者它是尺寸、轴、重塑、排列还是转置。我已经不记得这些事了，对吧？因为你没必要这么做。这类细节通常由实习生处理，因为他们记忆力很好。但你仍然需要了解一些基本概念，例如，底层有张量，底层有视图，你可以操作同一存储中的视图，也可以使用不同的存储，后者效率较低。所以你仍然需要理解这些东西的工作原理和一些基本原理，这样才能避免不必要的内存复制等等。但是，API 的具体细节现在已经交接出去了，你负责品味、工程和设计，确保它合理，确保你提出的需求正确，确保我们使用唯一的 ID 来关联所有内容。所以你负责一些设计和开发工作，工程师负责完善细节。目前我们的情况大概就是这样，我想大家也都看到了这一点。

Stephanie Zhan采访者 / Sequoia partner · 21

你认为现在这种情况有可能改变吗？嗯，随着时间的推移，品味和判断力会变得不那么重要吗？还是说上限会不断提高？嗯，这是一个很好的问题。好的。

Andrej Karpathy嘉宾 / Eureka Labs founder · 22

嗯，我的意思是，我希望情况能有所改善。我认为它目前没有改善的原因可能是，它不属于RL（RL 电路）。可能没有美学上的成本或回报，或者不够好之类的。嗯，我觉得当你真正去看代码的时候，有时候我会有点心惊胆战，因为代码并不总是那么出色，而且非常臃肿，有很多复制粘贴，还有一些笨拙脆弱的抽象，虽然它能运行，但真的很糟糕。嗯，我确实希望这方面能在未来的模型中得到改进。嗯，一个很好的例子就是这个miniGPT 项目，我当时试图将LLM 训练简化到尽可能简单。模特们很讨厌这样。他们做不到。我一直试图引导 LLM 进一步简化，但它就是做不到，让你感觉自己置身于 RL 电路之外。感觉就像你明明知道自己在拔牙一样。这跟光速不一样。所以我觉得，嗯，我确实认为，人们仍然掌握着这件事的主动权。但我认为，并没有什么根本性的因素阻碍它发生。只是实验室几乎还没能做到这一点。是的。

Stephanie Zhan采访者 / Sequoia partner · 23

所以我很想再探讨一下这种参差不齐的智能形式。你曾写过一篇关于动物与鬼魂的文章，非常引人深思。嗯，我们的想法是，我们不是在制造动物，而是在召唤幽灵。嗯，这些都是由数据和奖励机制塑造的、不规则的智能形式，而不是由内在动机、乐趣、好奇心或自主权塑造的智能。呃，有些东西是通过进化而来的。嗯，为什么这种框架很重要？它实际上会改变你构建、部署、评估甚至信任它们的方式吗？

Andrej Karpathy嘉宾 / Eureka Labs founder · 24

嗯，是的，我想我写这篇文章的原因是，我正在努力理解这些东西到底是什么，对吧？因为如果你对它们是什么或不是什么有一个很好的了解，那么你就能更熟练地使用它们。嗯，我确实认为，嗯，我不知道它是否有，我不确定它是否真的有真正的力量。 [笑声]我觉得这有点像是在思考哲学问题。嗯，但我确实认为，嗯，我认为这只是，嗯，逐渐接受这样一个事实：这些东西并不是，你知道的，动物的智慧。如果你对他们大吼大叫，他们的工作表现既不会更好也不会更差，或者说根本没有任何影响。嗯，这一切就像是统计模拟电路，底层是预训练，就像统计学一样，然后强化学习又叠加在上面。所以，这有点像增加了支出，嗯，也许这只是我进入某种状态的心态，或者什么可能有效或可能无效，或者如何修改它。但实际上，我并不知道我是否拥有以下五个显而易见的改进系统的方法。更多的是心存疑虑，然后慢慢弄明白。

Stephanie Zhan采访者 / Sequoia partner · 25

一切都从这里开始。嗯，好吧，看来你已经深入参与到与那些不只是闲聊的智能体的合作中了。他们拥有真正的权限。它们具有地域性背景。他们会代表你采取行动。当我们都开始生活在那个世界里时，世界会是什么样子？

Andrej Karpathy嘉宾 / Eureka Labs founder · 26

嗯，是的，我想这里很多人可能都对这个智能体，你知道的，原生智能体环境的样子感到兴奋，一切都必须重写。一切事物本质上仍然是为人类编写的，因此需要进行调整。大多数时候，当我使用不同的框架、库或其他类似的东西时，它们的文档仍然主要是为人类编写的。这是我最讨厌的一件事。我不明白，为什么人们还要告诉我该怎么做？我好像什么都不想做。我应该把什么内容复制粘贴给我的智能体？[笑声] 就像，呃，所以每次有人告诉我，你知道，去这个网址或者类似的东西，我就觉得，啊[笑声]你知道。 [嗤笑] 所以，嗯，我想大家都很兴奋，想知道我们如何将需要完成的工作负载分解成遍布全球的传感器和执行器。如何使其原生于智能体？呃，基本上先向智能体描述一下。然后围绕着很多自动化，你知道，围绕着对 LLM 来说非常易读的数据结构。

嗯，所以我觉得，嗯，是的，我希望市面上有很多智能体优先的基础设施，你知道，以 MenuGen 为例，我写过一篇关于 MenuGen 的博客文章，嗯，我不确定它是否出名，但当我写那篇博客文章时（笑声），嗯，很多工作和麻烦甚至都不在于编写 MenuGen 的代码，而在于在各种平台上部署它，因为我必须处理所有这些不同的服务，我必须将它们连接起来，我必须访问它们的设置和菜单，你知道，还要配置我的 DNS，这真是太烦人了。所以这是一个很好的例子，我希望 MenuGen 可以让我给 LLM 一个构建 MenuGen 的提示，然后我就不必碰任何东西，它也能以同样的方式部署到互联网上。我认为这可以很好地检验我们的基础设施是否越来越趋向于原生于智能体。最后我会说，是的，我认为我们正在走向这样一个世界：个人和组织都有智能体代表，我会让我的智能体与你的智能体沟通，确定我们会议的一些细节等等。所以，[笑声]嗯，我确实认为事情大致会朝着那个方向发展，但是，嗯，是的，我想这里每个人都对此感到兴奋。

Stephanie Zhan采访者 / Sequoia partner · 27

我非常喜欢传感器和执行器之间的这种视觉类比。我之前真没想到这一点。这太有趣了，对吧？嗯，好吧，我想我们必须以一个关于教育的问题来结束今天的讨论。嗯，因为你可能是世界上最擅长将复杂的技术概念化繁为简，并且对我们如何围绕它设计教育有着深刻思考的人之一。嗯，随着我们迈入人工智能的下一个时代，当智能变得廉价时，还有哪些东西值得我们深入学习呢？

Andrej Karpathy嘉宾 / Eureka Labs founder · 28

是的。呃，最近看到一条推文，让我大吃一惊，我几乎每天都会想起它。大概意思是，你可以把思考外包出去，但你不能把理解外包出去。嗯，我觉得这话说得真好。是的，因为我仍然是系统的一部分，我仍然需要以某种方式让信息进入我的大脑，但我感觉自己正在成为瓶颈，甚至连我们试图构建什么、为什么值得这样做、如何指导我的智能体等等都搞不清楚。所以我仍然认为，最终必须有某种东西来指导思考和处理等等，而这在某种程度上仍然受到理解的根本限制。这也是我对所有LM知识库感到非常兴奋的原因之一，因为我觉得这是我处理信息的一种方式，每当我看到对信息的不同解读时…… 我总觉得这样能让我获得新的见解。所以实际上，它只是给我很多提示，让我基于一些固定数据进行合成数据生成。嗯，我真的很喜欢，每当我读一篇文章的时候，我都会建立一个由这些文章构成的维基百科，我喜欢问一些问题，或者说，我认为最终这些都是以某种方式增强理解的工具，但这仍然有点像一个瓶颈，因为如果你仍然……嗯，LM（指游戏设计师）肯定不擅长理解，你就无法成为一名优秀的导演，而你仍然对此负有独特的责任。所以，嗯，是的，我认为，嗯，这类工具非常有趣和令人兴奋。

Stephanie Zhan采访者 / Sequoia partner · 29

我很期待几年后回到这里，看看我们是否已经完全脱离了自动化流程，而他们实际上也负责理解流程了。呃，非常感谢你加入我们，安德烈。我们非常感谢。[掌声]

原视频：Andrej Karpathy: From Vibe Coding to Agentic Engineering，Sequoia Capital。