美国红杉资本AI Ascent系列三–从“氛围编码”到“智能体工程”:Andrej Karpathy 对 3.0 与 开发范式的分享
对话者
Andrej Karpathy : Eureka Labs 创始人(前 OpenAI 联合创始人、Tesla AI 总监)
Stephanie Zhan : Sequoia Capital 合伙人
概要
在 Sequoia Capital 举办的 AI Ascent 2026 会议上,Andrej Karpathy 与合伙人 Stephanie Zhan 展开了一场关于编程范式根本性转移的深度对话。Karpathy提出,2025 年 12 月是一个明确的分水岭——大语言模型的能力发生了质变,从“有时会出错、需要人工修正”的工具,进化为“几乎不需要修正”的可靠智能体。这一转变让这位曾定义现代AI 的工程师首次感到“作为一名程序员,从未如此落后”。
Karpathy 系统性地阐述了软件1.0(显式规则)、软件 2.0(学习权重)到软件 3.0(提示与上下文作为编程界面)的演进路径。他以 OpenClaw 的安装方式为例指出,传统软件 1.0 思维下的复杂 shell 脚本正在被“复制粘贴给智能体的文本”所取代——后者利用智能体的环境感知与自主调试能力,实现了远超脚本的适应性。更激进的案例是“菜单生成器”(Menu Gen):Karpathy 曾构建一个完整的OCR+图像生成应用来为餐厅菜单添加菜品图片,但随后发现,只需将菜单照片直接输入 Gemini 并提示“使用 Nanobanana 覆盖图片”,即可获得完全相同的输出——整个应用层变得多余。
这一观察引出了核心概念:可验证性。当前大语言模型的能力分布呈“崎岖”形态,在数学、代码等高可验证领域表现卓越,但在“50 米外的洗车店应该开车还是步行”这类常识问题上却会给出荒谬答案。Karpathy将这种形态描述为“幽灵”而非“动物”——现代 AI 不是具备内在动机、好奇心或认知一致性的生物智能,而是通过预训练统计与强化学习叠加召唤出的、能力分布极其不均匀的统计实体。
在实践层面,Karpathy 区分了“氛围编码”(vibe coding)与“智能体工程”(agentic engineering)。前者提升全民软件创造能力的下限,后者则是在专业软件工程中维持质量上限的工程纪律。一个优秀的智能体工程师不是写代码更快的人,而是能够设计规范、协调多个智能体、并在保持安全与质量的前提下实现超 10 倍效率提升的人。招聘方式也必须改变:从算法谜题转向“给一个大项目,让智能体实现,再用10 个智能体试图攻破它”。
关于教育的终极问题,Karpathy 引用了一句令他反复思考的话:“你可以外包你的思考,但无法外包你的理解。”理解仍然是人类在智能体时代唯一的、不可替代的瓶颈。而智能体原生的基础设施——从部署流程到文档编写——都需从“面向人类”转向“面向智能体”,即提供“应该复制粘贴给智能体的文本”而非“你应该去做什么”的指令。
主题分析
主题一:软件 3.0——从显式规则到神经解释器
Karpathy 提出的软件1.0 至 3.0 框架,是对计算范式演进最清晰的解剖。软件1.0 是程序员编写显式规则,计算机作为确定性执行器。软件 2.0 是通过数据集与目标函数训练神经网络,编程行为转变为“组织数据与架构”。软件 3.0 则意味着大语言模型本身成为一个可编程的神经解释器,提示词与上下文窗口构成新的编程界面。
这一区分的核心洞见在于:软件 3.0 不再要求程序员精确描述每一步操作,而是要求程序员“召唤”一个具备泛化能力的智能体,让其自主理解环境、执行任务、调试错误。Karpathy 以OpenClaw 的安装为例——传统 shell 脚本为覆盖多种平台会急剧膨胀为复杂的条件分支,而软件 3.0 的安装方式仅仅是“复制这段文本给智能体”。智能体会读取用户环境、判断操作系统、处理依赖冲突、自动重试失败的步骤。这不是脚本的简化,而是计算范式本身的转移:从“预先枚举所有可能性”转向“在运行时通过智能体动态适应”。
软件 3.0 的另一个关键特征是“应用层的消融”。Karpathy的菜单生成器案例揭示了这一趋势的激进程度:一个需要 OCR、图像生成、前端渲染的完整Web 应用,在软件 3.0 范式下被压缩为一个提示词——“将这张菜单照片交给 Gemini,让它用 Nanobanana 覆盖图片”。大语言模型直接完成了从图像输入到图像输出的端到端转换,中间的所有组件都变得多余.
传统思维下的“产品功能”正在被重新定义为“提示词设计”。并非所有应用都会消失,但那些本质上只是“在不同数据格式之间转换”的应用——OCR 工具、格式转换器、基础图像编辑器——将最先被吞噬。软件 3.0 不是一个加速器,而是一个重构器:它改变的不是“做同一件事更快”,而是“什么事值得做、什么事根本不需要做”。
主题二:智能体工程——从氛围编码到专业质量
Karpathy 明确区分了“氛围编码”与“智能体工程”。氛围编码是 2025 年初他命名的现象——任何人无需理解编程语言细节,只需用自然语言描述意图,智能体即可生成可运行的代码。这一趋势极大地提升了全民软件创造能力的下限,让非技术人员可以“做出能用的东西”。但氛围编码本身不保证软件质量、安全性、可维护性。
智能体工程则是建立在这一基础之上的专业纪律。它的目标不是让每个人都成为程序员,而是让专业程序员在质量不降级的前提下实现数量级的效率提升。Karpathy 指出,过去人们谈论“10 倍工程师”,但在智能体工程的背景下,10倍只是起点。真正擅长此道的工程师可以实现远超 10 倍的效率差距。
智能体工程的核心能力包括:设计清晰的规范而非编写代码;理解智能体的能力边界与“崎岖”形态;协调多个智能体分工;建立验证与测试机制;保持对美学与工程品味的判断权。Karpathy特别强调了“品味”与“判断”的不可外包性——智能体可以写出功能正确的代码,但常常写出“臃肿、复制粘贴、脆弱的抽象”的代码。当 Karpathy 试图让智能体简化 microGPT 项目时,体验是“像拔牙一样困难”。这不是智能体能力不足,而是“简化”这一目标不位于当前强化学习优化的奖励函数内。
智能体工程还要求重新设计招聘流程。传统的算法谜题面试在智能体时代几乎失去意义——因为智能体本身就能解决这些谜题。Karpathy 建议的替代方案是:给候选人一个足够大的项目(如“实现一个 Twitter 克隆”),要求使用智能体工具完成,然后让10 个 Codex 实例试图攻破这个部署好的网站。候选人能否在速度与安全之间取得平衡,能否设计出智能体无法轻易渗透的系统,这才是衡量智能体工程师能力的有效方式。
主题三:可验证性边界——AI 能力的崎岖地形
Karpathy 提出的“可验证性”概念是理解当前大语言模型能力分布最关键的框架。前沿模型在数学、代码等高可验证领域表现卓越——它们能够重构十万行代码库、发现零日漏洞——却会在“50 米外的洗车店应该开车还是步行”这类简单问题上给出荒谬答案(建议步行)。这种能力分布的不均匀性,Karpathy称之为“崎岖”(jagged)。
这种崎岖性有两个来源。第一是训练方法:前沿实验室使用大规模强化学习,奖励函数天然偏向可验证的任务。当你能够自动判断输出是否正确(如代码能否通过测试、数学证明是否成立),你就可以无限扩展训练数据与优化步骤。而那些难以自动化验证的任务——美学判断、常识推理、微妙的社会情境理解——则无法享受同等规模的强化学习。
第二是数据分布的人为选择。Karpathy 以 GPT 系列在国际象棋能力上的跃升为例:从 GPT-3.5 到 GPT-4,国际象棋能力的提升并非模型规模扩大的自然结果,而是因为有人在预训练数据中刻意加入了大量棋谱数据。换言之,模型在某些领域表现卓越,仅仅是因为实验室决定让它们在这些领域卓越。用户面对的是一个“没有说明书”的实体——你不知道哪些能力被刻意强化过,哪些能力被忽视。
这一框架对开发者意味着:在使用大语言模型构建产品时,必须主动探测“你处于模型的哪个电路之中”。如果你的应用场景恰好位于强化学习优化过的领域,模型会“飞”;如果位于数据分布之外,模型会挣扎。此时,开发者必须考虑微调或构建自己的验证环境。Karpathy认为,可验证性本身就是一个投资机会——那些能够创造高质量、大规模强化学习环境的垂直领域,即使前沿实验室没有重点关注,创业公司也可以通过自有微调获得显著的竞争壁垒。
主题四:幽灵而非动物——理解 AI 的认知框架
Karpathy 提出的“动物 vs 幽灵”框架,是对大语言模型认知本质的重要澄清。动物智能(包括人类)由进化塑造,具备内在动机、好奇心、对世界的持续性建模、以及某种程度的认知一致性。动物会疲倦、会分心、会在被吼叫时表现不同——这些不是缺陷,而是生物智能的有机特征。
大语言模型是“幽灵”。它们是统计模拟的产物,通过预训练学习文本中的统计规律,再通过强化学习叠加行为偏好。它们不具备任何内在状态或持续性动机。你对着一个模型吼叫不会改变它的输出——它不是被“激怒”或“害怕”,它只是在不同提示词分布下生成不同的 token。Karpathy 强调,这一区分不是哲学思辨,而是实用工具:理解模型不是动物,你就不会犯“把它当作有心灵的助手”的错误。
这一框架改变了开发与部署的方式。当你将模型视为幽灵,你会更加系统地探测其行为边界,而不是依赖“直觉”判断它“应该”能做什么。你会建立更严格的验证机制,而不是信任它的“判断”。你也会更清楚地理解为什么某些任务尽管“看起来简单”却始终无法突破——不是模型不够聪明,而是那些任务不在奖励函数的覆盖范围内。
“幽灵”框架也解释了为什么模型的进步方向难以预测。实验室可以选择在任何可验证领域大幅提升能力——只需投入更多强化学习资源和数据。但能力的提升不会自动泛化到相邻但不可验证的领域。一个能证明复杂定理的模型仍然可能给出荒谬的物理直觉或社交建议。这不是bug,而是“幽灵”的本质特征。
主题五:从菜单生成看应用消亡——提示直达结果的范式革命
Karpathy 的“菜单生成器”案例是软件 3.0 最具冲击力的实证。他构建了一个完整的Web 应用:用户上传菜单照片,系统进行 OCR 识别菜品名称,调用图像生成模型为每道菜生成示意图片,最后重新渲染菜单并展示。这是典型的软件2.0 时代混合架构——传统编程与神经网络协同工作。
然而他发现,将同一张照片直接输入 Gemini 并提示“使用 Nanobanana 覆盖图片”,模型直接返回一张已经在原始照片上叠加了菜品图片的完整图像。整个应用——OCR、图像生成调度、前端渲染——全部变得多余。模型在单次前向传播中完成了从图像到图像的全部转换。
这一案例揭示了三条根本性规律。第一,任何“中间表示”都可能被模型跳过。传统软件工程的核心活动——设计数据结构、编写转换逻辑、构建用户界面——本质上是在创造人类可读可维护的中间表示。当模型能够直接从原始输入到原始输出端到端学习时,这些中间层不再是必需的。
第二,应用的价值正在从“转换逻辑”转移到“提示词设计”。菜单生成器作为一个产品,其核心价值不再是 OCR 的准确性或渲染的美观性,而是“知道应该对 Gemini 说什么”。这是一个完全不同的竞争维度——它要求的是对模型能力的深刻理解、对提示词工程的精湛技巧、对输出质量的判断力,而非传统的前后端开发能力。
第三,Karpathy 认为这种趋势会加速,不是因为模型在变得更大,而是因为“提示词本身就是可执行的程序”。当模型能够理解“在图片上覆盖内容”这一指令并直接执行,意味着模型的指令理解粒度已经达到“操作像素”级别。未来,更多的传统软件功能将被压缩到提示词中。这并不意味着软件工程师失业——而是意味着软件工程师的工作从“写转换代码”转向“理解哪些转换目前还需要代码实现、哪些已经可以被模型直接执行”。
主题六:智能体原生基础设施——从人类文档到机器指令
Karpathy 反复表达的一个frustration 是:几乎所有基础设施仍然是为人类设计的。文档写的是“你应该去这个URL 做 X 操作”,部署流程要求“登录控制台点击 Y 按钮”。而在智能体时代,正确的设计应该是“复制这段文本给你的智能体”。
这一观察指向“智能体原生”(agent-native)基础设施的空白。当前,无论是云服务配置、DNS设置、数据库迁移,还是 API 密钥管理,都假定一个人机交互界面——人类阅读文档、操作 UI、点击确认。智能体可以模拟这些操作,但效率极低、易错、且无法规模化。智能体原生基础设施要求:所有操作都有结构化、机器可读的描述;所有状态都可以通过API 查询和修改;所有文档都提供“智能体可直接使用的指令块”。
Karpathy 认为,一个重要的里程碑将是“用一个提示词部署完整应用”。他构建菜单生成器时,最耗时的部分不是编写代码,而是配置Vercel、链接各种服务、调整 DNS。他希望未来的系统能够接受“构建并部署菜单生成器”这样的指令,然后自动完成所有底层配置——不需要人类在 UI 中点来点去。
这一趋势对创业公司意味着巨大的机会。传统的 DevOps 工具、配置管理平台、甚至一部分 SaaS 服务,都可能被智能体原生的替代者挑战。如果你提供的服务仍然依赖人类阅读文档并在UI 中点击,你本质上是在要求用户的智能体花费大量 token 来模拟人类行为。而如果你能提供“智能体优先”的接口——结构化描述、可编程状态、自然语言指令直接映射到API 调用——你将获得显著的效率优势。
Karpathy 还展望了更远的未来:智能体之间的交互将成为常态。人类的智能体将与组织的智能体对话,安排会议、协调资源、交换信息。这一图景要求不仅仅是基础设施的改造,还包括身份、权限、审计、隐私等所有层面的重新设计。人类不再是所有交互的中间节点,而是设定目标和约束的高层决策者。
主题七:教育的不可外包性——理解作为终极瓶颈
面对“AI 能做越来越多的事,人类还应该学什么”这一问题,Karpathy 引用了一句深刻的话:“你可以外包你的思考,但无法外包你的理解。”思考——即生成文本、代码、计划的行为——可以交给智能体。但理解——即处理信息、形成判断、建立知识结构的过程——必须发生在人类大脑中。
Karpathy 指出,他自己正在成为瓶颈——不是写代码的速度,而是“知道我们在构建什么、为什么值得构建、如何指导智能体”的能力。信息必须进入他的大脑,他必须理解上下文,然后才能做出高质量的决策。智能体可以执行这些决策,但无法替代他形成决策的过程。
这正是 Karpathy 对“LLM 知识库”项目如此兴奋的原因。他认为,智能体可以帮助人类更快地处理信息、从不同角度重新组织信息、生成有助于理解的合成数据。但最终,人类仍然需要“吸收”这些信息——这一过程无法被外包。阅读一篇文章、让智能体生成摘要、然后直接使用摘要而不阅读原文,这种做法会导致“理解空心化”——你拥有了结论,但失去了判断结论是否可靠的能力。
教育体系需要为此做出根本性调整。记忆事实、练习基础算法、学习语法规则——这些在过去被视为核心能力,现在智能体可以做得更好。但建立概念框架、培养批判性思维、形成审美判断、理解复杂系统的行为——这些能力的重要性在上升,而非下降。Karpathy 暗示,未来的教育重点不应是“如何做”,而是“如何判断什么是好的、什么值得做、如何指导智能体去做”。
这一观点对风险投资的启示是:投资教育科技时,不应只看“用 AI 提高学习效率”的工具,而应关注那些真正帮助人类建立理解、形成判断、提升品味的系统。这些领域是智能体无法替代的,也因此具有更长久的价值。
总结与展望
Karpathy 的对话勾勒出一幅从技术底层到应用层、从个人生产力到组织能力全面重构的图景。软件3.0 不是软件的进化,而是软件概念的再定义——从“人类写的指令”到“人类召唤的智能体”。这一转变的影响将远超编程本身,渗透到所有信息处理活动。
可验证性框架揭示了当前 AI 能力的根本特征与限制。在数学、代码等高可验证领域,能力正在以超线性速度提升,且这一趋势会持续加速——因为强化学习的飞轮一旦启动,只会越转越快。但在低可验证领域,进展将是缓慢、不均衡、且高度依赖人工设计的。这并不意味着那些领域不重要——恰恰相反,审美、常识、社交智能、伦理判断等领域是人类价值最集中的地方,也最难以被自动化。
从氛围编码到智能体工程的演进,反映了行业从“兴奋期”进入“工程化期”。氛围编码让每个人都惊讶于“能做出来”,智能体工程则要求“规模化地做出正确的东西”。招聘、评估、项目管理、代码审查——软件工程的每一个环节都需要重新设计。这不是一次增量改进,而是一次方法论层面的重置。
智能体原生基础设施是下一个明确的投资主题。从文档编写到部署流程,从 API 设计到权限管理,所有面向人类构建的系统都需要一个面向智能体的等价物。这不是“加上AI 功能”,而是从根本上改变交互范式——从“人类操作”到“智能体协调”。
教育领域的核心挑战与机会在于“理解的外包边界”。帮助人类更快、更深地理解复杂信息的工具具有巨大价值,而试图绕过理解的工具则可能造成长期损害。Karpathy 的观点暗示,真正有价值的教育产品不是“让你不用学”,而是“让你学得更深、更快、更愉悦”。
展望 2026 年之后的三年,可以预见几个确定性趋势。第一,可验证领域的自动化将接近完全——代码编写、数学证明、数据分析等工作的本质将变成“意图表达与结果验证”,而非逐行实现。第二,智能体之间的协作协议将标准化,形成新的基础设施层。第三,人类在工作流中的角色将向“目标设定、约束定义、异常处理、质量控制”四个方向收敛。第四,“理解”将取代“知识”成为核心资产,能够帮助人类建立深层认知的工具将获得持久的竞争优势。
Karpathy 的终极洞见是谦逊的:在智能体变得日益强大的时代,人类的独特价值不是“比 AI 更聪明”,而是“知道自己想要什么、为什么想要、以及什么才是好的”。这些品质无法被奖励函数所捕捉,也无法被数据分布所覆盖——它们是智能体时代的真正稀缺资源。
免责声明
本报告基于有关对话,不构成任何投资建议,亦不代表任何机构的正式立场。本报告仅用于研究与教育目的。
夜雨聆风