深度|红杉资本2026 AI Ascent:Software3.0时代与智能体工程-夜雨聆风

深度|红杉资本2026 AI Ascent:Software3.0时代与智能体工程

核心观点：2025年12月是智能体能力拐点。从那时起，编程的默认工作流发生了根本性变化：程序员不再是逐行写代码的人，而是协调多个智能体的系统架构师。我们正在步入Software 3.0时代，程序不再通过传统的编码方式构建，而是借助提示词、上下文、工具链以及可验证的反馈循环来“编译”而成。当AI能够独立完成从功能实现到服务部署的完整链条，真正的稀缺能力便不再是编码速度，而是判断“什么值得做”以及“如何确保正确性”。

Andrej Karpathy，前OpenAI创始成员、特斯拉AI高级总监，现独立研究者。2026年4月，他在红杉资本AI Ascent 2026大会上与红杉合伙人Stephanie Zhan进行对话，系统阐述了对AI Agent、软件开发范式转移以及创业机会的最新思考。

一、智能体拐点：2025年12月

Karpathy坦言，作为程序员，他从未像现在这样感到“落后”。原因并非编程在传统意义上变得更难了，而是默认的工作流程已经彻底改变。

2025年的大部分时间里，像Claude Code、Codex以及Cursor这类智能体虽然已经很有用，但仍然需要频繁的人工修正。转折大约发生在2025年12月，他感受到一次质的飞跃：生成的代码块变得更大、更连贯、更可靠。从这之后，他开始放心地把更多工作委托给智能体。

编程的“基本单元”正从逐行敲代码，转变为委派任务：

实现某个功能
重构某个子系统
调研某个库
配置某个服务
编写测试、运行并修复失败
对比多种方案并给出计划

这意味着，程序员正在从“写代码的执行者”转变为“协调智能体的架构师”。

二、Software 3.0：上下文窗口即新程序

Karpathy将软件演进划分为三个阶段：

Software 1.0：人类编写显式代码（如C、Python）。
Software 2.0：人类创建数据集与目标函数，由神经网络学习出程序（即深度学习）。
Software 3.0：人类通过提示、上下文、工具、示例、记忆和指令来“编程”LLM。

在Software 3.0中，上下文窗口成为了主要的操控杠杆，LLM则充当运行在数字信息之上的解释器。

以软件安装为例。过去要在不同环境中安装一个复杂工具，你需要写一个满是条件分支、极易出错的shell脚本。而在Software 3.0的世界里，安装器可以变成一段文本指令，直接交给智能体执行，智能体会读取本地环境、调试错误、适配机器配置，最终完成安装。这是一种全新的程序形态，虽然不那么精确，却拥有极强的适应性。

三、传统软件可能正在消失

Karpathy以MenuGen为例，揭示了更深层的变化。

MenuGen是一款传统Web应用：拍摄菜单照片，OCR识别菜名，生成菜品图像，再渲染到用户界面上。它依赖前端代码、API、图像生成、部署、认证、支付、密钥、基础设施等一套复杂的软件栈。

后来他看到了Software 3.0版本：直接拍摄菜单照片，将其交给一个多模态模型，并给出指令“把菜品图像渲染到菜单照片上”。在这个版本中，大部分应用逻辑消失了，神经网络直接将输入媒体转换为输出媒体。旧的软件栈只是围绕这一转换的脚手架，而如今模型自身便足以完成。

对创业者而言，AI不仅仅是加速构建旧应用的更高效工具，甚至有些app本身，就不应该再以app的形态存在。

四、可验证性：AI为何在某些领域跑得特快

Karpathy给出了一个自动化框架：

传统软件自动化的是“你能精确指定”的东西
LLM与强化学习自动化的是“你能验证”的东西

如果一个任务有自动的奖励信号或成功反馈，模型就能通过反复练习来掌握。这就是数学、编程、测试、基准测试、游戏以及大量工程任务进步如此迅速的原因，它们都可以重置、重复执行，并且可以获得奖励信号。

这也解释了为什么编程智能体的体验远优于普通聊天机器人。编程能给模型提供即时反馈：测试通过或失败、程序运行或崩溃、代码差异(diff)可以被检查、基准测试结果可以被度量。

Karpathy进一步给出了一个粗略的公式：

因此，创业者需要问：你的任务是否在模型的“轨道”上？如果任务是可验证且被大量训练的，模型会表现出色；否则，它可能在基础问题上就会失败。你可能需要提供更好的上下文、更合适的工具进行微调，建立自己的评估体系(evals)，甚至搭建自己的强化学习环境。

六、Vibe Coding与Agentic Engineering

Karpathy区分了两个相关但本质不同的概念：

Vibe coding：提升了下限，让几乎任何人通过自然语言描述就能创建软件。适合原型和个人工具。
Agentic engineering：提升了上限，是专业人员在协调易错的智能体时，同时保持正确性、安全性、品味和可维护性的学科。

Vibe coding对于原型和个人工具来说没问题，但Agentic engineering才是严肃团队所需要的。

智能体工程师不会盲目接受生成的代码，他们会设计规范、监督计划、审查代码差异(diff)、编写测试、创建评估闭环、管理权限、隔离工作区、把控最终质量。

Karpathy举了MenuGen支付漏洞的例子：智能体试图用邮箱地址来匹配Stripe购买记录与Google账户。代码能跑通，但系统设计存在严重缺陷，Stripe邮箱与Google登录邮箱可能不一致。因此人类工程师仍需要具备足够的判断力，才能发现这个缺陷并改进。

所以，前沿技能不是死记每个API的细节，而是理解底层概念：存储、视图、内存拷贝、不变量、身份、安全边界、系统的整体形态。

七、招聘方式应该如何改变

如果Agentic engineering成为新的专业技能，招聘就应该直接测试这项能力。

传统的编程面试越来越不匹配。更好的面试可能是：让候选人使用智能体搭建一个有实质性的项目，部署它，确保安全，然后让对抗性智能体尝试攻破它。

这个面试能够真实测出候选人的多项能力：

能否为智能体合理分解工作任务？
能否写出清晰有用的规范说明？
能否在快速推进的同时保持代码质量？
能否敏锐地审查生成的作品？
能否有效地加固系统安全？
能否真正把智能体当作杠杆，而不是制造混乱？

过去人们常说的“10x engineer”可能会变得极端得多。掌握了Agentic工作流的人，其效率将远超同类从业者，差距可能不止10倍。

八、创业者应该寻找有价值、可验证的环境

对创业者而言，一个重要机会是找到那些具有高价值、可验证但尚未被前沿实验室充分训练过的领域。

如果你能创建一个特定领域的环境，让模型可以在其中尝试动作并获得可靠的奖励信号，那么即使基础模型在该领域并不出色，你也能通过微调或强化学习来提升其性能。

最显而易见的领域，比如编程和数学，已经被各大实验室重点投入。但许多具有重要经济价值的领域可能潜藏着可验证的结构，尚未被发掘，而这正是创业公司可以切入的方向。

九、为智能体设计，而非只为人

大多数软件仍然是为人通过屏幕点击而设计的，文档里写着“访问这个URL、点击这个按钮、打开这个设置面板”。但越来越多的时候，直接用户可能不再是人类，而是人类派出的智能体。

这意味着产品需要Agent-native界面：

Markdown文档
CLI（命令行界面）
API
MCP服务器
结构化日志
机器可读的数据模式(schema)
可直接复制粘贴的智能体指令
安全的权限管理
可审计的操作记录
无头(headless)部署流程

Karpathy用“传感器”和“执行器”来类比。传感器将世界的某种状态转化为数字信息，执行器让智能体去改变事物。未来的技术栈，就是智能体代表人类与组织，使用传感器和执行器来完成任务。

结语

这场对话的核心论点并不是“AI让每个人更快地做旧工作”。而是工作本身正在围绕智能体重组。软件、研究、教育、基础设施、知识工作，都在走向同一种模式：人类设定目标、设计约束、提供可验证信号，然后让智能体在安全边界内自主执行。

当“写代码”的成本趋近于零，真正的稀缺资源变成了“判断该写什么”。当上下文窗口成为新程序，理解系统边界、安全、品味和那些不可验证的模糊地带，就成为了人类无法外包的最后堡垒。AI不会取代工程师，但它会彻底重新定义“谁才是工程师”，以及“工程师到底在做什么”。

对于创业者而言，Karpathy的洞察给出了几个明确的行动方向：寻找那些可验证、具备高价值但尚未被大实验室充分训练的领域；构建面向智能体原生的界面，而非只为人设计的界面；以及最重要的一点，培养自己成为一名能够驾驭智能体的“系统架构师”。

对话｜硅谷传奇投资人Keith Rabois：在AI时代创业，你必须接受的几个事实

前沿｜红杉、a16z等顶级VC机构连续加注，Mirage正在定义AI视频编辑的下一个十年