深度|红杉资本2026 AI Ascent:Software3.0时代与智能体工程

核心观点:2025年12月是智能体能力拐点。从那时起,编程的默认工作流发生了根本性变化:程序员不再是逐行写代码的人,而是协调多个智能体的系统架构师。我们正在步入Software 3.0时代,程序不再通过传统的编码方式构建,而是借助提示词、上下文、工具链以及可验证的反馈循环来“编译”而成。当AI能够独立完成从功能实现到服务部署的完整链条,真正的稀缺能力便不再是编码速度,而是判断“什么值得做”以及“如何确保正确性”。

Andrej Karpathy,前OpenAI创始成员、特斯拉AI高级总监,现独立研究者。2026年4月,他在红杉资本AI Ascent 2026大会上与红杉合伙人Stephanie Zhan进行对话,系统阐述了对AI Agent、软件开发范式转移以及创业机会的最新思考。
一、智能体拐点:2025年12月
Karpathy坦言,作为程序员,他从未像现在这样感到“落后”。原因并非编程在传统意义上变得更难了,而是默认的工作流程已经彻底改变。
2025年的大部分时间里,像Claude Code、Codex以及Cursor这类智能体虽然已经很有用,但仍然需要频繁的人工修正。转折大约发生在2025年12月,他感受到一次质的飞跃:生成的代码块变得更大、更连贯、更可靠。从这之后,他开始放心地把更多工作委托给智能体。
编程的“基本单元”正从逐行敲代码,转变为委派任务:
-
实现某个功能
-
重构某个子系统
-
调研某个库
-
配置某个服务
-
编写测试、运行并修复失败
-
对比多种方案并给出计划
这意味着,程序员正在从“写代码的执行者”转变为“协调智能体的架构师”。
二、Software 3.0:上下文窗口即新程序
Karpathy将软件演进划分为三个阶段:
-
Software 1.0:人类编写显式代码(如C、Python)。
-
Software 2.0:人类创建数据集与目标函数,由神经网络学习出程序(即深度学习)。
-
Software 3.0:人类通过提示、上下文、工具、示例、记忆和指令来“编程”LLM。
在Software 3.0中,上下文窗口成为了主要的操控杠杆,LLM则充当运行在数字信息之上的解释器。

以软件安装为例。过去要在不同环境中安装一个复杂工具,你需要写一个满是条件分支、极易出错的shell脚本。而在Software 3.0的世界里,安装器可以变成一段文本指令,直接交给智能体执行,智能体会读取本地环境、调试错误、适配机器配置,最终完成安装。这是一种全新的程序形态,虽然不那么精确,却拥有极强的适应性。
三、传统软件可能正在消失
Karpathy以MenuGen为例,揭示了更深层的变化。
MenuGen是一款传统Web应用:拍摄菜单照片,OCR识别菜名,生成菜品图像,再渲染到用户界面上。它依赖前端代码、API、图像生成、部署、认证、支付、密钥、基础设施等一套复杂的软件栈。

后来他看到了Software 3.0版本:直接拍摄菜单照片,将其交给一个多模态模型,并给出指令“把菜品图像渲染到菜单照片上”。在这个版本中,大部分应用逻辑消失了,神经网络直接将输入媒体转换为输出媒体。旧的软件栈只是围绕这一转换的脚手架,而如今模型自身便足以完成。
对创业者而言,AI不仅仅是加速构建旧应用的更高效工具,甚至有些app本身,就不应该再以app的形态存在。
四、可验证性:AI为何在某些领域跑得特快
Karpathy给出了一个自动化框架:
-
传统软件自动化的是“你能精确指定”的东西
-
LLM与强化学习自动化的是“你能验证”的东西

因此,创业者需要问:你的任务是否在模型的“轨道”上?如果任务是可验证且被大量训练的,模型会表现出色;否则,它可能在基础问题上就会失败。你可能需要提供更好的上下文、更合适的工具进行微调,建立自己的评估体系(evals),甚至搭建自己的强化学习环境。
六、Vibe Coding与Agentic Engineering
-
Vibe coding:提升了下限,让几乎任何人通过自然语言描述就能创建软件。适合原型和个人工具。
- Agentic engineering:提升了上限,是专业人员在协调易错的智能体时,同时保持正确性、安全性、品味和可维护性的学科。
Vibe coding对于原型和个人工具来说没问题,但Agentic engineering才是严肃团队所需要的。
智能体工程师不会盲目接受生成的代码,他们会设计规范、监督计划、审查代码差异(diff)、编写测试、创建评估闭环、管理权限、隔离工作区、把控最终质量。
所以,前沿技能不是死记每个API的细节,而是理解底层概念:存储、视图、内存拷贝、不变量、身份、安全边界、系统的整体形态。
七、招聘方式应该如何改变
如果Agentic engineering成为新的专业技能,招聘就应该直接测试这项能力。
传统的编程面试越来越不匹配。更好的面试可能是:让候选人使用智能体搭建一个有实质性的项目,部署它,确保安全,然后让对抗性智能体尝试攻破它。
-
能否为智能体合理分解工作任务?
-
能否写出清晰有用的规范说明?
-
能否在快速推进的同时保持代码质量?
-
能否敏锐地审查生成的作品?
-
能否有效地加固系统安全?
-
能否真正把智能体当作杠杆,而不是制造混乱?
八、创业者应该寻找有价值、可验证的环境
对创业者而言,一个重要机会是找到那些具有高价值、可验证但尚未被前沿实验室充分训练过的领域。
如果你能创建一个特定领域的环境,让模型可以在其中尝试动作并获得可靠的奖励信号,那么即使基础模型在该领域并不出色,你也能通过微调或强化学习来提升其性能。
最显而易见的领域,比如编程和数学,已经被各大实验室重点投入。但许多具有重要经济价值的领域可能潜藏着可验证的结构,尚未被发掘,而这正是创业公司可以切入的方向。
九、为智能体设计,而非只为人
大多数软件仍然是为人通过屏幕点击而设计的,文档里写着“访问这个URL、点击这个按钮、打开这个设置面板”。但越来越多的时候,直接用户可能不再是人类,而是人类派出的智能体。
这意味着产品需要Agent-native界面:
-
Markdown文档
-
CLI(命令行界面)
-
API
-
MCP服务器
-
结构化日志
-
机器可读的数据模式(schema)
-
可直接复制粘贴的智能体指令
-
安全的权限管理
-
可审计的操作记录
-
无头(headless)部署流程
结语
这场对话的核心论点并不是“AI让每个人更快地做旧工作”。而是工作本身正在围绕智能体重组。软件、研究、教育、基础设施、知识工作,都在走向同一种模式:人类设定目标、设计约束、提供可验证信号,然后让智能体在安全边界内自主执行。
当“写代码”的成本趋近于零,真正的稀缺资源变成了“判断该写什么”。当上下文窗口成为新程序,理解系统边界、安全、品味和那些不可验证的模糊地带,就成为了人类无法外包的最后堡垒。AI不会取代工程师,但它会彻底重新定义“谁才是工程师”,以及“工程师到底在做什么”。
对于创业者而言,Karpathy的洞察给出了几个明确的行动方向:寻找那些可验证、具备高价值但尚未被大实验室充分训练的领域;构建面向智能体原生的界面,而非只为人设计的界面;以及最重要的一点,培养自己成为一名能够驾驭智能体的“系统架构师”。



夜雨聆风