乐于分享
好东西不私藏

深度|红杉资本2026 AI Ascent:Software3.0时代与智能体工程

深度|红杉资本2026 AI Ascent:Software3.0时代与智能体工程

核心观点:2025年12月是智能体能力拐点。从那时起,编程的默认工作流发生了根本性变化:程序员不再是逐行写代码的人,而是协调多个智能体的系统架构师。我们正在步入Software 3.0时代,程序不再通过传统的编码方式构建,而是借助提示词、上下文、工具链以及可验证的反馈循环来“编译”而成。当AI能够独立完成从功能实现到服务部署的完整链条,真正的稀缺能力便不再是编码速度,而是判断“什么值得做”以及“如何确保正确性”。

Andrej Karpathy,前OpenAI创始成员、特斯拉AI高级总监,现独立研究者。2026年4月,他在红杉资本AI Ascent 2026大会上与红杉合伙人Stephanie Zhan进行对话,系统阐述了对AI Agent、软件开发范式转移以及创业机会的最新思考。

一、智能体拐点:2025年12月

Karpathy坦言,作为程序员,他从未像现在这样感到“落后”。原因并非编程在传统意义上变得更难了,而是默认的工作流程已经彻底改变。

2025年的大部分时间里,像Claude Code、Codex以及Cursor这类智能体虽然已经很有用,但仍然需要频繁的人工修正。转折大约发生在2025年12月,他感受到一次质的飞跃:生成的代码块变得更大、更连贯、更可靠。从这之后,他开始放心地把更多工作委托给智能体。

编程的“基本单元”正从逐行敲代码,转变为委派任务:

  • 实现某个功能

  • 重构某个子系统

  • 调研某个库

  • 配置某个服务

  • 编写测试、运行并修复失败

  • 对比多种方案并给出计划

这意味着,程序员正在从“写代码的执行者”转变为“协调智能体的架构师”。

二、Software 3.0:上下文窗口即新程序

Karpathy将软件演进划分为三个阶段:

  • Software 1.0:人类编写显式代码(如C、Python)。

  • Software 2.0:人类创建数据集与目标函数,由神经网络学习出程序(即深度学习)。

  • Software 3.0:人类通过提示、上下文、工具、示例、记忆和指令来“编程”LLM。

在Software 3.0中,上下文窗口成为了主要的操控杠杆,LLM则充当运行在数字信息之上的解释器。

以软件安装为例。过去要在不同环境中安装一个复杂工具,你需要写一个满是条件分支、极易出错的shell脚本。而在Software 3.0的世界里,安装器可以变成一段文本指令,直接交给智能体执行,智能体会读取本地环境、调试错误、适配机器配置,最终完成安装。这是一种全新的程序形态,虽然不那么精确,却拥有极强的适应性。

三、传统软件可能正在消失

Karpathy以MenuGen为例,揭示了更深层的变化。

MenuGen是一款传统Web应用:拍摄菜单照片,OCR识别菜名,生成菜品图像,再渲染到用户界面上。它依赖前端代码、API、图像生成、部署、认证、支付、密钥、基础设施等一套复杂的软件栈。

后来他看到了Software 3.0版本:直接拍摄菜单照片,将其交给一个多模态模型,并给出指令“把菜品图像渲染到菜单照片上”。在这个版本中,大部分应用逻辑消失了,神经网络直接将输入媒体转换为输出媒体。旧的软件栈只是围绕这一转换的脚手架,而如今模型自身便足以完成。

对创业者而言,AI不仅仅是加速构建旧应用的更高效工具,甚至有些app本身,就不应该再以app的形态存在。

四、可验证性:AI为何在某些领域跑得特快

Karpathy给出了一个自动化框架:

  • 传统软件自动化的是“你能精确指定”的东西

  • LLM与强化学习自动化的是“你能验证”的东西

如果一个任务有自动的奖励信号或成功反馈,模型就能通过反复练习来掌握。这就是数学、编程、测试、基准测试、游戏以及大量工程任务进步如此迅速的原因,它们都可以重置、重复执行,并且可以获得奖励信号。
这也解释了为什么编程智能体的体验远优于普通聊天机器人。编程能给模型提供即时反馈:测试通过或失败、程序运行或崩溃、代码差异(diff)可以被检查、基准测试结果可以被度量。
Karpathy进一步给出了一个粗略的公式:

因此,创业者需要问:你的任务是否在模型的“轨道”上?如果任务是可验证且被大量训练的,模型会表现出色;否则,它可能在基础问题上就会失败。你可能需要提供更好的上下文、更合适的工具进行微调,建立自己的评估体系(evals),甚至搭建自己的强化学习环境。

六、Vibe Coding与Agentic Engineering

Karpathy区分了两个相关但本质不同的概念:
  • Vibe coding提升了下限,让几乎任何人通过自然语言描述就能创建软件。适合原型和个人工具。

  • Agentic engineering提升了上限,是专业人员在协调易错的智能体时,同时保持正确性、安全性、品味和可维护性的学科。

Vibe coding对于原型和个人工具来说没问题,但Agentic engineering才是严肃团队所需要的。

智能体工程师不会盲目接受生成的代码,他们会设计规范、监督计划、审查代码差异(diff)、编写测试、创建评估闭环、管理权限、隔离工作区、把控最终质量。

Karpathy举了MenuGen支付漏洞的例子:智能体试图用邮箱地址来匹配Stripe购买记录与Google账户。代码能跑通,但系统设计存在严重缺陷,Stripe邮箱与Google登录邮箱可能不一致。因此人类工程师仍需要具备足够的判断力,才能发现这个缺陷并改进。

所以,前沿技能不是死记每个API的细节,而是理解底层概念:存储、视图、内存拷贝、不变量、身份、安全边界、系统的整体形态。

七、招聘方式应该如何改变

如果Agentic engineering成为新的专业技能,招聘就应该直接测试这项能力。

传统的编程面试越来越不匹配。更好的面试可能是:让候选人使用智能体搭建一个有实质性的项目,部署它,确保安全,然后让对抗性智能体尝试攻破它。

这个面试能够真实测出候选人的多项能力:
    • 能否为智能体合理分解工作任务?

    • 能否写出清晰有用的规范说明?

    • 能否在快速推进的同时保持代码质量?

    • 能否敏锐地审查生成的作品?

    • 能否有效地加固系统安全?

    • 能否真正把智能体当作杠杆,而不是制造混乱?

    过去人们常说的“10x engineer可能会变得极端得多。掌握了Agentic工作流的人,其效率将远超同类从业者,差距可能不止10倍。

    八、创业者应该寻找有价值、可验证的环境

    对创业者而言,一个重要机会是找到那些具有高价值、可验证但尚未被前沿实验室充分训练过的领域。

    如果你能创建一个特定领域的环境,让模型可以在其中尝试动作并获得可靠的奖励信号,那么即使基础模型在该领域并不出色,你也能通过微调或强化学习来提升其性能。

    最显而易见的领域,比如编程和数学,已经被各大实验室重点投入。但许多具有重要经济价值的领域可能潜藏着可验证的结构,尚未被发掘,而这正是创业公司可以切入的方向。

    九、为智能体设计,而非只为人

    大多数软件仍然是为人通过屏幕点击而设计的,文档里写着“访问这个URL、点击这个按钮、打开这个设置面板”。但越来越多的时候,直接用户可能不再是人类,而是人类派出的智能体。

    这意味着产品需要Agent-native界面:

    • Markdown文档

    • CLI(命令行界面)

    • API

    • MCP服务器

    • 结构化日志

    • 机器可读的数据模式(schema)

    • 可直接复制粘贴的智能体指令

    • 安全的权限管理

    • 可审计的操作记录

    • 无头(headless)部署流程

    Karpathy用“传感器”和“执行器”来类比。传感器将世界的某种状态转化为数字信息,执行器让智能体去改变事物。未来的技术栈,就是智能体代表人类与组织,使用传感器和执行器来完成任务。

    结语

    这场对话的核心论点并不是“AI让每个人更快地做旧工作”。而是工作本身正在围绕智能体重组。软件、研究、教育、基础设施、知识工作,都在走向同一种模式:人类设定目标、设计约束、提供可验证信号,然后让智能体在安全边界内自主执行。

    当“写代码”的成本趋近于零,真正的稀缺资源变成了“判断该写什么”。当上下文窗口成为新程序,理解系统边界、安全、品味和那些不可验证的模糊地带,就成为了人类无法外包的最后堡垒。AI不会取代工程师,但它会彻底重新定义“谁才是工程师”,以及“工程师到底在做什么”。

    对于创业者而言,Karpathy的洞察给出了几个明确的行动方向:寻找那些可验证、具备高价值但尚未被大实验室充分训练的领域;构建面向智能体原生的界面,而非只为人设计的界面;以及最重要的一点,培养自己成为一名能够驾驭智能体的“系统架构师”。

    对话|硅谷传奇投资人Keith Rabois:在AI时代创业,你必须接受的几个事实

    前沿|红杉、a16z等顶级VC机构连续加注,Mirage正在定义AI视频编辑的下一个十年