“作为一个程序员,我从未像此刻这般深感落伍。” 在刚刚结束的红杉资本人工智能峰会上,前 OpenAI 联合创始人、特斯拉自动辅助驾驶系统落地关键人物 Andrej Karpathy 吐露了这句让全球开发者社区为之震动的话。一年之前,他率先提出了“氛围编程”(Vibe Coding)的概念,预示着开发者只需手握咖啡、靠着“直觉与氛围”就能让 AI 代劳写出代码;而一年之后,在经历了大模型能力的底层突变后,他正式宣布“氛围编程”已沦为业余者的玩具,一个属于“智能体工程”(Agentic Engineering)的全新计算时代正在将软件开发范式彻底重构。
在过去很长一段时间里,人们对 AI 辅助编程的认知,大多停留在类似于 GitHub Copilot 的“高级代码补全”阶段。开发者写出函数名,AI 顺着思路补全剩下的几行代码。这种模式本质上没有脱离传统软件开发的范式,人依然是代码的绝对主导者,而 AI 只是一个稍微聪明一点的拼写检查器。
然而,Karpathy 指出,2025年12月是一个清晰且具有颠覆性的时间分界点。在这一阶段,以 Claude Code、Cline 以及全新一代基于大语言模型构建的代理能力(Agentic Capabilities)工具开始展现出底层逻辑的突变。
💡 Karpathy 的切身体验
当时正处于度假期间的 Karpathy 决定用最新的智能体工具做一些业余项目。他惊讶地发现,自己写代码的模式发生了解构。他不再需要去仔细校对 AI 产出的每一行代码细节,也不需要频繁去中断 AI 的执行。相反,大模型输出的完整代码片段“拿出来直接就能完美运行”。他不断加码项目的复杂性,而系统给出的反馈依然无懈可击。
这种体验将他推向了“氛围编程”的极致状态:人彻底给出了目标,甚至在几天的时间里完全忘记了具体的代码长成什么样、存储在什么路径。他只需在数字信息空间里像一个指挥家一样,看着 AI 自行规划、自行调用工具、自行修复 bug,并最终部署上线。

但 Karpathy 强调,这种看似顺滑到不可思议的“氛围编程”模式,其实隐藏着巨大的工程危机。它能在一夜之间帮一个非专业开发者甚至业余黑客搭建起一个外表华丽的演示页面(Demo),但在面临高并发、复杂网络拓扑、持久化数据一致性以及严格的安全合规审查时,这种缺乏底层严谨度、充满复制粘贴和逻辑冗余的代码结构会迅速分崩离析。这也正是为何我们需要将目光从“氛围编程”中移开,去严肃探讨构建在 Software 3.0 之上的“智能体工程”。
为了厘清当前的软件开发变革,我们必须将视野拉回到 Karpathy 曾经提出的软件演进三部曲:
在 Software 3.0 的视角下,大模型不再是简单的“文本生成器”,而是一台复杂的“统计模拟计算机”。当实验室用海量、多样的任务去训练一个千亿级的参数模型时,为了在预训练阶段极力压缩数据中的交叉熵,模型被迫在内部模拟、构建出万千个子任务的处理逻辑。这种隐式的通用处理能力,使得它天然具备了“被编程”的弹性。
人类通过输入自然语言提示词、调整系统设定,实际上就是在这一庞大的数字信息空间中,去约束和导引模型的内部计算轨迹,使其像一个特定功能的程序一样运转。传统的“手写逻辑代码”被更高级的“大模型对语境和环境的即时洞察、调试、运行”完全吞噬。
尽管 Software 3.0 展现了令人神往的计算前景,但大模型在实际应用中,却表现出了一种极其诡异的特征。Karpathy 将其称为“参差不齐的智能”(Jagged Intelligence)。
我们时常会看到这样的两极分化:在某一方面,最新一代的模型可以轻易在几秒钟内重构数十万行的复杂代码,敏锐地指出其中深藏不露的零日漏洞(0-day vulnerabilities),甚至能和最顶尖的国际象棋大师拼杀个有来有回;但在另一方面,当你问它一个极其简单的日常逻辑常识——比如:“我想去 50 米外的洗车店洗车,我该开车去还是走路去?”——它却可能会一本正经地给出一份洋洋洒洒的步行规划指南,完全忽视了你要去洗车的前提必须把车开到现场。
要理解这种“时而天才,时而荒谬”的表现,Karpathy 提出必须深刻剖析大模型的训练机制与可验证性(Verifiability)。
🎯 可验证性的核心机制:
前沿实验室在训练下一代大模型(如 GPT-4 之后的演进版)时,极度依赖于强化学习(RL)环境的构建。而强化学习能够发挥威力的前提,是系统的每一个尝试都必须能够被客观、迅速、低成本地进行“对错判定”或“评分奖励”。
在数学计算、软件代码、国际象棋等领域,系统存在绝对的、黑白分明的验证反馈(例如:代码是否编译成功、运行测试是否通过、方程两边是否恒等、棋局是否分出胜负)。因此,实验室可以在这些“高验证性”的沙盒环境中,不计成本地让模型进行海量的强化学习和蒙特卡洛树搜索,从而在这些领域堆叠出极其恐怖、甚至超越人类巅峰的逻辑智能。
相反,在涉及到人类常识、主观审美、开放式写作等领域,验证反馈是极其模糊且高成本的。模型做出一份好诗,很难通过一段确定性的代码自动打出“客观的分数”。因为缺乏这种自动化的反馈闭环,强化学习无法在这些电路中闭环滚动,导致模型在处理这些日常、非结构化任务时,智能水平严重依赖于预训练数据的静态分布,显得漏洞百出、局限明显。
Karpathy 告诫所有 AI 创业者和应用开发者:不要试图在一个不可验证的模糊泥潭里构建你的核心壁垒。相反,如果你能为你所处的垂直场景(如特定行业的合规审计、数据库校验、结构化报告转换),精心设计并构建出一个高效率的自动化强化学习与验证反馈闭环,你就能在实验室的通用模型底座之上,轻松拉动微调与对齐的杠杆,创造出远超行业竞争对手的智能上限。
“氛围编程是在提升所有人的下限,而智能体工程,则是在探索质量与效率的上限。”
在红杉峰会的对谈中,Karpathy 针对他此前引起热议的观点进行了校准。氛围编程极大地降低了个人构建原型(MVP)和即用即弃工具的门槛,它让数以百万计的非专业开发者也拥有了将想法迅速具像化为软件的能力。然而,它也带来了一个无法忽视的硬币另一面: AI 自动拼凑出的代码往往是极其臃臃肿的,由于跳过了严谨的设计评审、代码审查和单元测试,其抽象逻辑脆弱得不堪一击,维护成本高得惊人。
为了解决大模型的随机性、不稳定性,让 AI 真正赋能专业、高可用、工业级的软件生产,我们必须将其提升为一门全新的、极其严肃的工程学科——智能体工程。
🛠️ 智能体工程的核心实践指南
人类不可以指望靠一段模糊的对话就让智能体搭建出庞大复杂的工程。程序员的第一要务是转变为系统架构师,撰写出一份极其详尽、逻辑严密、几乎等同于伪代码的系统规范(Specification)。
将业务系统的具体 API 逻辑、核心业务规则封装为独立的、可被调用的确定性工具(Tools),而不是把所有推理和行为都混杂在长篇累牍的动态提示词里。保持提示词的精简和版本化管理。
为智能体的一举一动构建自动化评测体系。你不能只靠眼睛去检验 AI 生成的结果。每一轮生成都必须自动在沙盒中运行单元测试,并且必须有独立的安全评测节点(甚至可以用其他低阶模型组建评审团)来实时拦截其可能出现的越权逻辑和高危漏洞。
像记录传统系统日志一样,完整、结构化地记录智能体运行过程中的每一次提示词状态、每一次工具调用细节、输出快照以及捕获的异常。可观测性是将神秘的“AI 氛围”转化为科学的“工程指标”的必经之路。
在智能体工程的世界中,人类的角色不再是手动去搬砖的码农(手写具体的 PyTorch 张量形变、纠结 NumPy 里的 axis 还是 keep_dims、或者苦苦去调试繁琐的 API 拼接细节),而是转变为规则的制定者、环境的搭建者以及最终产出质量的裁判员。
当软件开发的生产力杠杆被大模型无限放大后,传统的企业组织招聘模式、考核标准以及人才教育培养体系都不可避免地迎来了巨大的阵痛与重构。
Karpathy 毫不客气地指出,目前绝大多数科技企业仍在沿用的传统程序员面试和招聘体系,正显得愈发落后与脱节。如果企业在筛选高阶研发人才时,依然把重心放在限时的算法脑筋急转弯、LeetCode 手写红黑树等考题上,那无疑是在为上一个时代筛选优秀的“代码打字员”。这些单纯依靠语法记忆和固定套路就能解决的问题,对于如今搭载了上下文强化推理的 AI 原生编译器而言,不过是毫秒间即可给出最优解的常识。
⚡ Karpathy 提议的新一代面试考核范式:
直接抛给候选人一个极其庞大、复杂的真实业务项目。例如:要求他在数小时内,主导开发出一个专为智能体交互打造的 Twitter 克隆版网站,既要保证极佳的高可用并发处理,又要设计严丝合缝的安全权限控制。在候选人搭建出系统雏形并部署上线后,面试官在沙盒环境中调集 10 个顶级版的 Codex 大模型实例作为红队,以全自动化的方式对候选人的网站发起持续、疯狂的安全渗透和高并发攻击。最终,通过观察该系统是否能在这场 AI 狂风暴雨般的攻击中稳健生存,来一锤定音候选人的系统架构、工程品味与极限落地能力。
而在教育与个人成长层面,这种变革更是触及了知识传递的哲学底线。Karpathy 分享了一句深深触动他的名言:
“思考或许可以外包,但理解永远无法假手于人。”
在未来的软件世界里,你完全可以将那些繁琐的算法推导、琐碎的语法拼接、海量的数据库细节设计外包给极其不知疲倦的智能体去完成,但对系统底层架构的深刻理解、对软件运作逻辑的审美把控以及对核心工程常识的常年沉淀,是你身为人类、身为此系统架构设计者的最后终极防线。
如果你丧失了对底层的理解能力,甚至连 PyTorch 张量视图底层的复用机制和新开辟存储空间有什么效率差异都全然不知,那你便无法在一言一行中为你的智能体实习生指明正确的架构方向,更不可能在智能体给出臃肿、脆弱、逻辑跑偏的方案时,保持冷静且敏锐的一针见血校准。丧失了理解的人,将彻底丧失对智能体的掌控权,沦为被虚无氛围淹没的“数字看客”。
在对谈的终局,Karpathy 勾勒了一幅有些科幻但正在加速成真的未来图景。在 Software 3.0 的终极阶段,我们今天所习以为常的大多数经典应用程序(App)可能都不再有存在的必要了。
取而代之的是一种极致、原生的端到端神经计算形态:用户直接将眼前的实时视频、耳边的多模态声音喂给底层的系统。整个系统由一套极其庞大且高效的神经网络与扩散模型直接接管,根据你的意图和眼下的语境,即时、像素级地渲染出一个适合你当前操作的临时交互界面,在数字虚拟信息空间里直接执行完复杂的计算并给出反馈,中间完全绕过了我们今天在 Software 1.0 时代辛辛苦苦为各种设备适配、打包、分发的应用程序。
要迈向这个前所未有的智能未来,我们迫切需要市场上涌现出大量“智能体优先”(Agent-First)的基础设施,以及将整个研发体系向高度可验证、可评测、自动化验证的方向坚定靠拢。
时代没有给旧范式的守望者留下任何温存的喘息机会。在这场由代码向更通用信息自动化跃迁的巨大计算革命中,去拥抱变革,丢掉脆弱的玄学氛围,像一个真正的“智能体工程师”一样去严谨、科学、重度掌握品味与判断地指挥你身边的智能体蜂群吧。因为——唯有理解,不可外包。
夜雨聆风