✨ 公众号记得加星标,第一时间看推送不会错过。
2026年2月,Andrej Karpathy在Sequoia Capital的AI Ascent现场宣告:"Vibe Coding时代结束,Agentic Engineering时代开启。" 这句话标记了一个真实的范式拐点。
SWE-bench Verified排行榜上,AI编码能力从2023年10月的1.96%飙升至2026年4月的88.7%——约45倍提升仅用时两年半。AI Code Tools市场预计从2025年的73.7亿美元增长至2030年的239.7亿美元。84%开发者正在使用或计划使用AI工具,51%每日使用。
这些数字背后是一个更深层的转变:开发者的角色从"代码编写者"变为"智能体编排者",商业模式从"按人头收费"转向"按任务/结果收费",而工程纪律正在成为Agentic Coding从实验走向工程的核心前提。
一、技术范式的跃迁:从AI辅助补全到智能体自主规划执行
AI Coding的典型形态是Copilot式补全——模型基于编辑器上下文预测开发者意图,生成代码片段。核心假设是人类始终掌控决策权,AI仅充当"更智能的自动补全"。
但辅助模式的局限日益显现:单次补全无法处理跨多文件的协调修改,缺乏执行与验证闭环。数据显示,即便在2025年,AI生成代码中仅2-4%被直接使用,89%的开发者认为必须手动验证AI输出。
Agentic Coding是对上述局限的根本突破:LLM-based编码智能体能够自主规划、多步执行、调用工具、基于反馈迭代修正。开发者从逐行审核代码的"审阅者"转变为定义目标、设定期望、审核结果的"编排者"。
三波浪潮的演进
第一浪(2020-2022):LLM代码生成。以Codex、CodeT5为代表,实现自然语言到代码片段的转换,但能力限于"静态生成"。
第二浪(2022-2024):AI编码助手。以GitHub Copilot、Cursor为代表,IDE深度集成带来智能补全和对话交互,任务完成速度提升21%,理解新代码库时间减少40%。
第三浪(2024至今):Agentic Coding。以Devin、Claude Code、Copilot Agent Mode为代表,核心突破是多工具调用能力+长上下文推理+自主规划引擎的三位一体。
使能技术汇聚
长上下文窗口:从4K tokens到1M tokens,3年扩大约250倍,Agent能在单次推理中"看见"整个项目结构。
Function Calling:2023年OpenAI推出Function Calling API,JSON解析错误率从15-25%降至接近0%,Agent能可靠调用编译器、终端、文件系统。
MCP协议:Anthropic推出Model Context Protocol并捐赠给Linux基金会,被类比为"AI集成的USB-C"——一次开发、全平台通用。
代码执行沙箱:E2B、Modal、Docker等提供安全隔离环境,Devin运行在自带VS Code Server和浏览器的云端沙箱中。
SWE-bench:45倍跃升
SWE-bench Verified子集的公开最佳得分从2023年10月的1.96%飙升至2026年4月的88.7%(GPT-5.5),受限发布的Claude Mythos Preview更达93.9%。关键转折点:2024年3月Devin突破10%、2024年10月Claude 3.5 Sonnet达49%、2025年2月Claude 3.7 Sonnet破70%。
但需审慎解读:SWE-bench Pro变体(更贴近真实企业场景)最高得分仅64.3%,与Verified的88.7%形成巨大落差,表明从基准测试到真实工程仍有显著距离。
代表性产品技术架构对比
二、开发工作流的重构:从逐行审核到多步编排与反馈闭环
Copilot式工作流的效率瓶颈在人工验证——每一次循环都需要人工介入,跨文件协调时上下文割裂,编译错误后的修复-验证循环同样依赖人工驱动。
Agentic Coding的工作流发生了根本重构。以Claude Code为例,核心是"收集上下文→执行操作→验证结果"的三阶段循环,循环往复直到任务完成。开发者设定目标、审核结果,Agent自动串联"运行测试→读取错误→搜索源文件→编辑修复→再次测试"的完整工具调用链。
Anthropic报告指出,软件开发生命周期正在经历结构性压缩:传统流程依然存在,但周期从"周/月"极度压缩到"小时/天"。工程师从"写代码的人"变为"编排Agent的人",核心工作转向评估产出、给定方向、确保系统解决正确问题。
反馈闭环:四层自修正架构
AI Coding Agent自修正的研究提出了四层架构:
Token级:推理链内隐式调整
Turn级:单轮操作失败后调整参数重试
Plan级:多次修正失败后重新审视任务计划
Session级:识别系统性失败,上报人类
Claude Code通过检查点机制实现安全纠错:每次编辑文件前先创建快照,出错时按两次Esc即可回退。Devin在隔离沙箱中自主执行编译-测试-修正循环,将错误爆炸半径限制在沙箱内。
人机协作的新范式
核心洞察是:你越有经验,越能从AI协作中获益。实际分工形成梯度:高自主场景(Bug修复、代码重构)→ Agent几乎全权处理;中自主场景(功能开发)→ Agent执行、人类设方向;低自主场景(系统设计、安全决策)→ 人类主导,Agent辅助。Agent学会了"举手提问"——将商业影响决策交还人类,实现从"全盘审查"到"重点审查"的规模化监督。
三、开发者角色的演变:从代码编写者到智能体编排者
Karpathy提出的三代软件框架为理解角色演变提供了清晰坐标:Software 1.0时代,人类编写显式代码,程序载体是函数;Software 2.0时代,人类策划数据集训练神经网络,程序载体是权重;Software 3.0时代,人类编写提示词,程序载体是上下文窗口,LLM成为"解释器"。
编程单元从函数缩小为段落,安装应用不再是运行shell脚本,而是一段复制粘贴给Agent的文本块。Karpathy以自身经历论证:他亲手构建的MenuGen全栈应用,在Software 3.0范式下只需将照片交给Gemini说一句指令,一次模型调用即完成——"我的整个MenuGen是多余的,这个应用本不该存在"。
Vibe Coding vs Agentic Engineering
Karpathy明确区分了两个概念:Vibe Coding是"抬高底线"——让非工程师也能构建软件;Agentic Engineering是"抬高天花板"——让专业工程师在保持质量标准的同时大幅提速。两者的责任量级完全不同:Vibe Coding以探索为主、责任较低;Agentic Engineering与从前一样完整负责,只是更快。
Karpathy判断,工具使用者之间平庸与优秀的差距正在急剧扩大——"人们过去谈论10倍工程师,我认为这个倍数被大幅低估了"。2024年12月是拐点:Agentic workflow从"需要盯着"变成"可以信任"。
核心原则:可以外包思考,不能外包理解
Karpathy最精炼的论断:"你可以外包你的思考,但不能外包你的理解"。随着Agent承担更多执行工作,瓶颈转移到了人的大脑——"我仍然是系统的一部分,信息仍然需要进入我的大脑。我觉得自己反而成了瓶颈"。
人的价值锚点从执行层上移至决策层,新的人类技能聚焦于三个维度:品味(判断代码和架构的优劣)、规格(精确定义Agent要做什么)、监督(审核Agent输出是否符合预期)。
代码质量的隐忧
Karpathy坦承对Agent生成代码质量的担忧:"非常臃肿,大量复制粘贴,别扭的抽象层很脆弱——能用,但确实很粗糙"。Anthropic的研究也显示,AI工具提升工程师生产力50%,但可能削弱核心编码技能。这意味着开发者的技能重心正从"能写代码"向"能判断代码"迁移。
四、商业模式的迁移:从席位计费到智能体与结果混合计费
传统SaaS的按席位定价建立在"价值随使用人数成正比"的假设上。AI Agent的出现从根本上瓦解了这一逻辑——Agent自主执行任务,减少所需人数,真正产生结果的是AI,造成价值错位。
数据印证了这一趋势:仅12个月内,采用按席位定价的公司比例从21%降至15%,而混合定价模式从27%飙升至41%。40%买家已将"减少席位"作为降本手段。坚持旧模式的惩罚清晰:按席位定价的公司,毛利率低40%,客户流失率是采用按使用量定价的2.3倍。
定价光谱:从Token到任务
AI编码工具的定价模式已形成清晰光谱:
Devin 2.0将入门价从$500/月砍至$20/月,但引入了ACU按任务计费——简单Bug修复2-3 ACU,复杂迁移任务可达30 ACU。实际账单常达$400/月,ACU事后计费、不预报价的模式使成本难以预测。
AI推理的边际成本困境是独特约束:AI公司毛利率仅50%-60%,而传统SaaS高达80%-90%。67%的AI初创公司将基础设施成本视为首要制约因素,仅23%能逐月预测AI支出。定价模式必须在规模增长与成本可控之间找到平衡。
五、能力边界与工程纪律:锯齿状智能下的验证挑战
Karpathy提出的"锯齿状智能(Jagged Intelligence)"是理解能力边界的核心概念:最先进的模型可以同时重构10万行代码库、发现零日漏洞,却会建议你步行去一个不存在的洗车店——这种极不均匀的能力分布是架构性特征而非偶然缺陷。
根因在于强化学习的可验证性:可验证的领域(代码、数学)获得最陡峭的能力提升,可验证分布之外的一切保持锯齿状。"如果你在被RL覆盖的回路里,你飞起来了;如果你在数据分布之外,你就会挣扎"。
安全风险:45%引入漏洞
Veracode《2025 GenAI代码安全报告》显示:AI在45%的情况下选择不安全的编码方式,引入OWASP Top 10漏洞。Java的安全失败率超70%,Python/C#/JavaScript为38%-45%。更值得关注的是:更大的模型并不比更小的模型在安全性上显著更好——这是系统性问题,而非规模问题。
Devin的局限:仍是"初级工程师"
Devin 2025年度评审显示PR合并率从34%提升至67%,定位为"初级工程师+无限并行"。但按ACU计费的数据揭示了另一面——简单Bug修复约$5-7,复杂任务可达$60-68,在模糊需求下表现差、不支持中途变更需求。自主性在规格明确的任务上已高度可靠,但在需要判断力的场景中仍是需要监督的协作者。
工程纪律:不可省略的架构需求
上述挑战指向一个核心结论:Agentic Coding的工程纪律不是选项,而是架构:
安全左移——安全架构必须在设计之初嵌入
检查点与回滚——每次编辑创建快照,限制错误爆炸半径
分层自主——按任务特性匹配自主等级
AI审查AI——用AI Agent审查AI生成代码
保持编码实践——定期亲手编写代码以维持深度理解
结论
从AI Coding到Agentic Coding的转变,不是一次平滑的升级,而是一次涉及技术范式、工作流、开发者角色、商业模式和工程纪律的系统性范式变迁。
技术层面,长上下文窗口、结构化工具调用、MCP协议、安全沙箱和Agent推理框架的汇聚,驱动了SWE-bench上45倍的能力跃升。工作流层面,SDLC周期从周/月压缩到小时/天,但人机协作揭示了一个关键张力——自主性越强,监督架构越需精细化。角色层面,编程单元从函数到段落的根本变化,标定了人机分工的边界——人的价值从执行层上移至品味、规格和监督。商业层面,席位计费的瓦解和混合定价的兴起,构成了定价逻辑的根本转变。
然而,锯齿状智能的架构性特征、45%的安全漏洞引入率、Devin在模糊场景中的显著局限、以及技能退化的长期隐忧,共同标定了Agentic Coding的现实边界。这些边界不是否定Agentic Coding的理由——恰恰相反,它们是Agentic Coding从实验走向工程的核心前提。
核心论断
Agentic Engineering的目标是"保住专业软件质量的上限",而工程纪律就是那个上限的护栏。你可以外包你的思考,但不能外包你的理解。
本文由AI深度研究辅助生成,关键数据请以官方信源为准
END
推荐阅读:
👍 求点赞 | 🔗 求分享 | ⭐ 求推荐
夜雨聆风