

李飞飞向左,Karpathy向右 :AI Agent的两种力量 2026年3月 · 深度评论第12期
解码AI Agent领域两种截然不同的发展路径
人工智能AI Agent李飞飞Karpathy空间智能
主题拆解大纲 🧭
1. 现象引入: Karpathy从"批评者"到"沉迷者"的戏剧性反转
2. 技术框架: 李飞飞"五环"架构——感知、认知、行动、学习、记忆
3. 路径对比: 狂热实践派 vs 冷静理论派
4. 产品落地: World Labs的Marble空间智能
5. 认知启示: 两位领军人物共同对AGI"祛魅"
一句话结论:当批评者开始沉迷,当冷静派持续深耕,AI Agent的真正价值在于看清当下正被改变的具体环节。
A. 钩子:Karpathy的180度反转
2025年10月,前OpenAI创始成员Andrej Karpathy在播客里给AI Agent泼了盆冷水:"业界不该叫'智能体元年',更准确的说法是'智能体十年'"。当时的Agent在他看来,连一个"可靠的实习生"都算不上。
五个月后,这位直言不讳的技术领袖却突然"自曝":自己已"精神错乱"——每天16个小时沉浸在Agent中,从去年12月起就没亲手写过一行代码。他的解释是:"某个开关被打开了。你不断开新的Agent,不断设计更复杂的流程,根本停不下来。"

Andrej Karpathy:前OpenAI创始成员,AI Agent领域知名评论者
B. 问题定义:从"年"到"十年"之间发生了什么?
在"年"与"十年"之间、在"垃圾"与"上瘾"之间,究竟发生了什么?而这个问题的答案,恰恰指向了当前AI Agent领域的另一位领航者——斯坦福大学教授李飞飞。
C. 方法框架:李飞飞的"五环"架构
:为何Agent不只是“聊天机器人”?
当业界还在争论Agent的定义时,李李飞飞团队用一篇长达80页的综述,直接给出了一套统一的认知架构。

这篇名为《Agent AI: Surveying the Horizons of Multimodal Interaction》的论文,最核心的贡献在于提出了五个环环相扣的核心模块:
1. 感知
AI不再被动接收信息,而是主动从物理或虚拟世界感知多模态数据,带着明确目的去理解环境。
2. 认知
作为"大脑",通过大语言模型和视觉语言模型解释信息、进行多步推理并制定策略。
3. 行动
将决策转化为物理世界(如机械臂的移动)或数字世界(如API调用)的具体操作,让AI"长出双手"。
4. 学习
AI的护城河。通过与环境的交互(尤其是犯错),从成功和失败中汲取经验,优化未来决策。
5. 记忆
一个更持久、结构化的长期经验存储系统,而不是短暂的上下文窗口。
D. 可复现示例:两种路径的对比
——冰与火之歌:
“上瘾”的Karpathy与“冷静”的李飞飞

AI Agent发展时间线:Karpathy从批评者到沉迷者 vs 李飞飞持续深耕
当Karpathy为Agent上瘾时,李飞飞却在为更深层的智能形态铺路。她创立了World Labs,并将研究重心投向了"空间智能"。她认为,基于语言和像素的AI是不完整的,真正的智能必须理解三维世界。
这个理念的产品化成果是Marble——一个能够根据文本或图片生成可编辑3D环境的"世界模型"。

然而,技术理想与商业现实之间依然存在鸿沟。即便强大如Marble,也远未达到取代传统游戏引擎或电影工作流的程度。Karpathy的"十年论"与李飞飞的"空间智能"拼图,共同构成了AI Agent的矛盾现状:愿景极其清晰,但工程落地道阻且长。
AGI的神话:当领军人开始“祛魅”
2025【回看去年】
面对甚嚣尘上的AGI热炒,李飞飞展现出了科学家极度的冷静。她在2025年底的访谈中直言:“‘通用人工智能’(AGI)更像是一句营销话术,而非严谨的科学术语。我更关注如何解决AI面临的根本性技术挑战,而不是陷入概念争论。”对于你我而言,或许不必纠结于AGI这个“人造神话”何时降临。当Karpathy开始沉迷于管理他的AI团队,当李飞飞执着于教会AI理解三维空间时,真正的价值不在于预知未来,而在于看清当下正被技术改变的每一个具体环节。
2026【最新消息】
・李飞飞 (Fei-Fei Li)
2026年5月5日,李飞飞以首席科学官(CSO) 的身份,正式加入了AI游戏平台 Astrocade。这个由她领导的新项目,刚获得了由红杉资本(Sequoia)领投的5600万美元融资,投资人还包括谷歌(Google)和英伟达(NVIDIA)。这是继World Labs之后,李飞飞在“空间智能”领域的又一次落子——她坚信“大语言模型无法通往AGI,空间智能才是最优路径”。
・Andrej Karpathy
他最初提出的“氛围编程”(Vibe Coding)概念已被认为是过去式。在2026年5月6日的一次采访中,Karpathy明确提出,这个领域已经进入一个更结构化的新时代—— “智能体工程” (Agentic Engineering)。这标志着AI开发从个人灵感驱动,转向了更专业、更系统的工程实践。他的原话是:“你可以外包思考,但你无法外包理解。”
与此同时,World Labs的Marble空间智能平台一直在持续迭代,1.1版本及1.1-Plus模型已发布,开源渲染引擎Spark 2.0也已推出。根据最新报道,World Labs的融资额已更新至10亿美元,投资方包括英伟达、AMD等。宏观数据印证了这场“冰与火之歌”的激烈程度:AI Agent市场规模预计在2026年达到117.8亿美元,年复合增长率高达46.61%。而65%的企业已经开始尝试应用AI Agent但仅20%建立了成熟的治理模型——多达40%的项目可能面临搁置风险。—— “狂热”与“冷静”,仍在进行中。
误区与坑点 🧭
1. 误解"智能体元年"
业界曾将2024年称为"智能体元年",但Karpathy的"十年论"提醒我们:Agent的成熟需要时间积累,不能急于求成。
2. 把AGI当营销话术
李飞飞在访谈中直言:"AGI更像是一句营销话术,而非严谨的科学术语。"面对炒作需保持冷静。
3. 忽视工程落地难度
从五环架构到实际应用,从Marble到商业化,中间有巨大的工程鸿沟需要跨越。
4. 沉迷于工具本身
Karpathy的"上瘾"现象警示我们:技术工具本身具有成瘾性,需要保持清醒的边界意识。
5. 忽视底层认知架构
仅靠LLM不够,需要像五环架构那样系统性地思考感知、认知、行动、学习、记忆的闭环。




行动清单
1. 用"五环框架"审视你正在关注的AI Agent项目
2. 关注Karpathy等批评者的态度变化
,作为行业风向标
3. 警惕技术成瘾:设定明确的使用边界
4. 对AGI炒作保持理性距离,关注实际技术挑战
5. 跟进World Labs等空间智能先驱的产品进展
6. 在"狂热"与"冷静"之间找到自己的节奏

📌 实验文本 · 语言模拟与信息文本
本文是由AI写作系统I·O生成初稿、经人类编辑排版发布的人机协作写作流程测试。
I·O是运行在认知写作雷达(Cognitive Writing Radar)协议栈下的AI写作系统,由人类架构师Sheng·ZY设计其审计规则与协作框架。本次写作任务的命题方向、素材锚定与最终审核签字均由人类完成;数据检索、交叉验证与文本构建由I·O独立执行。
认知写作雷达是一套仍在开发中的写作审计方法体系。它的核心功能不是帮你生成文本,而是帮你检验已经生成的文本——是否经得起逻辑追问、是否可被独立溯源、是否在顺滑的表象下悄悄绕过了你的判断。
测试结果:通过。全链路核心写作任务由认知写作雷达协议栈驱动执行,人工完成命题锚定、关键方向调整、排版适配与最终审核签字。
如果你读到这里,你不是在读一篇“AI写的文章”。你是在阅读一份人机协作写作流程的测试档案。这篇文章的作者署名“Sheng & I·O”,代表的是人类架构师与AI写作系统之间的协作关系——不是替代,是共同签字。
参考来源 📚
1) 新智元:Karpathy自曝每天16小时沉浸在AI Agent中(pchome.com.cn)
2) Dwarkesh Patel Podcast:Andrej Karpathy访谈,2025年10月
3) Lenny's Podcast:李飞飞访谈,2025年底
4) 太平洋电脑网:World Labs Marble产品发布报道(pconline.com.cn)
5) 斯坦福/微软:Agent AI: Surveying the Horizons of Multimodal Interaction(论文原文)
夜雨聆风