生成式AI的“天花板”在哪?图灵奖得主Sutton一篇文章,点破了智能的核心谜题

服务器里的人工智能，真的“理解”这个世界吗？

近日，强化学习之父、图灵奖得主Richard S. Sutton与学者Banafsheh Rafiee共同发表了题为Toward Enactive Artificial Intelligence（迈向生成式人工智能）的论文。

对当前主流AI的底层逻辑进行了深刻反思，并将认知科学中的“生成认知”框架引入人工智能领域。

1 底层逻辑：从“看图说话”到“在行动中理解”

长期以来，无论是早期的符号系统，还是今天的深度学习模型，都沿袭着一种被称为“表征主义”的经典观念。

在这种范式下，感知被理解为“先输入、再处理、后行动”的线性过程：系统接收信号，加工成内部表征，基于表征进行推理，最后输出动作。

Sutton和Rafiee指出，这种思路存在根本局限。

真实世界是开放的、动态的、无限复杂的，没有任何一个有限的内部模型能够完整捕捉它的全部状态。

世界不是一组等待被编码的静态特征，而是一个会随着智能体的行动、上下文和互动历史不断变化的可能性空间。

智能体不应试图用内部表征替代现实，而应保持与环境的持续互动，在实时反馈中调整行动并形成理解。

这便是“生成认知”的核心要义。

生成认知来自认知科学中的生成主义，其核心思想是：认知不是对一个预先存在的客观世界进行内部复制，而是在具身主体与环境的互动中被生成出来的。

基于这一思想，Rafiee和Sutton提炼出了“生成认知”的四个关键支柱：

首先是经验。

在生成认知框架中，经验不等同于数据。真正的经验来自智能体与环境之间持续的、双向的互动——不是被动接收已有数据，而是在行动、反馈、失败和修正中不断习得技能。

这正是监督学习与强化学习的本质区别所在。监督学习依赖人类预先收集和标注的数据，模型学到的只是经验留下的痕迹，而非亲身经历。相比之下，强化学习通过主动探索环境、接收反馈并调整策略，在互动中持续生成新的数据和能力。

其次是感知与行动的不可分割性。

生成认知反对将感知和行动拆分为两个独立模块。感知不是行动之前的准备阶段，感知本身就是一种行动能力。人类并不是被动接收画面，而是通过眼球、头部、身体和手部的运动不断改变输入，进而判断空间、声音和物体形态。

这就解释了为何纯视觉模型虽然能学会大量视觉规律，但一旦环境出现异常，它们往往缺乏主动干预、试错和纠正的能力。生成认知强调的正是这一点：智能体不仅要预测世界如何变化，还要通过行动改变世界，并在反馈中形成理解。

第三个支柱是自主性。

生成认知认为，智能体不是简单响应外部刺激的机器，而是一个自我组织、自我维持的系统。环境中的事物之所以有意义，是因为它们关系到智能体自身的目标、需求和持续存在。

从这个角度看，当前许多AI系统仍缺乏真正自主性——监督学习依赖外部标签，大语言模型主要模仿人类数据模式，强化学习的奖励函数也大多由外部设计者指定。

最后一个关键因素是具身性。

身体不是智能系统完成推理之后才使用的执行工具，而是感知和理解世界的前提。身体的形态、传感器位置和行动方式，直接决定智能体如何探索环境，也决定世界以何种方式对它呈现意义。

2 从虚拟世界走向物理世界

将使机器人摆脱“机械执行”的困境。

当前许多机器人系统将感知、规划和控制拆分为独立模块，身体只是执行策略的硬件平台，而不是塑造认知本身的核心条件。

具身AI要求机器人在实际行动中理解物理世界——在推动物体、绕过障碍物、调整抓取力度的实时互动中学习，而非依赖离线训练的静态模型。

由具身AI和机器人技术推动的边缘计算，正使AI系统能够在本地处理数据，降低延迟的同时保持成本效率，为重复或危险任务的自动化铺平道路。

将在真实世界的工业场景中创造更高价值。

传统AI模型擅长处理数字空间中的任务，但一旦进入真实物理世界，环境的不确定性和动态变化便成为最大的挑战。

生成认知强调的正是通过与环境的持续互动来适应变化。

在自动驾驶中，车辆通过与道路、行人、其他车辆的实际交互进行学习；在工业制造中，机器人通过实时试错来优化操作流程。

多模态大模型对内容生产、工业制造等下游场景的深度赋能已初显成效。

2026年头部模型Token调用量跃升，仅国内视频消费场景每日所需Token即有望达350万亿。生成认知范式的落地，则有望让AI真正从“阅读世界”走向“改造世界”。

在智能汽车领域尤其值得关注。

当前端侧AI正在从对话式交互向任务执行对齐，多模态能力能够更直接对接真实使用场景。

车内语音助手需要在无网络环境下实现多轮对话、情绪识别及复杂指令解析，这种对实时反馈和行动能力的高要求，恰好与生成认知的理念高度契合。

3 范式革命的现实困境

从根本上改变了“学习”的定义。

生成认知将学习从“内部建模外部世界”转向“在与环境的互动中持续进化”。

它将AI从静态数据训练的桎梏中释放出来，让系统像生物一样在行动和反馈中习得能力。

正如论文所指出的，真正的自主系统不能永远依赖人类准备好的静态数据集，而必须能够通过自身经验不断扩展能力边界。

当前实现路径仍不成熟。

强化学习虽然最接近生成认知的理念，但依然存在三重不足。

奖励函数大多由外部指定，而非来自智能体自身的自我维持结构；
感知和行动在许多系统中仍被拆分为相对独立的步骤；
具身性常被当作工程约束，而非认知形成的基础。

强化学习需要在复杂环境中进行大量试错，训练成本极高，且在与安全攸关的系统（如自动驾驶、医疗机器人）结合时存在不可忽视的风险。

无法接受现实世界中的失败，恰恰阻碍了真正的自主学习。

4 从被动表征走向生成认知

从“拼接式”走向“原生统一”。

2026年，多模态AI已完成从“拼接式”到“原生统一”的架构跃迁。

GPT-4o原生多模态架构的全面铺开、Gemini 2.5的统一表征空间、Claude 4的视觉理解能力跃升，都标志着不同模态信息的深度融合正在加速。

生成认知则要求更进一步，不仅模态要统一，感知与行动也要统一。

国产多模态模型的全球竞争力持续增强。

Gartner预测，在AI组合中纳入中国多模态模型的全球企业占比，将从2025年的5%上升至2027年的50%。

国产模型在视频生成、音频生成等领域的局部反超，为生成认知理念在中国的落地提供了坚实的技术底座。

从数字空间向物理空间的渗透。

Transformer实现长序列建模；语言和视觉的会合实现多模态理解；逻辑思维和形象思维的结合实现真正的多模态推理；最终，智能体将突破数字空间与物理空间的边界，实现和真实世界的交互。

智能不仅要预测世界如何变化，还要通过行动改变世界。

Gartner的数据同样印证了这一趋势。到2027年，40%的生成式AI解决方案将采用多模态能力，相较于2023年的1%呈现爆炸性增长。

多模态能力与具身性的结合，正是生成认知理念落地的关键一步。

开源生态加速范式演进。

中国开源模型的竞争力和成本效率持续提升，开源战略进一步增强了国产模型的全球竞争力。开源生态的繁荣意味着更多的研究者和开发者可以参与到生成认知范式的探索中，而非仅由少数科技巨头主导。

一个核心问题始终未被解决：如何让AI真正理解世界，而不仅仅是预测世界的模式。

Sutton给出了一条清晰的演进路线：从外部奖励走向更内在的自我评估，从任务驱动走向持续生存与适应，从单纯优化策略走向真正的具身经验生成。

当我们惊叹于一个AI能够写出媲美人类的诗歌时，或许更值得追问的是：它在写下这些文字的那一刻，究竟经历了什么？