【前沿动态】具身智能:让AI从“大脑”走进“身体”—

【前沿动态】具身智能:让AI从“大脑”走进“身体”——郑南宁院士团队深度解读

论文基本信息

标题：《具身智能发展趋势与展望》

作者：郑南宁、杨勐、姜维周、孙宏滨、丁宁

期刊：《中国工程科学》2026年第28卷第2期，第1 – 13页

DOI：10.15302/J-SSCAE-2025.07.019

发表时间：2026年

写作背景与研究立意

人工智能的发展目标是使机器像人类一样思维和行动，不仅是求解复杂问题，更关键的是在一个复杂、动态、不确定的物理世界中与环境交互。传统智能系统主要依赖封闭场景、仿真场景或互联网收集的数据进行模型训练，这种数据训练方式无法构建与现实世界动态交互的闭环学习机制，导致智能系统往往难以适应真实的物理世界。

具身智能正是为了突破这一困境而提出。论文认为，具身智能有望在智能制造、智慧城市、人机协作等关键应用场景中实现技术突破与示范引领，其产业发展将带来显著的经济和社会效益。论文系统梳理了具身智能的核心概念与计算框架，结合国际发展态势，全面总结我国在该领域的阶段性成果与面临的挑战，并据此提出我国下一步发展应重点布局的研究方向与针对性对策，助力我国在全球具身智能竞赛中占据领先地位。

具身智能的概念溯源

论文指出，具身智能的概念最早由人工智能先驱艾伦·图灵在20世纪50年代首次提出。同一时期，控制论的创立者诺伯特·维纳也提出了类似的行为智能概念。20世纪80年代，罗德尼·布鲁克斯和罗尔夫·普费弗等学者在此基础上进一步发展了行为主义智能和身体化智能理论。与此同时，我国科学家在“国家高技术研究发展计划”的“智能机器人主题”战略规划中也提出了物理实体识别与行为交互智能的概念。

直到近年，随着AI计算模型的不断涌现、算力的极大提升和数据获取能力的增强，人类长期以来追求的具身智能——即通过物理实体（智能体）与环境的交互，使智能系统具有环境适应性及其智能行为的进化——才真正成为可能。

核心定义与内涵辨析

1. 基本定义

论文对具身智能给出明确定义：

具身智能是一种基于物理实体对环境进行感知与适应性交互，进而理解问题、产生智能行为的智能系统，可以突破传统智能系统依赖静态数据表征的局限，是实现AI发展目标的关键路径之一。

2. 核心内涵：打破“智能局限于大脑”的传统范式

具身智能打破了传统AI将“智能”局限于大脑内部处理的范式。具身智能体能够通过与环境的持续交互，实现信息采集、认知重构与策略演化的闭环过程。

在具体机制层面，具身智能通过构建具有本体感知与行动能力的智能体，利用多模态传感器实时捕获环境状态，利用执行机构施加物理作用，并在连续时空维度中形成“感知 – 认知 – 决策 – 行动”的闭环学习系统，从而实现对非确定性环境的动态建模与策略优化。

概念分层图

论文特别强调，“具身”的含义并非单纯指代物理实体，而是与环境交互以及在环境中执行的整体需求和功能。智能行为不仅依赖于内部的信息处理能力，还取决于智能体的感知和行动能力，即通过感知环境并采取适当的行动来解决问题。

3. 具身学习与具身智能的理论根源

论文引入“具身学习”的概念加以阐释：认知根植于身体行动，经验建构于具身交互。从生物进化的角度来看，所有生物的智力活动都依赖于自身身体与环境的交互，通过积累具身经验，不断适应外部环境。智能的演化并非单纯依赖“算法”的优化，而是“身体”与认知过程协同进化的结果。

4. 具身智能 vs. 非具身智能

论文对二者进行了清晰的对比，摘要如下：

以物体识别为例：基于数据与模型驱动的非具身智能方法在面对超出训练数据库范围的新目标时，往往难以适应变化，识别性能显著下降。而具身智能不仅能够基于交互行为不断调整自身的识别策略，还能通过持续的环境感知和经验积累，动态适应新的目标和场景。

技术框架与计算框架

论文指出，当前具身智能正迈向多技术融合的发展阶段，其实现依赖于世界模型、表征学习、因果推理和生成式AI等AI理论。其中，世界模型提供环境模拟的结构基座，表征学习提供环境状态的紧凑表示，因果推理帮助智能体理解行为与结果之间的逻辑关系，生成式AI则为任务规划与执行提供智能支撑。

具身智能计算框架

论文同时指出，生成式人工智能，尤其是大语言模型、多模态大模型以及正在演进的“信息 – 物理 – 认知”三域融合大模型等技术在加速具身智能演进中发挥着关键作用。

大模型的关键作用（论文专项论述）

郑南宁团队在论文中对大模型与具身智能的关系有清晰的定位：大模型技术是具身智能的“加速器”，而非终极解决方案。

一方面，大语言模型和多模态大模型为具身智能系统提供了更强的感知理解能力、任务规划能力和人机交互能力，从根本上改变了机器人从“执行预设指令”到“理解自然语言指令并自主规划”的能力边界。

另一方面，郑南宁院士在论文之外也明确指出：当前大语言模型本质是“大规模输入输出统计分布的压缩器”，在多模态交互上表现突出，但存在幻觉、推理链路断裂等问题。这与论文中强调大模型“加速作用”但不将其视为终点的辩证态度完全一致。

我国发展现状与面临挑战

1. 取得的进展

论文指出，当前我国在具身智能领域的技术积累、数据资源、人才培养及市场规模等方面已取得显著进展。从产业数据来看，我国具身智能市场规模已从此前的千亿元区间快速扩大，有望在2026年突破万亿元。政策层面，具身智能已被纳入国家和地方未来产业战略体系；需求层面，人口老龄化、劳动力短缺与公共服务缺口为具身智能提供了广阔的替代与辅助空间。

2. 面临的风险与挑战

论文系统梳理了我国具身智能发展面临的深层次挑战，主要包括：

理论体系尚不完善：具身智能作为一种新范式，其基础理论、计算框架和评价体系仍在探索中。
数据与仿真瓶颈：构建真实的物理世界动态交互数据闭环难度大，仿真到现实的迁移仍存在明显鸿沟。
软硬协同复杂度高：具身智能对感知、决策、控制、执行的全栈协同提出了极高要求，算法、芯片、传感器、执行器必须高度耦合。
国际竞争加剧：全球AI竞争格局下，关键核心技术自主可控的紧迫性日益凸显。

此外，论文对“人形”形态也持审慎态度。论文合作者丁宁在相关讨论中指出，人形机器人全身有30多个关节，每个关节360度，在复杂组合中要保持平衡极其困难，加上齿轮摩擦等不可建模因素，站立的稳定性本身就是巨大挑战。这表明论文强调不应盲目追求“人形”形态，而应注重与环境交互的本质能力。

研究方向与对策建议

基于上述分析，论文提出我国下一步应重点布局的研究方向与针对性对策建议：

加强基础理论研究：深入研究具身智能的认知机理、学习机制与进化规律，构建更具解释性和泛化能力的理论框架。
突破关键核心技术：集中攻关具身大模型、多模态感知融合、实时运动规划与控制、世界模型构建等核心技术。
建设高质量数据与仿真平台：构建面向物理世界交互的具身智能数据集和仿真环境，缩小仿真与现实的差距。
推动软硬协同创新：发展面向具身智能的新型计算架构和硬件平台，推动算法与硬件的协同设计。
构建产业生态体系：通过产学研协同、标准制定、产业链协同等方式，加速具身智能技术的落地应用和产业化进程。

从行业演进趋势来看，具身智能正从实验室演示和原型机展示阶段，进入规模化生产与商业化验证阶段。2026年被普遍视为具身智能从“技术闭环”走向“生态协同”的关键节点，具备闭环进化能力的企业有望在这一轮商业化竞争中胜出。这些趋势与论文对产业发展前景的判断高度一致。

总结

郑南宁院士团队的《具身智能发展趋势与展望》是一篇系统阐释具身智能概念内涵、技术架构与发展路径的综合性论文。论文的核心贡献包括：明确给出具身智能的定义与核心内涵，系统梳理具身智能的演进趋势与关键技术支撑，特别指出生成式人工智能技术在加速具身智能演进中的关键作用，以及全面总结我国具身智能发展的现状与挑战，并提出具有前瞻性和针对性的研究布局与对策建议，为我国具身智能领域的理论研究和产业实践提供了重要的战略参考与学术指引。

参考文献：郑南宁，杨勐，姜维周，孙宏滨，丁宁. 具身智能发展趋势与展望[J]. 中国工程科学，2026，28(2): 1-13.

点击阅读全文，查看论文全文

转载来源：【前沿动态】具身智能：让AI从“大脑”走进“身体”——郑南宁院士团队深度解读