# AI的第二战场⑤:机器人和具身智能——控制权的终极形态本篇是AI第二战场的最终篇。当世界模型被外挂出来了,但它还缺一具身体。它不能永远待在服务器里,不能永远只通过PLC和DCS的数字信号感知世界、改变世界。它需要能看、能摸、能走、能操作。当世界模型拥有了一具身体,会发生什么?这篇里说的"机器人",不是狭义的人形机器人。是机械臂,是移动机器人,是巡检机器人,是协作机器人,是灵巧手,是AGV和AMR,是一切能感知、能移动、能操作的物理执行系统。我越想越觉得,具身智能的本质,不是给AI装上一个人形外壳,而是让AI拿到现实世界的执行权。前四篇其实一直在讲一件事:AI正在从信息世界进入物理世界,争夺控制权。世界模型是大脑,控制系统是神经,机器人是身体。大脑和身体合在一起,AI就不再是"优化工具",而是一个能直接对物理世界施加作用的实体。控制权终于有了身体。先问一个问题:为什么控制权最终需要一具身体?工业控制系统的进化史,本质上是控制权不断从人转移到系统的历史。PLC和DCS已经覆盖了大量标准化控制回路——温度、压力、流量、阀门开度,这些本来就是它们擅长的事,几十年来一直在做,而且做得越来越精准。但工厂里还有另一类动作,是DCS覆盖不了的。巡检。不是看屏幕上的传感器读数,而是走到现场,听一下轴承有没有异响,摸一下管道有没有异常振动,闻一下有没有烧焦的味道。取样。从反应釜里取出一管料液,看颜色、测pH、闻气味。换滤网。滤网堵了,压力在涨,系统知道压力在涨,但换滤网这个动作系统做不了。处理泄漏。管道接口滴漏,第一时间发现、判断严重程度、决定是紧固还是停机。清理堵塞。料仓架桥了,传感器显示料位不降,但谁去捅?这些动作的共同点是:非标准、柔性、临场、开放。它们需要的不是更强的算法,而是一具能走到现场、能看、能摸、能动手的身体。所以,工厂老师傅比AI多出来的,从来不是脑子。是身体。他能走到罐前,看一眼泡沫颜色,摸一下罐壁温度,听一下搅拌声音——这些不是传感器读数,是多模态的、高带宽的、直觉级的物理感知。他能拧阀门、换滤网、清理堵塞、处理泄漏——这些不是执行器的预定动作,是灵活、自适应、能应对意外的物理操作。也因此控制权的终极形态,不是AI替代DCS,也不是机器人替代所有设备。而是AI补上过去只能由人完成的物理最后一米。世界模型学会了推演后果,但推演完之后,还需要一双手去执行。控制权的争夺,到了最后一步,绕不开物理形态。工业机器人不是新东西。早在1961年,Unimate就已经进入通用汽车工厂,用来处理重复、危险、艰苦的工业任务。过去六十年,工业机器人做了大量事情——汽车焊装线上的机械臂,半导体工厂里的晶圆搬运,物流仓库里的AGV。它们有一个共同特点:动作极其精准,但完全不知道自己在干什么。重复一百万次同一个动作,但只要工件偏了一厘米,它就抓空。场景一变,灯光一换,工件换一个朝向,它就可能失效。因为这是旧机器人。本质上是自动化设备。强在标准化、重复性、高精度,依赖结构化环境——工件必须摆准,路径必须预设,动作必须编程。AI正在让机器人变成另一种东西。新机器人开始具备几种旧机器人没有的能力。视觉理解,能认出面前是什么东西,形状、位置、朝向、材质。空间定位,知道自己在哪,物体在哪,怎么绕开障碍。任务规划,不需要人把每个动作都编程,告诉它"把这个箱子搬到那边",它能自己拆解步骤。语言理解,能用自然语言下指令,不需要写代码。力控反馈,能感知力度,不会把工件捏碎,也不会抓不住。环境适应,工件偏了一点,它能自己调整;光照变了,它还能认出来。区别不是"旧机器人笨,新机器人聪明"。而是旧机器人执行程序,新机器人执行意图。旧机器人是人的动作延伸,你教它每一个动作,它重复。新机器人是AI在物理世界里的执行器,你要求结果,它自己想办法做到。这就是为什么世界模型和机器人天然是一体的。世界模型让AI推演"如果这样做会怎样",机器人让AI把推演结果变成物理行动。大脑和身体,拼在一起才完整。机器人在工厂里到底能做什么?不是替代已经自动化的标准动作,而是接管那些过去只有人能处理的非标准现场动作。比如:流程工业现场。回到那个发酵车间。老师傅每天的工作不只是看屏幕。他要走到罐前,看一眼泡沫颜色,摸一下罐壁温度,听一下搅拌声音,确认阀门状态,检查管线有没有异常振动,发现泄漏,取样,换滤芯,处理堵塞。这些动作,目前很多不是DCS能覆盖的。它们属于现场经验、身体感知和临场操作。巡检机器人已经开始进入这些场景。搭载热成像、声学传感器、视觉检测的移动机器人,可以沿着固定路线检查设备温度、异响、泄漏、仪表读数。它们不替代DCS的控制功能,但替代了人的"现场确认"功能。过去操作员每个班次花两个小时巡检,现在机器人可以更高频次、更稳定地完成,把人的精力留给更复杂的判断。BMW已在Spartanburg工厂将Figure 02人形机器人部署到真实生产环境,协助生产超过30000台BMW X3,移动超过90000个零部件,累计运行约1250小时,并在Leipzig工厂推进新试点。这个案例的意义不在于人形机器人多么成熟,而在于具身智能已经开始在真实生产线上积累运行小时数。第二类场景是离散制造。汽车总装线上,焊接和喷涂早就是机器人的天下,但大量工序还是人做:插接软管、安装线束、卡扣、密封条。这些动作的难点是工件有柔性、位置有偏差、力度凭感觉。旧机器人做不了,因为它们不能适应"不完美"的现场。AI视觉加上力控反馈,让机器人开始能处理这些情况——不是取代整条产线的人,而是一个一个工位渗透。小鹏汽车已将IRON人形机器人纳入Physical AI主线,并计划推进2026年底前量产,这代表中国车企和供应链也在向这个方向发力。第三类是质检和仓储。质检里,AI视觉开始替代人眼做复杂缺陷检测——微小划痕、颜色差异、纹理异常。不是比人眼更聪明,而是不累、不眼花、不走神。仓储里,AGV早就在用,但以前的AGV按固定路线走,遇到障碍就停。AI加SLAM加强化学习,让AMR能自己规划路径、绕开障碍、适应环境变化。这些场景的共同点:机器人真正进入工厂,不是为了替代早就自动化的重复动作,而是为了接管那些过去只有人能处理的非标准现场动作。这就是"物理最后一米"。到这里,整个系列的三块拼图可以合拢了。第一块是工业控制系统。PLC、DCS、MES、SCADA、执行器、传感器。它们是工厂已有的神经网络和方向盘。,欧洲手里握着这套系统的入口,美国想借道进来,中国正在用自己的现场密度从下往上反推。这套系统决定了谁能给工厂发指令。第二块是世界模型。老师傅脑子里的虚拟工厂。第四篇讲过,AI正在把这个人脑里的模型外挂出来——不是画3D画面,而是学会状态理解、后果预测、反事实推演。它解决的是"怎么想",在动手之前先把后果跑一遍。第三块是机器人。机械臂、移动机器人、巡检机器人、协作机器人、灵巧手。一切能感知、能移动、能操作的物理执行系统。它解决的是"怎么到现场动手"。世界模型推演完了,需要一具身体去执行。三块合在一起,闭环才完整。巡检机器人走到罐前,看一眼泡沫颜色,听一下搅拌声音,确认阀门状态——这是感知现场。数据传回世界模型,模型判断:菌种代谢速率在下降,如果不干预,两小时后收率会掉两个点——这是理解状态和预测未来。模型推演:现在补料能不能拉回来?补太早会不会刺激副产物?只降温不补料能不能稳住?——这是反事实推演,是"假如"。模型选出最优策略,把指令传给DCS——这是决策和控制。机器人确认现场状态与模型推演一致,动手调整阀门、补料、取样——这是物理执行。新一批数据回来,模型修正自己——这是反馈和迭代。感知、推演、决策、执行、反馈,全部打通。世界模型解决"怎么想",控制系统解决"怎么下指令",机器人解决"怎么到现场动手"。三者合在一起,AI才真正从信息系统变成物理系统。这不是AI替代某一台设备,而是AI开始接管"感知—推演—决策—执行—反馈"的完整链条。这就是第二篇说的第四层闭环控制的终极形态。也是整个系列一直在逼近的那个终点。不过目前看:方向清楚,过程漫长。具身智能现在还很笨拙,卡在至少四个地方。灵巧操作极难。人类手指有二十多个自由度,能感知力度、纹理、温度,能在黑暗里系鞋带,能凭触觉判断螺丝有没有拧紧。机器人的夹爪和灵巧手,在精细操作上离人手还有很大差距。插一根软管、装一个卡扣,对人来说不费脑子,对机器人来说极其困难。泛化能力弱。在实验室里训练好的抓取模型,换一个工厂、换一种光照、换一个工件,性能可能断崖式下降。老师傅能适应各种变化——原料批次不同、季节温湿度不同、设备老化程度不同——但机器人还在"见过就会,没见过就不会"的阶段。宇树2025年人形机器人出货超过5500台,市场热度很高,但真实工厂应用仍很少,很多场景还集中在科研、教育、接待导览和巡检,公众看到的热闹,和工厂里长期稳定运行之间,还有很大距离。安全性要求高。工业现场出错,不是App闪退,是伤人、停线、损坏设备。一个能自主移动、自主操作的AI机器人,安全机制必须比传统工业机器人更可靠。目前大多数协作机器人的安全策略仍然是降速和隔离,真正人机混合作业还需要时间。成本和ROI。一个能看、能算、能操作的高级机器人系统,成本仍然很高。对很多工厂来说,用几个人比投一套机器人系统更划算,尤其是那些本来利润就薄的行业。成本降到临界点以下,才是大规模普及的起点。所以这不是一个"三年全面替代"的故事。具身智能是方向,不是现状。它会先从最容易的场景开始——质检、搬运、巡检、简单装配,在这些地方积累运行小时数,然后逐步进入更复杂的现场操作。老师傅不会被一夜替代,但具身智能会一步一步渗透,从辅助开始,逐渐成为主角。十年逐步渗透,一旦渗透完成,壁垒极深。回到第一篇那个发酵罐。这个系列从它开始。一个发酵罐里,AI抠出了3%的产量提升。当时我问了一个问题:这3%为什么比互联网的50%更值钱?答案是工业的增长是在物理极限上继续抠效率,抠出来的直接穿透利润表。然后第二篇我发现,AI不只是想多赚3%。它想握住方向盘。工业AI的真正野心是控制权。第三篇画了全球地图——它们是工厂已有的神经网络和方向盘。欧洲手里握着这套系统的入口,美国想借道进来,中国正在用自己的现场密度从下往上反推。第四篇发现,控制权争夺之所以可能,是因为老师傅脑子里的那个虚拟工厂——世界模型——正在被AI一步一步外挂出来。这一篇是终点。世界模型需要一具身体,机器人就是那具身体。当大脑和身体合在一起,AI就不再是聊天框里的副驾、控制室里的建议者、服务器里的推演引擎。它是一个完整的物理存在——能感知现场、理解状态、推演后果、下达指令、动手执行、拿到反馈、修正自己。老师傅不会立刻消失。但他的虚拟工厂,正在被外挂出来。方向盘不会消失,但握方向盘的手,正在从人变成系统。工厂不会消失,但工厂里最值钱的东西,正在从硬件变成知识,从经验变成模型,从人脑变成AI。这就是AI进入物理世界的完整故事。从发酵罐里那3%开始,到控制权的争夺,到世界模型的拼图,到具身智能的落地。AI的第二战场,不是某一个行业、某一项技术。是物理世界本身。(全文完)