
访谈嘉宾: AI领域解决方案专家
整理人: 普华技术产业化研究院、智谱特邀分析师
核心摘要
大模型推理速率仅 20Hz,无法匹配底层机器人 500-1000Hz 的实时控制需求,未来 3-5 年行业主流依旧采用 “大脑 + 小脑 + 底层控制器” 分层架构,端到端统一大模型短期内难以落地。当前行业普遍采用 VLA 视觉动作模型搭配世界模型融合方案,弥补纯 VLA 路线泛化能力不足的短板。
合规与场景落地需求驱动,国内超九成机器人企业基于阿里千问 VLM 二次训练专属小脑模型;但机器人仿真、端侧推理工具链高度依赖英伟达生态,短期不存在完整国产替代条件。
海外高端 GPU 采购受限背景下,国内厂商通过软硬联合调优、混合算力训练、高效数据策略弥补算力短板;端侧推理市场英伟达仍占据 80% 份额,地平线、辉羲等国产芯片依托本土适配服务快速渗透,1-3 年内市占率有望提升至 30%-40%。
商业化维度,按技能调用分级计费模式适配模型持续迭代,收入弹性最优;但高质量机器人动作数据稀缺、仿真到现实的鸿沟是行业两大核心制约。物理世界复杂度远高于文本领域,整体产业成熟周期会显著长于通用大语言模型赛道。
完整访谈问答实录
Q:物理 AI 软件栈整体架构、分层逻辑与主流部署方案?
A:物理 AI 软件栈自上而下分为五层:
语言任务调度层:VLM/VLA 模型,解析自然语言指令、分配整体任务; 环境感知层:场景识别、6D 位姿检测、空间定位; 动作策略层:生成完整操作动作序列; 运动规划层:轨迹计算、动作分段调度; 底层硬件控制层:电机、力矩、安全限位基础控制算法。
行业两种落地范式:一是纯端到端整体模型,传感器输入直接输出机械动作;二是分层 “大脑小脑” 架构,大脑负责高层决策,小脑处理运动执行,底层硬件控制器保障设备安全稳定。当下行业同步探索 VLA + 世界模型融合路线,但整体处于早期研发阶段。
补充提问:LLM 大模型能否完全替换传统机器人控制算法?
A:任务理解、环境感知环节 AI 替代趋势明确,但运动轨迹、碰撞检测、力矩限速、设备安全约束等底层模块,高度依赖传统控制算法。各类物理边界条件无法仅依靠模型推理实现精准约束,必须人工调校参数;世界模型理论可实现全空间推理,但 4D 动态空间建模难度极高,暂无成熟工程落地案例。
Q:纯 VLA 路线核心缺陷,为何行业普遍选择叠加世界模型?
A:纯 VLA 属于数据驱动路线,仅能复刻训练数据内的动作逻辑,面对陌生物理场景无法自主推理,泛化能力存在硬伤。世界模型可预先植入物理规则,自主生成仿真数据、持续迭代学习,突破单一数据集闭环局限,目前自变量等企业均转向二者融合方案。
补充提问:世界模型落地进度与主流技术路线?
A:行业整体处于早期研发,落地存在较大不确定性,四大主流研发方向:表征强化学习、生成式仿真数据、3D 空间建模、纯通用世界模型。前三者参与企业较多,纯世界模型路线研发进展缓慢。核心难点集中在 3D 空间一致性维持、动态物理状态精准预测,现有算法暂未形成成熟解决方案。
Q:能否把大脑、小脑整合为单一端到端大模型?分层架构为何 3-5 年内无法替代?
A:理论上数据足够后可实现统一模型,但工程落地存在两大不可逾越障碍:
黑盒无解释性:模型故障无法定位是感知、规划还是控制环节出错,工业场景会带来重大安全风险; 实时性不匹配:大模型推理仅 20Hz,底层控制需要 500-1000Hz 高频指令,时延会造成机械抖动、急停失效等安全问题。
未来 3-5 年商用落地全部采用分层架构,端到端方案仅局限实验室研究。
Q:海内外主流 VLA 模型路线、优劣,国内厂商布局现状?
A:海外四大主流模型
- Physical Intelligence π 系列:适配多类机器人本体,泛化能力强,但精细控制精度不足,仅适配训练覆盖机型;
- Google DeepMind RT/Gemini Robotics:语义理解、空间主动探测能力突出,多设备兼容;
- Figure AI:软硬件深度绑定,执行器、传感器配套定制,精度高,但跨机型迁移难度极大;
英伟达 GR00T:通用人形机器人底座,适配高维动作空间,但需要针对硬件单独采集适配数据。
国内行业现状:超九成机器人企业基于阿里千问 VLM 训练专属小脑;仅自变量、银河机器人自研底层基础模型;小鹏迁移自动驾驶感知模型,但底层运动控制模块仍需从零搭建。英伟达 GR00T 国内落地少,行业仅依赖其 Isaac Sim 仿真平台、Jetson 端侧推理工具链。
补充提问:国内企业普遍选用千问 VLM 的原因?
A:2024 年前国内无合规国产 VLM 底座,海外模型存在政策使用风险;阿里提前采购多款主流机器人采集数万小时动作数据,覆盖二十余类落地场景,国内场景适配度更高,采用 Token 分级计费模式,采购与合规门槛更低。
Q:华为、字节、百度布局物理 AI 的技术条件与短板?
A:华为暂未推出机器人专用 VLA 模型,战略重心放在昇腾芯片、AI 框架等底层软硬件,不涉足上层动作模型市场。
字节、百度等通用大模型企业拥有 LLM、多模态研发算力,但缺少机器人实时力矩控制、多传感器融合、工业场景工程落地经验,未对外推出商用机器人基础模型;仅阿里完成完整商业化闭环,自变量自建具身智能整机团队。
Q:物理 AI 行业最核心瓶颈,具身智能数据分类、采集成本?
A:行业最大痛点是高质量动作轨迹数据极度稀缺,行业数据分为三类:
遥操作人工轨迹数据(最优质量):训练通用模型至少需要百万小时量级数据,单小时采集成本 500-600 元,精细工具类单条数据成本 200 元; 仿真合成数据:可补充安全边界场景,但存在 Sim-to-Real 仿真鸿沟,摩擦、接触力学细节无法还原,不能替代真实数据; 第一视角互联网视频:获取成本低,但场景动作精度不足,仅作为辅助训练素材。
长序列多步骤操作数据采集难度指数上升,百万级长时序轨迹数据属于行业稀缺核心资产。
补充提问:数据生态多久能成型?
仿真、视频类数据 1-2 年可完成积累;高价值遥操作数据需要 3-5 年。想要形成全行业共享数据集,需要机器人机型高度集中、行业共建统一数据工厂,单一企业无法独立完成。
Q:物理 AI 是否存在类似 LLM 的涌现能力?数据门槛是多少?
A:已有实验验证存在物理层面能力涌现。用百万条矿泉水抓取数据训练后,模型可自主识别可乐瓶同类容器并生成适配抓取动作,但抓取精度偏低。物理世界包含三维空间、接触力学等复杂约束,复杂度远超纯文本,达成稳定涌现所需数据规模极大,行业距离成熟阈值差距明显,整体产业迭代周期远长于大语言模型。
Q:高端 GPU 受限对模型训练的影响,国内企业应对方案?
A:国产昇腾、海光芯片对比 H10 存在三重差距:单卡算力仅 60%、分布式训练效率再降 20%、FP8混合精度适配不完善;同等 VLA 模型,英伟达集群训练 1 个月,国产算力需要 1.5 个月。
四大落地应对策略:
软硬协同定制算子,优化分布式训练框架; 混合算力训练:80% 预训练使用国产卡,少量英伟达卡完成精调,搭配模型蒸馏降低算力依赖; - PEFT
小样本微调、数据增强等技术,减少算力消耗; 搭建自有数据闭环,用高质量数据弥补算力短板。
英伟达 Blackwell 与Feynman 平台会进一步拉大算力代差,国内企业短期优先盘活现有高端卡存量,长期推进国产算力与工具链完善。
Q:机器人端侧推理算力需求,国产芯片渗透率走势?
A:10-12B VLA 模型推理算力需求 275TOPS;融合世界模型后算力需求提升至 2000TOPS,部分计算需迁移云端。硬件标配 64GB 以上内存,高端存储芯片单片售价超 5 万元。
市场格局:英伟达 Jetson 占据80% 端侧份额,国产芯片合计 20%;地平线地瓜、辉羲 RE适配国内机器人厂商,配套本地化技术服务,1-3 年国产芯片份额有望提升至 30%-40%。短板集中在仿真工具、算子优化软件生态。
Q:物理 AI 模型厂商主流商业模式,哪种长期可持续?
年度订阅:按机器人台收取年费,模型持续更新; 技能分级调用(最优路线):抓取、搬运等原子技能按调用次数收费,适配模型迭代,收入弹性最强; 项目买断 / 年度授权:一次性出售部署权限。
星海图等企业侧重学术测评,工业落地案例偏少,实验室效果和真实产线差距较大,仍处于持续迭代阶段。
Q:行业中长期核心瓶颈与技术收敛方向?
三大核心卡点:
高质量动作数据供给不足,行业缺少统一数据共建机制; - VLA 模型在极端工况、高精度装配等边界场景失效;
抓取、力控底层核心算法积累弱,高度依赖海外开源方案。
中长期收敛路线:VLA 基础模型 + 约束小脑(处理物理安全边界)分层组合;受物理世界高复杂度制约,行业成熟节奏会大幅慢于通用大模型。
补充提问:工业机器人运行数据能否赋能模型训练?
A:传统工业机械臂以固定重复程序运行为主,AI 推理调用频次低,但设备实时运行的轨迹回流数据具备训练价值;行业主流优化路径为产线机器人实时回传交互数据,搭建数据自迭代飞轮。


免责声明
夜雨聆风