专家访谈|物理 AI 软件与模型层行业深度研究

访谈嘉宾： AI领域解决方案专家

整理人：普华技术产业化研究院、智谱特邀分析师

核心摘要

大模型推理速率仅 20Hz，无法匹配底层机器人 500-1000Hz 的实时控制需求，未来 3-5 年行业主流依旧采用 “大脑 + 小脑 + 底层控制器” 分层架构，端到端统一大模型短期内难以落地。当前行业普遍采用 VLA 视觉动作模型搭配世界模型融合方案，弥补纯 VLA 路线泛化能力不足的短板。

合规与场景落地需求驱动，国内超九成机器人企业基于阿里千问 VLM 二次训练专属小脑模型；但机器人仿真、端侧推理工具链高度依赖英伟达生态，短期不存在完整国产替代条件。

海外高端 GPU 采购受限背景下，国内厂商通过软硬联合调优、混合算力训练、高效数据策略弥补算力短板；端侧推理市场英伟达仍占据 80% 份额，地平线、辉羲等国产芯片依托本土适配服务快速渗透，1-3 年内市占率有望提升至 30%-40%。

商业化维度，按技能调用分级计费模式适配模型持续迭代，收入弹性最优；但高质量机器人动作数据稀缺、仿真到现实的鸿沟是行业两大核心制约。物理世界复杂度远高于文本领域，整体产业成熟周期会显著长于通用大语言模型赛道。

完整访谈问答实录

Q：物理 AI 软件栈整体架构、分层逻辑与主流部署方案？

A：物理 AI 软件栈自上而下分为五层：

语言任务调度层：VLM/VLA 模型，解析自然语言指令、分配整体任务；
环境感知层：场景识别、6D 位姿检测、空间定位；
动作策略层：生成完整操作动作序列；
运动规划层：轨迹计算、动作分段调度；
底层硬件控制层：电机、力矩、安全限位基础控制算法。

行业两种落地范式：一是纯端到端整体模型，传感器输入直接输出机械动作；二是分层 “大脑小脑” 架构，大脑负责高层决策，小脑处理运动执行，底层硬件控制器保障设备安全稳定。当下行业同步探索 VLA + 世界模型融合路线，但整体处于早期研发阶段。

补充提问：LLM 大模型能否完全替换传统机器人控制算法？

A：任务理解、环境感知环节 AI 替代趋势明确，但运动轨迹、碰撞检测、力矩限速、设备安全约束等底层模块，高度依赖传统控制算法。各类物理边界条件无法仅依靠模型推理实现精准约束，必须人工调校参数；世界模型理论可实现全空间推理，但 4D 动态空间建模难度极高，暂无成熟工程落地案例。

Q：纯 VLA 路线核心缺陷，为何行业普遍选择叠加世界模型？

A：纯 VLA 属于数据驱动路线，仅能复刻训练数据内的动作逻辑，面对陌生物理场景无法自主推理，泛化能力存在硬伤。世界模型可预先植入物理规则，自主生成仿真数据、持续迭代学习，突破单一数据集闭环局限，目前自变量等企业均转向二者融合方案。

补充提问：世界模型落地进度与主流技术路线？

A：行业整体处于早期研发，落地存在较大不确定性，四大主流研发方向：表征强化学习、生成式仿真数据、3D 空间建模、纯通用世界模型。前三者参与企业较多，纯世界模型路线研发进展缓慢。核心难点集中在 3D 空间一致性维持、动态物理状态精准预测，现有算法暂未形成成熟解决方案。

Q：能否把大脑、小脑整合为单一端到端大模型？分层架构为何 3-5 年内无法替代？

A：理论上数据足够后可实现统一模型，但工程落地存在两大不可逾越障碍：

黑盒无解释性：模型故障无法定位是感知、规划还是控制环节出错，工业场景会带来重大安全风险；
实时性不匹配：大模型推理仅 20Hz，底层控制需要 500-1000Hz 高频指令，时延会造成机械抖动、急停失效等安全问题。

未来 3-5 年商用落地全部采用分层架构，端到端方案仅局限实验室研究。

Q：海内外主流 VLA 模型路线、优劣，国内厂商布局现状？

A：海外四大主流模型

Physical Intelligence π 系列：适配多类机器人本体，泛化能力强，但精细控制精度不足，仅适配训练覆盖机型；
Google DeepMind RT/Gemini Robotics：语义理解、空间主动探测能力突出，多设备兼容；
Figure AI：软硬件深度绑定，执行器、传感器配套定制，精度高，但跨机型迁移难度极大；
英伟达 GR00T：通用人形机器人底座，适配高维动作空间，但需要针对硬件单独采集适配数据。

国内行业现状：超九成机器人企业基于阿里千问 VLM 训练专属小脑；仅自变量、银河机器人自研底层基础模型；小鹏迁移自动驾驶感知模型，但底层运动控制模块仍需从零搭建。英伟达 GR00T 国内落地少，行业仅依赖其 Isaac Sim 仿真平台、Jetson 端侧推理工具链。

补充提问：国内企业普遍选用千问 VLM 的原因？

A：2024 年前国内无合规国产 VLM 底座，海外模型存在政策使用风险；阿里提前采购多款主流机器人采集数万小时动作数据，覆盖二十余类落地场景，国内场景适配度更高，采用 Token 分级计费模式，采购与合规门槛更低。

Q：华为、字节、百度布局物理 AI 的技术条件与短板？

A：华为暂未推出机器人专用 VLA 模型，战略重心放在昇腾芯片、AI 框架等底层软硬件，不涉足上层动作模型市场。

字节、百度等通用大模型企业拥有 LLM、多模态研发算力，但缺少机器人实时力矩控制、多传感器融合、工业场景工程落地经验，未对外推出商用机器人基础模型；仅阿里完成完整商业化闭环，自变量自建具身智能整机团队。

Q：物理 AI 行业最核心瓶颈，具身智能数据分类、采集成本？

A：行业最大痛点是高质量动作轨迹数据极度稀缺，行业数据分为三类：

遥操作人工轨迹数据（最优质量）：训练通用模型至少需要百万小时量级数据，单小时采集成本 500-600 元，精细工具类单条数据成本 200 元；
仿真合成数据：可补充安全边界场景，但存在 Sim-to-Real 仿真鸿沟，摩擦、接触力学细节无法还原，不能替代真实数据；
第一视角互联网视频：获取成本低，但场景动作精度不足，仅作为辅助训练素材。

长序列多步骤操作数据采集难度指数上升，百万级长时序轨迹数据属于行业稀缺核心资产。

补充提问：数据生态多久能成型？

仿真、视频类数据 1-2 年可完成积累；高价值遥操作数据需要 3-5 年。想要形成全行业共享数据集，需要机器人机型高度集中、行业共建统一数据工厂，单一企业无法独立完成。

Q：物理 AI 是否存在类似 LLM 的涌现能力？数据门槛是多少？

A：已有实验验证存在物理层面能力涌现。用百万条矿泉水抓取数据训练后，模型可自主识别可乐瓶同类容器并生成适配抓取动作，但抓取精度偏低。物理世界包含三维空间、接触力学等复杂约束，复杂度远超纯文本，达成稳定涌现所需数据规模极大，行业距离成熟阈值差距明显，整体产业迭代周期远长于大语言模型。

Q：高端 GPU 受限对模型训练的影响，国内企业应对方案？

A：国产昇腾、海光芯片对比 H10 存在三重差距：单卡算力仅 60%、分布式训练效率再降 20%、FP8混合精度适配不完善；同等 VLA 模型，英伟达集群训练 1 个月，国产算力需要 1.5 个月。

四大落地应对策略：

软硬协同定制算子，优化分布式训练框架；
混合算力训练：80% 预训练使用国产卡，少量英伟达卡完成精调，搭配模型蒸馏降低算力依赖；
PEFT
小样本微调、数据增强等技术，减少算力消耗；
搭建自有数据闭环，用高质量数据弥补算力短板。

英伟达 Blackwell 与Feynman 平台会进一步拉大算力代差，国内企业短期优先盘活现有高端卡存量，长期推进国产算力与工具链完善。

Q：机器人端侧推理算力需求，国产芯片渗透率走势？

A：10-12B VLA 模型推理算力需求 275TOPS；融合世界模型后算力需求提升至 2000TOPS，部分计算需迁移云端。硬件标配 64GB 以上内存，高端存储芯片单片售价超 5 万元。

市场格局：英伟达 Jetson 占据80% 端侧份额，国产芯片合计 20%；地平线地瓜、辉羲 RE适配国内机器人厂商，配套本地化技术服务，1-3 年国产芯片份额有望提升至 30%-40%。短板集中在仿真工具、算子优化软件生态。

Q：物理 AI 模型厂商主流商业模式，哪种长期可持续？

年度订阅：按机器人台收取年费，模型持续更新；
技能分级调用（最优路线）：抓取、搬运等原子技能按调用次数收费，适配模型迭代，收入弹性最强；
项目买断 / 年度授权：一次性出售部署权限。

星海图等企业侧重学术测评，工业落地案例偏少，实验室效果和真实产线差距较大，仍处于持续迭代阶段。

Q：行业中长期核心瓶颈与技术收敛方向？

三大核心卡点：

高质量动作数据供给不足，行业缺少统一数据共建机制；
VLA 模型在极端工况、高精度装配等边界场景失效；
抓取、力控底层核心算法积累弱，高度依赖海外开源方案。

中长期收敛路线：VLA 基础模型 + 约束小脑（处理物理安全边界）分层组合；受物理世界高复杂度制约，行业成熟节奏会大幅慢于通用大模型。

补充提问：工业机器人运行数据能否赋能模型训练？

A：传统工业机械臂以固定重复程序运行为主，AI 推理调用频次低，但设备实时运行的轨迹回流数据具备训练价值；行业主流优化路径为产线机器人实时回传交互数据，搭建数据自迭代飞轮。

普华技术产业化研究院，着眼于未来三十年的科技竞争，重点聚焦于人工智能、生命健康、新能源、新材料、智能制造、新一代信息技术等战略新兴领域进行早期项目投资孵化，解决早期初创企业团队技术方、资金方、市场方核心痛点，以“投资研究+技术创新+创业孵化+投后服务”为一体的创业投资孵化生态，服务于国家的科技强国战略，为科技创业者提供深度、专业、全面的投资孵化及融资落地服务。

免责声明

本访谈所载信息、观点、预测均来自专家个人，不构成任何投资建议。相关数据仅供参考，不保证完全准确。未经许可，严禁复制、传播、改编及用于商业用途。