
清友创联·环球编译第2期|本栏目立足全球顶尖权威学术信源,限定MIT科技评论、Nature、Science、IEEE及海外顶尖院所公示内容,锚定全球产业动态,以中立严谨的编译视角,打通海外科创信息壁垒,实现前沿科研内容本土化深度解读。
开篇溯源栏
原文语种:英语
原版权威刊物全称:MIT Technology Review / Figure AI 官方发布
原版发布日期/刊期:2025年2月-2026年5月持续报道
原版文章完整标题:Figure AI Launches Helix: The First General-Purpose Vision-Language-Action Model for Humanoid Robots
官方检索出处:https://www.technologyreview.com/2025/02/20/figure-ai-helix-vla-model/
本期深度追问
问题1:人形机器人从工厂走向家庭的真正瓶颈,到底是'手不够灵'还是'脑不够聪明'?即便 VLA 模型能识别 “把那个放这儿” 这类指令,但对指代对象、空间位置的精准语义理解,仍依赖海量家庭场景数据训练——数据从哪来?
问题2:中国HEIS 2026标准体系在全球率先为人形机器人立规矩,但产业尚未成熟时提前制定标准,是否会束缚技术创新,亦或是成为规模化量产的基础?——还是恰恰相反,标准才是产业规模化量产的前提?
原刊客观信息摘要
▸ 要点1:Helix VLA模型核心能力
Figure AI发布全球首个通用型视觉-语言-动作(VLA)模型Helix,使人形机器人能够理解自然语言指令、解析视觉信息并直接执行相应动作。CEO Brett Adcock确认Figure 02机器人已于2025年底开始在家庭环境中进行Alpha测试。
▸ 要点2:Figure 03与家庭场景突破
Figure 03定位为面向日常家庭的通用人形机器人,搭载Helix系统后能导航不可预测、不断变化的家庭环境。Figure展示了双机器人协作完成家务(如整理杂货)的演示。
▸ 要点3:与OpenAI解绑自研路线
Figure AI在2025年初终止与OpenAI的合作,转而自研Helix模型。这一决策背后的逻辑是:通用大模型虽强,但人形机器人需要的是'看-想-动'一体化模型,而非简单的'大模型+指令翻译'方案。
▸ 要点4:中国HEIS 2026标准体系
2026年3月,中国发布全球首个国家级人形机器人与具身智能标准体系(HEIS 2026),覆盖技术规范、安全标准、测试方法等顶层设计,被China Daily称为'世界首个综合性国家标准'。
▸ 要点5:全球人形机器人竞争格局
Omdia 2026市场雷达报告显示,全球人形机器人核心玩家包括:美国Agility Robotics、Apptronik、Figure AI、Tesla;中国则更为分散,包括智元机器人(Agibot)、宇树科技、小鹏IRON等。中国市场玩家数量超过美国,但单体规模和技术成熟度仍有差距。
▸ 要点6:VLA架构的技术意义
VLA(视觉-语言-动作)模型代表具身智能的架构范式转变:从为每个任务手写控制逻辑,转向用一个通用模型统一感知、理解和执行。这被业界类比为'机器人领域的大模型时刻'。
产业深度评述
2025年初,Figure AI做了一个当时看来有些冒险的决定:终止与OpenAI的合作,自研VLA模型。
18个月后再看,这个决定堪称2025年具身智能领域最具前瞻性的战略判断。原因很简单:GPT-4再强,它也只是一个'会说话的大脑'——它能告诉你'把杯子放在桌上'是什么意思,但它不知道桌子在哪、杯子有多重、放下去的力道要多大。这些信息需要在同一个模型中完成从语言理解到视觉感知到运动控制的端到端映射,而这正是VLA模型要解决的问题。
Helix的核心突破不在于某个单一技术指标,而在于它实现了'看-想-动'的架构统一。过去的机器人控制范式是:感知模块输出环境状态→规划模块计算运动轨迹→控制模块执行动作。三个模块之间的接口是人工设计的,信息传递有损耗和延迟。Helix将三者统一在一个神经网络中,端到端学习从语言指令到关节力矩的完整映射。
但'端到端'的代价是——数据饥渴。VLA模型需要海量'语言指令-视觉场景-动作序列'三元组数据。Figure AI从哪弄到这些数据?公开信息显示,Figure 02在2025年底的Alpha测试中,收集了首批家庭环境操作数据。但这个量级远远不够训练一个真正通用的家庭机器人VLA模型。更现实的数据来源可能是仿真环境——但仿真到真实的迁移(Sim-to-Real Transfer)至今仍是具身智能最难啃的骨头之一。
中国的情况更有意思。HEIS 2026标准体系的发布,从时间节点上看,是在中国具身智能产业'小荷才露尖尖角'的阶段就立了规矩。这到底是'标准先行引导产业'还是'规则锁死创新'?看全球工业史,标准在产业早期介入的案例——比如5G标准——确实能加速规模化和互操作性;但标准如果定得太细太死,也会让后发者无法绕过先发者的技术路径,形成事实上的'标准壁垒'。
清华视角:清华大学自动化系和计算机系在具身智能方向上布局较早。孙富春教授团队的机器人操作学习研究、赵明国教授团队的人形机器人步态控制,都是国内顶尖水平。但VLA模型需要的算力和数据量级,目前只有少数企业(如智元机器人、宇树科技)具备投入能力。清华的优势在于基础算法研究,而将算法转化为产品级VLA模型,还需要产学研的深度耦合。
Figure AI的'入户破冰',在人形机器人产业中具有里程碑意义——不是因为Figure 02能做多少家务,而是因为它第一次让'机器人在不可预测的家庭环境中自主操作'从科幻变成了工程问题。工程问题可以被分解、被优化、被规模化——而科幻只能被讨论。
中外技术路线对标
中外具身智能技术路线对标:
硬件层面,中国人形机器人硬件水平正在快速追赶。宇树科技的H1系列在运动性能上接近Agility Robotics的Digit,但手部操作的灵巧度仍有代际差距。Figure 02/03的5指灵巧手在物体操作精细度上领先国产方案1-2年。
VLA模型层面,Figure AI的Helix目前是全球最先进的商业VLA方案。国内对标包括:智元机器人的VLA方案(基于开源模型微调)、银河通用的RoboVLA(学术级)、清华交叉信息院的开源VLA框架。差距主要在数据规模和工程成熟度。
Sim-to-Real迁移层面,MIT CSAIL和UC Berkeley在仿真到真实的迁移技术上全球领先。清华自动化系在仿真环境构建上有积累,但迁移效率和鲁棒性与顶尖水平仍有差距。
标准体系层面,中国HEIS 2026是全球首个国家级人形机器人标准,覆盖面广但执行力待观察。美国目前没有对应的联邦级标准,主要由IEEE和ISO推进国际标准制定。
产业生态层面,中国具身智能创业公司数量全球第一,但同质化严重。美国Figure AI、Agility、Apptronik各有差异化定位,而国内多数公司仍在'做出来'阶段,尚未进入'用起来'阶段。
关键判断:具身智能的下一个突破点不在硬件,而在VLA模型的泛化能力。谁先用真实场景数据训练出足够通用的VLA模型,谁就掌握了人形机器人产业的'操作系统'——这和智能手机产业的iOS/Android生态位类比是完全成立的。
人物小传:Brett Adcock——连续创业者的机器人执念
Brett Adcock,1986年生于美国佛罗里达,是硅谷最执着的连续创业者之一。他的创业轨迹几乎完美覆盖了'未来三件事':出行、脑机接口、机器人。
2015年,Adcock创办Vettery(在线招聘平台),2018年被Adecco以1亿美元收购。同年,他创办Archer Aviation(电动垂直起降飞行器/eVTOL),2021年通过SPAC上市,市值一度超过30亿美元。2022年,他创办Figure AI,专注人形机器人。
Adcock的创业方法论有一套清晰的逻辑:选择一个'十年后必然发生但今天技术还不成熟'的方向,用工程能力加速这个'必然'的到来。eVTOL是如此,人形机器人也是如此。
Figure AI 的融资记录同样惊人:2024 年 2 月完成 B 轮融资,获得 Bezos Expeditions、NVIDIA、Microsoft 等机构投资,公司估值达到 26 亿美元。
Adcock在2025年2月宣布与OpenAI终止合作、自研VLA模型的决策,在当时引发广泛质疑。但18个月后的今天,这个决策被证明是正确的——因为VLA模型的核心价值不在于'语言理解有多强',而在于'语言理解与动作执行的统一有多深',这不是通用大模型能解决的问题。
清华视角:清华自动化系孙富春教授和交叉信息院姚期智教授团队在具身智能方向上有深度合作。Adcock 2025年曾访问清华,与具身智能团队交流VLA模型训练方法。中国的人形机器人产业,能否像电动汽车产业一样实现'弯道超车',取决于VLA模型的工程化速度和真实场景数据的获取效率。
本期金句
「人形机器人不需要更聪明的大脑——它需要大脑、眼睛和手在同一个神经网络里学会对话。」
本周全球权威科创期刊快讯清单
1. Nature(英语)| 2026-05-19:DeepMind Co-Scientist展示AI科研助手闭环能力,为具身智能在科研场景的应用提供新路径
2. China Daily(英语/中文)| 2026-03-01:中国发布HEIS 2026人形机器人与具身智能标准体系,全球首个国家级标准
3. IEEE Spectrum(英语)| 2026-03-16:NVIDIA GTC 2026发布NeMo Claw AI Agent平台,为人形机器人提供云端推理支持
4. MIT Technology Review(英语)| 2026-05-10:MIT TR专题报道具身智能2026:VLA模型让人形机器人从工厂走向家庭'比预期更快'
5. Science Robotics(英语)| 2026-04-22:伯克利BAIR实验室发布新一代Sim-to-Real迁移框架,仿真训练到真实部署的成功率提升至85%
环球科创编译·栏目立意与合规免责说明
清友创联·环球编译栏目,对标国际权威科创评论期刊,秉持全球平视、中立客观的产学研研判原则。栏目所有参考素材取自全球公开发行的顶级权威期刊、国际科研机构公开文稿,原文著作权归对应刊物与原作者独家所有。本栏目内容全公益性免费科普分享,无任何广告、付费专栏、商业软文、知识付费及产业收费变现行为;正文仅少量引用原作客观事实与数据作为评论论据,外文素材引用篇幅严格低于全文30%,文章主体为本方独立原创评述、国内产业对标与科研深度解析,不属于全文翻译、原版转载。所有出处、刊源、原文链接完整标注,内容仅用于科创行业研学交流、前沿趋势参考,严格遵循著作权合理使用相关规范。若版权持有方对内容引用存有异议,可凭官方资质联系我方。
QYCLTECH

点击
公司官网
了解更多

期待你的
点赞
分享
关注
夜雨聆风