当前具身智能系统面临一个结构性断层:视觉-语言-动作(VLA)架构赋予机器人强大的感知与直觉响应能力,但其开环特性与长期记忆建模的缺失,使其难以应对复杂长程任务。引入System 2认知机制的代理框架虽能改进规划与推理,却多运行于封闭沙箱,依赖预定义工具集,缺乏对真实系统的直接控制。
阿里巴巴AMAP CV Lab推出的ABot-Claw,以OpenClaw本地化运行时为基础执行核心,通过三项关键技术整合,构建从高层意图到低层动作的端到端闭环,形成可在开放动态环境中持续学习、适应与进化的具身智能框架。
ABot-Claw
【核心突破】
视觉-语言-动作-评判(VLAC)闭环机制:在线状态评估与动态策略调整
跨本体多模态记忆系统:统一视觉、语言与状态信息,支持长时域上下文保持
弹性多智能体调度架构:基于路由表的任务隔离、并行执行与即插即用设备协同
Project page:https://github.com/amap-cvlab/ABot-Claw
一、技术架构
异构本体整合
不同机器人平台的控制接口差异显著——机械臂依赖笛卡尔规划,移动平台暴露导航原语,人形机器人需要全身运动控制。ABot-Claw引入统一本体接口,通过ROS适配器将各平台原生功能映射为共享技能集(导航、观测、巡检、操作原语),实现高层规划与硬件细节的解耦。
系统作为集中式运行时,维护动态设备池,追踪各机器人的可用性、任务进度与状态。用户请求可分解为兼容并行执行的子任务,跨多机器人分发。任务路由综合考量能力匹配、空间位置、当前负载与任务优先级四维度,支持执行过程中的动态切换与跨本体协作。
视觉中心的多模态记忆

针对几何地图与自然语言对齐困难、文本日志丢失视觉细节的问题,系统构建以视觉为核心的多模态记忆,组织为四类实体:
图像-语义记忆:保留视觉嵌入,支持开放词汇的跨模态检索
关键帧记忆:压缩探索轨迹为带相机参数与时间戳的稀疏快照
物体中心记忆:记录类别、观测时间、来源本体及3D位姿,支撑交互任务
地点锚点记忆:将语义位置(如厨房、入口)注册为可导航坐标
所有连接机器人共享同一记忆空间,支持跨时间、空间与本体类型的环境上下文检索。检索结果统一归一化为包含语义类别、置信度、视觉证据与全局坐标系3D位姿的标准格式,可直接输入导航栈或运动规划器。
基于通用评判模型的闭环反馈
为应对执行不确定性,系统配备评判模块,以通用奖励模型实例化,接收任务指令与当前观测,输出标量进度信号。该信号驱动三类决策:达标则标记完成并推进;有进展则局部微调(调整目标位姿、更新视角、重试短序列);停滞或倒退则触发重规划,可能调用共享记忆重新查询。
执行轨迹与评判分数记录为结构化经验,反馈至运行时,形成从执行到评估再到未来决策的闭环。
二、工程实现

系统采用三层解耦设计:
OpenClaw层:负责人机交互与高层决策,将自然语言指令解析为结构化任务表示,输出可复现、可追溯的可执行Python脚本
共享服务层:托管计算密集且可复用的感知(YOLO-World)、抓取感知(AnyGrasp)、空间记忆、任务评估等模块,支持VLA、VLN、WAM等高级模型通过标准化接口接入
机器人层:通过ROS/ROS2与具体硬件平台对接,隔离驱动、传感器与底层控制,保持上层接口稳定
该架构允许各模块独立演进,新本体通过能力描述注册即可接入,新模型通过服务扩展即可集成,无需修改控制逻辑或调度框架。
三、实验验证
系统在三种异构平台上完成端到端测试:Agilex Piper机械臂、Unitree G1人形机器人、Unitree Go2四足机器人。
机械臂平台
部分可观测场景下的交互式搜索

模糊语义指令下的操作

人形机器人平台
用户希望查询四足机器人的状态,但由于四足机器人已断开服务连接,系统无法直接访问目标设备。面对这一情况,ABot-Claw没有中止任务,而是通过共享记忆检索四足机器人最近的位置,并自主调度人形机器人前往现场查看。随后,人形机器人完成导航、观察,并将四足机器人的状态反馈给用户。该实验展示了ABot-Claw在机器人失联情况下,依然能够借助记忆检索与跨本体调度机制,自主完成任务闭环,体现了系统在开放环境中的鲁棒性与协同能力。

四足机器人平台
用户指令是接待访客并引导其前往对应会议室。针对这一任务,ABot-Claw自主选择四足机器人作为执行主体,控制其前往电梯区域搜索并调用人脸识别服务识别到达的访客,在检测到目标后调用几何记忆寻找目标会议室,规划路径并完成引导。

四、结语
ABot-Claw的核心贡献在于工程架构层面的系统性整合:将OpenClaw从软件任务编排扩展至真实世界具身操作,通过异构本体抽象、持久视觉记忆与在线评判反馈的紧耦合,实现高层认知决策与低层物理执行的统一。
该框架为构建真正自主的通用机器人系统提供了可扩展的工程范式,指向一条务实路径:通过架构创新有效组织现有的感知、推理与控制能力,在开放环境中实现持续进化。
项目技术报告与实现细节已公开

END

夜雨聆风