即将开源:手搓50元小车,实现OpenClaw控制的视觉语言导航
演示视频
一台 Android 手机 + ESP32 底盘 + AutoDL GPU,完整跑通”语音 → 视觉感知 → VLA 导航”端到端链路。视频里展示了 ahbot 当前 P1.5 阶段的实测效果。
即将逐步开源,地址见文末!!
这是什么

ahbot 把四类成熟开源模块粘合成一台能听懂中文的导航机器人:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
整个系统通过一组强边界把这些模块组织在一起:LLM 不进控制环、Bridge 不调 LLM、Plugin 不写业务逻辑、ESP32 不联网。详细原则见 AGENTS.md。
一句话演示
用户:去最近那把椅子 ↓OpenClaw:好的,去最近的椅子 ↓ ahbot_set_goal_from_object(object="chair", position_hint="closest") ↓ ahbot_nav_start(goal_kind="goal_image", goal_image_id=...) ↓机器人:自动检测 → 选最大 bbox → 切目标图 → OmniVLA 导航 → 到达
三种导航模式
|
|
|
|
|---|---|---|
language |
|
|
gps_route |
|
|
goal_image |
|
set_goal_from_object 自动生成 |
系统架构
部署拓扑

协议矩阵
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
底盘核心硬件
-
电机驱动模块:L298N -
电机:N20 带编码器电机 -
主控板:ESP32-C3
路线图

详见 docs/ROADMAP.md。
参考与启发
ahbot 在设计阶段研读过四个走”让大模型当机器人主脑”路线的兄弟项目。它们提供了非常有价值的设计样本,但都验证了同一件事:让 OpenClaw 看图后自主拆解多步任务,目前还达不到生产可用。
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
详细的借鉴点:
-
ABot-Claw — 高德 AMAP CV Lab 出品。提出 VLAC (Vision-Language-Action-Critic) 闭环 + 多模态记忆驱动的 multi-agent embodied 框架。 -
Tidybot-Universe — Tidybot Services 出品。提倡把机器人能力拆成 composable skill 库,用 Claude Code 驱动 pick / place / clean 任务链。 -
RoboClaw — SJTU MINT Lab 出品。沿 OpenClaw 路线的开源 embodied intelligence assistant,覆盖 CLI 与 Mobile 入口。 -
dimos — dimensionalOS 出品。定位 “The Agentive Operating System for Physical Space”,提供 CLI + MCP + Blueprints + CLIP 空间记忆等基础设施。
Vibe Coding 指南
本项目的代码 100% 由 AI 协作产出(主力:
claude-opus-4.7、gpt-5.4-codex、composer-2,辅以人类 reviewer 把关方向)。仓库里所有规则、SKILL、DECISION 都是为”AI + 人类”双驾驶架构设计的。 如果你打算用 Cursor / Claude Code / Codex / Aider 等工具继续开发本项目,下面的指令请直接读完再动手。
给 AI 协作者的硬规则如下:
-
AGENTS.md— 项目根规则。§3 强制边界和 §4 性能契约违反一条,就别提 PR -
docs/CURRENT_PHASE.md— 确认你想做的事在当前阶段范围内(P1.5 = 语音导航 + YOLO 视觉感知) -
docs/ARCHITECTURE.md— 八层分层和职责 -
docs/DECISIONS.md— 历史已决议过的方向。不要重新发明已经否决的方案 -
改哪一层就读哪一层的局部规则: – 改 Bridge / plugin → docs/BRIDGE_API_V1.md– 改 OpenClaw 行为 →integrations/openclaw/workspace/AGENTS.md+docs/SKILL_AUTHORING.md– 改部署脚本 →docs/deployment/{alicloud,autodl}.md–
License
Apache License 2.0
鸣谢
直接依赖
-
OmniVLA — Hirose, Glossop, Shah, Levine. OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation. ICRA 2026. arXiv:2509.19480 -
YOLO-World — 开放词表目标检测 -
OpenClaw — Personal AI assistant,Agent runtime 灵感来源 -
阿里云 / 百炼 — qwen-turbo LLM -
AutoDL — GPU 算力
开源地址:
https://github.com/ahrs365/ahbot-vla
夜雨聆风