即将开源:手搓50元小车,实现OpenClaw控制的视觉语言导航-夜雨聆风

即将开源:手搓50元小车,实现OpenClaw控制的视觉语言导航

演示视频

一台 Android 手机 + ESP32 底盘 + AutoDL GPU，完整跑通”语音 → 视觉感知 → VLA 导航”端到端链路。视频里展示了 ahbot 当前 P1.5 阶段的实测效果。

即将逐步开源，地址见文末！！

这是什么

ahbot 把四类成熟开源模块粘合成一台能听懂中文的导航机器人：

角色	用什么	解决什么
大脑（决策）	OpenClaw + qwen-turbo	听用户说什么、调用工具、自然语言回复
视觉导航	OmniVLA	image / language / GPS goal → v / ω
视觉感知	YOLO-World v2	开放词表物体检测（”水瓶”、”红色椅子”）
实时控制	Android + ESP32	WebRTC 拉视频 + BLE 50/100Hz PID

整个系统通过一组强边界把这些模块组织在一起：LLM 不进控制环、Bridge 不调 LLM、Plugin 不写业务逻辑、ESP32 不联网。详细原则见 AGENTS.md。

一句话演示

用户：去最近那把椅子   ↓OpenClaw：好的，去最近的椅子   ↓ ahbot_set_goal_from_object(object="chair", position_hint="closest")   ↓ ahbot_nav_start(goal_kind="goal_image", goal_image_id=...)   ↓机器人：自动检测 → 选最大 bbox → 切目标图 → OmniVLA 导航 → 到达

三种导航模式

Goal kind	用法	例子
`language`	给 OmniVLA 一句英文	“Move to chair”
`gps_route`	已知 GPS 路点	route_id + waypoints
`goal_image`	给一张目标图	通常由 `set_goal_from_object` 自动生成

系统架构

部署拓扑

协议矩阵

边	协议	频率	用途
用户 ↔ OpenClaw	飞书 webhook（已接入）	对话级	自然语言交互
OpenClaw → plugin	进程内 tool call	秒级	调 5+ 个工具
plugin → Bridge	HTTP 127.0.0.1	秒级	透传参数
Bridge → Edge	HTTP 127.0.0.1	秒级	控制面命令
Edge ↔ Worker	reverse gRPC	1–5 Hz	推理（worker 主动出站）
Edge ↔ App	WebRTC + DataChannel	30 fps + 事件	视频流 + 控制信令
App → ESP32	BLE GATT	50 Hz	v / ω 实时控制

底盘核心硬件

电机驱动模块：L298N
电机：N20 带编码器电机
主控板：ESP32-C3

路线图

详见 docs/ROADMAP.md。

参考与启发

ahbot 在设计阶段研读过四个走”让大模型当机器人主脑”路线的兄弟项目。它们提供了非常有价值的设计样本，但都验证了同一件事：让 OpenClaw 看图后自主拆解多步任务，目前还达不到生产可用。

项目	出品方	核心设想	ahbot 借鉴	未沿用的原因
ABot-Claw	高德 AMAP CV Lab	OpenClaw + VLAC (Vision-Language-Action-Critic) loop，多模态记忆驱动 multi-agent	工程分层：robot / service / openclaw 三段切分	VLAC 闭环未达稳定生产；ahbot 取消 critic / mission-orchestrator
Tidybot-Universe	Tidybot Services	Composable skill 库 + Claude Code 驱动 pick/place/clean 任务链	“skill 化”思想，用于 OpenClaw workspace 的 SKILL.md 体系	多步技能链对幻觉敏感；ahbot 收敛到单 tool round-trip
RoboClaw	SJTU MINT Lab	沿 OpenClaw 路线的开源 embodied 助手（CLI + Mobile）	极薄 plugin + 命令行驱动的开发体验	早期阶段，端到端未跑通；ahbot 限定 P1 范围更死
dimos	dimensionalOS	The Agentive Operating System for Physical Space，CLI + MCP + Blueprints	CLIP-based 空间记忆思路（保留到 P2）	系统较重，超出 P1 单兵作战的工程预算

详细的借鉴点：

ABot-Claw — 高德 AMAP CV Lab 出品。提出 VLAC (Vision-Language-Action-Critic) 闭环 + 多模态记忆驱动的 multi-agent embodied 框架。
Tidybot-Universe — Tidybot Services 出品。提倡把机器人能力拆成 composable skill 库，用 Claude Code 驱动 pick / place / clean 任务链。
RoboClaw — SJTU MINT Lab 出品。沿 OpenClaw 路线的开源 embodied intelligence assistant，覆盖 CLI 与 Mobile 入口。
dimos — dimensionalOS 出品。定位 “The Agentive Operating System for Physical Space”，提供 CLI + MCP + Blueprints + CLIP 空间记忆等基础设施。

Vibe Coding 指南

本项目的代码 100% 由 AI 协作产出（主力：claude-opus-4.7、gpt-5.4-codex、composer-2，辅以人类 reviewer 把关方向）。仓库里所有规则、SKILL、DECISION 都是为”AI + 人类”双驾驶架构设计的。如果你打算用 Cursor / Claude Code / Codex / Aider 等工具继续开发本项目，下面的指令请直接读完再动手。

给 AI 协作者的硬规则如下：

AGENTS.md — 项目根规则。§3 强制边界和 §4 性能契约违反一条，就别提 PR
docs/CURRENT_PHASE.md — 确认你想做的事在当前阶段范围内（P1.5 = 语音导航 + YOLO 视觉感知）
docs/ARCHITECTURE.md — 八层分层和职责
docs/DECISIONS.md — 历史已决议过的方向。不要重新发明已经否决的方案
改哪一层就读哪一层的局部规则： – 改 Bridge / plugin → docs/BRIDGE_API_V1.md – 改 OpenClaw 行为 → integrations/openclaw/workspace/AGENTS.md + docs/SKILL_AUTHORING.md – 改部署脚本 → docs/deployment/{alicloud,autodl}.md –

License

Apache License 2.0

鸣谢

直接依赖

OmniVLA — Hirose, Glossop, Shah, Levine. OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation. ICRA 2026. arXiv:2509.19480
YOLO-World — 开放词表目标检测
OpenClaw — Personal AI assistant，Agent runtime 灵感来源
阿里云 / 百炼 — qwen-turbo LLM
AutoDL — GPU 算力

开源地址：

https://github.com/ahrs365/ahbot-vla