爆肝2天!搓了个Agent�� App,语音唤醒,还能视频通话,已免费开源~-夜雨聆风

爆肝2天!搓了个Agent�� App,语音唤醒,还能视频通话,已免费开源~

大家好，我是袋鼠帝。

目前市面上大部分的龙虾都是通过打字去交互，即便能语音，那也需要用手按住说话。如果你想彻底解放双手，像唤起Siri一样随时呼叫龙虾干活，还能给龙虾打视频，那么这篇文章一定不要错过～

把龙虾（OpenClaw）做成钢铁侠里的贾维斯，会是一种什么体验？

比如这种随时待命的语音唤醒（只有叫龙虾，才会回复我）

已关注

关注

重播分享赞

视频详情

还能跟它打视频

已关注

关注

重播分享赞

视频详情

PS：我Mac上的龙虾刚装上，还没有装skill，就先不给大家展示太复杂的任务啦，但是如果你觉得这玩意儿跟豆包没区别就大错特错了

最近我一直在琢磨一个事儿：

虽然我在我的MacMini上部署了龙虾，但我在日常生活里使唤它的频率还是不够高。原因很简单，虽然已经接入了各种IM，但是入口还是麻烦。

我特别需要随时随都能跟它交流、给它派活，最好是类似小爱同学的语音唤起，口喷需求，彻底解放双手（让我在打游戏的时候都能给它派活），这样我的龙虾才能更快速进化。

不过，我找了一圈，实在没找到一套好用、成熟、又方便的多模态交互方案。

既然没有，那我就自己做一个！

于是，我决定搓一个手机 App，名字就叫 MobileClaw。

它有点像豆包，但跟豆包有两个本质的差异：

第一，MobileClaw 接入的是我本地的龙虾，功能可以高度定制化，还可以切换任意模型使用（以后还可以切换成 Claude Code、Codex 等等）。

第二，它不仅能看到摄像头的内容，还支持语音实时唤醒。我可以像叫 Siri 一样随时随地使唤它。

别再说跟豆包没区别了，区别大了，不过缺点是没有豆包响应快

没想到，折腾了2天，还真给我做成了！

最终的效果，是相当的 nice（见开头录屏）。

目前这个MobileClaw App我已经开源了，感兴趣，想玩的朋友可以自取～

https://github.com/kangarooking/mobileclaw

如果觉得有用，可以帮忙点个Star

一、为什么是手机和语音视觉唤醒？

因为手机是我们每天触达率最高的硬件。

语音唤醒发任务，不仅能避免误触，还能彻底解放双手：

不管我是在敲键盘写文章、打 LOL、还是在厨房洗碗，只要我突然冒出一个需求，随时随地吼一嗓子：龙虾，帮我查一下今天的AI热点资讯，它就能直接在后台开干。

而且光有耳朵和嘴巴还不够，必须得给龙虾加上眼睛。

当我的龙虾具备识别当前物理世界环境的能力后，我跟它的沟通会更加方便，它也会更加了解我的所处环境，进而更懂我。

说白了，这个工具的第一阶段目标很简单：打造一个带眼睛的龙虾对讲机。

二、模型选择

龙虾模型选哪个呢？

目前要兼顾顶级的代码能力、Agent 执行能力，同时还必须支持强大的多模态视觉识别，国内原本能打的是前不久刚出的豆包2.0和 Kimi-K2.5

但我发现，智谱最近更新了一个模型，而且是专门针对龙虾和多模态编程环境深度训练过的专用基座模型：GLM-5V-Turbo

由于是Coding Plan的Max会员，又是个小破博主，所以我幸运的提前拿到了内测资格

终于，智谱的旗舰模型带视觉能力啦！！

我看了一下它的参数和性能跑分，这玩意儿有点猛啊

不仅在逻辑推理和工具调用上稳如老狗，而且从预训练阶段就深度融合了视觉能力，真正做到了看得懂画面、写得好代码、控得了龙虾。

文章开头大家看到的那个丝滑的多模态交互效果，背后就是靠接入 GLM-5V-Turbo 的龙虾完成的。不得不说，确实有东西。

甚至 MobileClaw 这个 App 项目本身，都是我用 Claude Code 配合 GLM-5V-Turbo 开发的。

三、过程实录：一图胜千言

虽然 GLM-5V-Turbo 的代码能力很强，但由于我完全没搞过 iOS 和安卓的原生开发，整个折腾的过程还是踩了不少坑，花费了挺多时间的。

接下来，我想给大家分享一下这次曲折的开发过程，希望对大家有所帮助。

整个开发流程我使用的是，接入 GLM-5V-Turbo 的 Claude Code （下文简称 cc）。

这里我用到的是cc-switch来帮我一键切换模型

首先，还是老方法，我大致整理了一下我的核心需求，然后给 cc 开启了 Plan 模式，把需求一股脑甩了过去。

cc 上网查阅了大量的移动端开发文档后，给我列出了一个非常详细的跨平台开发方案和架构计划。

当然，这个过程中它会像个真实的产品经理一样，抛出几个问题让我确认。

然后，前期开发流程的主角登场了，也就是我之前开源的skill：Task-Harness。

https://clawhub.ai/kangarooking/task-harness

在 Harness Engineering这个概念还没真正火起来的时候，我就已经把它开源了。专门用来解决 AI 执行长任务时容易跑偏或者遗忘上下文的问题。

是我在之前的一篇文章里开源的，当时我是把它交给龙虾使用，让龙虾做监工，去监督 Claude Code 自动完成复杂的长任务（感兴趣的朋友可以看看下面这篇）。

让龙虾当监工，监督cc干活儿

袋鼠帝，公众号：袋鼠帝AI客栈全球首款龙虾模型上线！Agent这波直接起飞了～（夹带干货）

Task-Harness Skill有两个优点：

一个是可以在获得授权后，自动帮我在 GitHub 创建仓库并初始化环境；

另一个是能把庞大的长任务拆分成无数个极小的独立任务，并使用 JSON 文件来精准管理任务进度。

每完成一个小任务，它会自己跑测试验证，验证成功后自动提交 Git。

整个开发流程一清二楚：

然后靠着glm-5v-turbo顺利完成了前期的开发、测试工作

不过这次开发 MobileClaw，代码本身并不是耗时最久的，坑最多的是环境配置（我是先做的iOS）。

比如怎么把写好的代码顺利编译进 iPhone 真机里去调试？

glm-5v-turbo给我的建议是使用xcode，但是我的Mac有点旧版本不支持最新的xcode，它又帮我去找适配的旧版本xcode安装。

还有苹果那个让人头疼的开发者账号，我一开始使用的是国区的AppId，跟我说没有开发者资格？… 没法跟xcode连接。

后面换成了我的美区AppId才成功

本来我想交 99 美元的开发者账号年费，它死活就是不给我消费…服了

总之在编译和真机调试这个问题上，我耗费了大量的时间。

不过，在这个极其痛苦的排错过程中，GLM-5V-Turbo 的原生视觉能力优势被展现得淋漓尽致。

它看到画面后，会直接教我怎么操作xcode

遇到 Xcode 里那些极其反人类的配置界面、不知所云的弹窗报错（报错甚至没法复制…）。我只需要截个图，ctrl + v 直接丢进cc的对话框里glm-5v-turbo，就能准确识别并解决问题。

真的是一图胜千言～

最终，在glm-5v-turbo的手把手视觉指导下，我终于是成功把 MobileClaw 安装到了我的手机上。

这里还有一个坑需要注意：我的龙虾和cc 开发的代码都是在我本地电脑上跑的，在开发阶段它们通过本地地址（127.0.0.1）就能顺利通信。

但当 MobileClaw 安装到手机里时，它们变成了局域网通信（同一个WiFi）。

这时候需要去检查防火墙，并开通双方的网络访问权限，否则连不上。

在解决了一堆环境、网络、配置的破事，以及真机调试发现的部分Bug后，我的需求终于落地了。

其实一开始，这 App 长得特别狂野，纯纯的程序员直男审美。

后来经过 GLM-5V-Turbo 的两轮视觉重构和样式调整，页面才逐渐变得美观起来。

四、架构揭秘与多模态流转逻辑

给大家简单拆解一下这个 App 的工作原理。

App跟openclaw的交互是通过websocket连接。

语音这块，我接入的是豆包的 ASR（语音转文字）和 TTS（文字转语音）接口，响应极快。

然后有唤醒词匹配逻辑，比如唤醒词设置”龙虾”，只有我说：”龙虾，帮我xxxxx”，它才会把任务发送给OpenClaw。就跟用Siri，用小爱同学的方式一样。

视频这块的逻辑，我是这么设计的：

从用户说出唤醒词开始，到语音指令结束，系统会在后台获取这段时间内的视频流。

但我不是把每一帧画面都传给大模型，那样太费钱也太慢了。我做了一个抽帧处理，只获取间隔连贯的几张关键帧，最多保留 7 帧（这个数量可以自定义）。

然后，我内置了一个速度极快的免费云端小模型（智谱的GLM-4.7-Flash），专门用来做前置的意图识别。

如果用户刚才说的话里包含了看一眼、这是什么、分析一下屏幕等明显的视觉识别意图，App 就会把这 6 帧图片连同语音转好的文本，一起打包传给后端的龙虾（也就是 GLM-5V-Turbo）。

如果用户的指令只是一句帮我设个闹钟，意图小模型判断不需要视觉辅助，就不传图片，直接释放掉内存里的那些关键帧。

这种按需调用的机制，可以极大节省带宽和算力成本。

已关注

关注

重播分享赞

视频详情

这种多模态的实时交互体验，太科幻了。

特别是以后，我进入对话模式，它可以一直监听我的输入，不管我在开车，还是在打游戏，还是在躺着，我都可以直接呼叫：”龙虾！帮我xxxxx”，真爽～

而且我发现glm-5v-turbo真的成为了我的龙虾首选模型：

过去的国产大模型往往有些偏科，代码厉害的看不懂图，看图厉害的代码又不太行。智谱在 5V 上确实把这两点平衡得非常好，这让它在视觉编程和一些视觉拓展的玩法上，能带来特别多新鲜有趣的体验。

甚至用MobileClaw App，还能直接开摄像头提问，贼方便。

「最后」

折腾这个项目的过程中，我发现了久违的创造的乐趣，它让我感到非常兴奋。

当这个能看、能听、会说的贾维斯🦞真正跑通的那一刻，那种成就感油然而生，非常爽。

现在，我终于可以一边操作卡兹克在LOL的大乱斗里疯狂K头，一边呼叫旁边的手机唤醒龙虾，去帮我找今天的爆款选题，写成文章，排版，并发布到公众号草稿箱，做好了叫我，我来审阅。

就有点像钢铁侠里面的贾维斯一样。

虽然目前这个 App 的功能还不够完善，部分功能还很粗糙。

但底座已经搭好了，后续我还会不断优化，让它变得更顺手，哦不顺嘴～

当我们把 AI 从冰冷的服务器终端解放出来，装进我们每天随身携带的手机里，再赋予它眼睛、耳朵、嘴巴，随时随地唤醒。

我觉得这才是 Agent 真正走向个人普及的必经之路。

我也非常期待脑机接口普及的那一天，让心之所向真正化作意之所达。

我是袋鼠帝，一个致力于帮你把AI变成生产力的博主。我们下期见～

能看到这里的都是凤毛麟角的存在！

如果觉得不错，随手点个赞、在看、转发三连吧~

如果想第一时间收到推送，也可以给我个星标⭐

谢谢你耐心看完我的文章~