有点意思。昨天中午在一个 OpenClaw 的饭局上,有个哥们提到手机版的 OpenClaw,这概念还挺新鲜的。
我花时间研究了下,今天写写。
给不太了解的朋友解释两句。OpenClaw 可以模拟用户的真实行为来操作浏览器,这套方案在 PC 端已经相对成熟了,最近 Chrome 也更新了版本来进一步支持这种玩法。

但手机上我们操作浏览器意义不大,因为手机端有各种各样的 App,订外卖、打车、买票,这些干活的场景都在 App 里。
所以如果能直接操作 App,那就是一次大的突破。之前豆包手机火,也是这个原因。
手机版的 OpenClaw 到底是什么?
我当时看到后第一反应是,这不就跟之前的豆包手机差不多吗?

后来打开一看,才理解了怎么回事。
它和豆包手机的关键区别在于执行环境。豆包手机走的是端侧路线,直接接管我们手上这台实体手机来执行操作。
这就意味着它必须跟厂商合作,拿到系统层面的授权。
但 RedClaw 选择了另一条路。它操作的是云端的一台虚拟安卓,不会接管我们本地的手机。
说白了,打开这个应用之后,它会在云端给我们分配一台手机。就有点像现在 OpenClaw 在云端给我们开一台电脑,理念是一模一样的。

云端有一台安卓手机,我们在本地手机上下指令,云端通过截图或者画面流把界面推回来,然后基于 VLA 模型来理解手机界面,把点击、滑动、输入这些动作注入云端那台手机。
涉及账号登录、支付确认这些敏感步骤的时候,可以切换成用户接管,让用户自己来操作。
举个例子,这么空说不好理解。
我告诉 RedClaw,帮我去爱奇艺上搜索预约一下《飞驰人生 3》。可以看到,理解了任务之后,它会像人一样,推理出正确的操作步骤。

任务过程中,RedClaw 发现我没有装爱奇艺 App,然后它说:未找到爱奇艺应用,需要去应用市场搜索安装。接着它就先去应用市场帮我搜索去了。

找到爱奇艺应用后,它开始安装。右下角有个查看截图的链接,点击可以看到每个步骤的具体截图。

下载安装完成后,他就会去主屏幕上识别并点击爱奇艺图标,打开后在顶部搜索框中输入《飞驰人生 3》。

紧接着它会点击预约,这一步就需要登录爱奇艺了。所以它会弹出“接管手机”的窗口,我们点击接管,登录自己的账号后,就会显示预约成功了,视频如下:
我们想要看它是怎么操作云手机的,可以点击界面右上角的预览,然后我们就能暗中观察 RedClaw 了,视频如下:
整个任务的执行过程还是蛮顺畅的。我以为 AI 会来回找按钮,结果人家可以一步到位。
手机版 OpenClaw 的原理

最底下是云计算层,相当于地基。
这一层基于百度的 ARM 云服务,在云端服务器上虚拟出一台安卓手机,跟我们手上的真机一样,能装 App、能联网、能操作,只不过它跑在云上。
而且它能同时跑很多台,每个用户分配一台,彼此隔离互不干扰。说到这里,也就能理解为什么这个产品是百度智能云团队做的。
中间是 AI 模型层,相当于大脑。这里用的是 VLA 多模态大模型,VLA 是 Vision-Language-Action 的缩写,视觉、语言、行动三合一。
它能听懂我们说的话,看懂手机屏幕上的内容,然后规划出该怎么一步步操作。
最上面是执行操作层,相当于双手。大脑想好了怎么做,得有人去执行。
这一层是通过 MCP 和 ADB 来实现的。
MCP 就是标准化的控制接口,去年的时候很火,它把屏幕操作、应用管理、文本输入这些能力全部封装成工具,方便 AI 调用。
ADB 则是安卓的调试通道,负责把点击、滑动、安装卸载这些动作真正注入到云端手机里。
整体看,三层串起来是这样的:
我们在本地手机上用自然语言下任务,任务发到云端大脑,大脑理解之后规划操作步骤。
双手在云端手机上执行,执行完把画面推回来,大脑看一眼再判断下一步该干嘛。
这个循环一直转,直到任务完成。涉及账号登录、支付确认这些敏感步骤,系统会提示用户接管,让我们自己来操作。
这条路的好处是它绕过了手机厂商,而且对用户来说足够简单。
你想,豆包手机那个方案,必须得厂商配合,必须得系统层面给授权。
但 RedClaw 就不一样。它在用户手机上就是一个普通的 App,点开之后连接到云端的虚拟安卓,然后让 AI 去操作那台云端手机。
用户手机只承担显示、输入、授权的角色,真正的执行发生在云端。
这意味着理论上它完全可以支持 iOS。只需要在 iOS 上上架一个能连接云端虚拟机的 App 就行了。云端跑的是安卓,用户自己用什么手机无所谓。
而且云手机里如果需要用摄像头、麦克风,它可以调用用户本地手机的硬件,通过客户端转发上去。
再看一个案例。我让它帮我订一张 3 月 23 日从北京飞深圳的机票,限定条件是要最便宜的。咱们看看它能不能找到。
和刚才的操作逻辑一样,RedClaw 还是先看我装没装订票 App,发现我没安装后,帮我下载安装了携程旅行 App。
之后按照我提出的要求选好对应的机票,就等我选乘机人付款了。
可以看到它默认用的是携程来订票。那如果我习惯用美团或者飞猪怎么办?直接告诉它就行。
但问题是,每次订票都要说一遍吗?说到这里,我立马又联想到了 OpenClaw 的现成解法:Skill 加记忆能力。
其实只要把这套思路平移到 RedClaw 这个产品上就行。
比如顺利跑完一次订票的流程后,我可以告诉它把刚才这套流程固化为一个订票 Skill。这样下次我再说订票,它就知道该打开美团了。

看电影也一样。假如我喜欢用腾讯视频。同样可以把这套流程和偏好沉淀为 Skill,或者放到长期记忆里。
熟悉 OpenClaw 的朋友应该知道,我们管这个叫养虾。你不断地跟它互动,告诉它你的偏好,它就越来越懂你。
现在在手机端,我们同样可以养,只不过是在云端的一台虚拟安卓手机里养自己的虾。
这俩逻辑确实非常像。OpenClaw 是在云端电脑里替我们操作浏览器,RedClaw 则是在云端手机里替你操作 App。入口不一样,但内核是同一套东西。
RedClaw 还支持设置定时任务,可以让它生成 AI 周报、日报或者监督、提醒我们的日常生活习惯。
最后,我又让它帮我去文心里面的团建群里,发个去北京崇礼团建的消息,让群里的文心助手接管规划。
写在最后
我发现它在云端还同步部署了一个 OpenClaw。也就是说通过这一个入口,既能用 OpenClaw 操作浏览器,也能用百度这套能力操作手机 App。电脑端和手机端的能力都齐了。
打听了一下,iOS 版本 3 月底就要上线了。云端跑的是安卓,用户自己用什么手机无所谓,这条路本来就不挑客户端。
我觉得让 Agent 操作应用这个方向是确定的。
Chrome 现在已经摆出开放的姿态,让 Agent 能够接入进来操作浏览器。Notion 的创始人说过一句话,大意是如果你的产品不能让 Agent 操作,那你的价值也就没那么大了。
当然,目前步子不可能迈很快。因为开放出来让 Agent 操作,那对于很多 App 来说,涉及到商业模式的变化。这事肯定快不了。
而且 RedClaw 这个产品,它也还有很多进步的空间。比如我感觉操作 App 的速度还是偏慢。
不过,这问题我相信随着技术的发展,肯定能解决。更大的问题可能是 App 厂商怎么看这件事,一开始新东西出来,大家难免觉得动了自己的蛋糕。
但可以确定的是,新的方式已经呼之欲出。至于各方的顾虑,浩浩荡荡的历史,谁又曾挡得住它的脚步呢?

夜雨聆风