手机版openclawd来了,无需Root,让 AI 像人类一样使用你的手机

之前给大家分享过不少手机自动化工具，最近又挖到一个有点意思的——Andclaw。

一句话说清楚：它能让AI像人一样操作你的手机，做完任务还知道停下来。

不用Root，不用连电脑，手机上装个App就能用。

项目简介

Andclaw 是由个人开发者开源的一个Android自动化工具，核心理念是"让AI像人类一样使用你的手机"。

它是完全在设备上运行的，不需要Root权限，也不需要连接电脑。通过无障碍服务（Accessibility Service）读取屏幕内容，然后让AI分析界面、决定操作步骤、自动执行。

让 AI 像人类一样使用你的手机 —— 完全在设备上运行，无需 Root，无需电脑。

能做什么？

举几个官方文档里的例子：

"打开bilibili，搜索AI学习相关的视频，并播放" → AI会自己识别B站图标 → 点击 → 进入搜索页 → 输入"AI学习" → 点击搜索 → 选择视频 → 播放

你只要动动嘴，或者打打字，AI就去帮你操作了。

跟其他工具对比

方案	需要Root	需要电脑	独立运行	AI驱动
Andclaw	❌	❌	✅	✅
Auto.js	❌	❌	✅	❌
ADB+Python	❌	❌	❌	可选
Frida+脚本	❌	❌	❌	❌
Appium	❌	❌	❌	可选
UI Automator	❌	❌	❌	❌

Andclaw的核心优势：完全在设备上运行 + 大模型决策 + 自然语言交互。

主要功能

1. 无需Root

纯无障碍服务（Accessibility Service）实现，不依赖系统权限。不用天天刷什么Magisk、KernelSU那些破事。

2. 独立运行

完全在手机上独立运行，无需ADB或PC端配合。躺床上玩手机也能指挥它干活。

3. AI驱动

支持Kimi（月之暗面，国内直接能访问）和任意OpenAI兼容API。AI会自己分析屏幕内容，决定下一步该干嘛。

4. 屏幕感知

实时读取UI层次结构（通过无障碍服务）
浏览器/WebView场景自动截图，辅助视觉分析

这个挺重要的，因为有些App的界面无障碍服务读不出来，AI会自己截图看。

5. 拟人操作

官方文档里列出的操作类型：

click - 点击屏幕坐标(x,y)
swipe - 滑动（滚动、翻页），支持自定义时长
long_press - 长按，支持自定义时长
text_input - 向输入框注入文本（先尝试SET_TEXT，失败则用剪贴板粘贴）
intent - 启动应用、打开网页、拨号、发短信、设闹钟等系统Intent
global_action - 系统级操作：返回、Home、最近任务、通知栏、快捷设置
screenshot - 截图，保存到 Pictures/Andclaw/
download - 通过DownloadManager直接下载文件（不用先打开浏览器）
wait - 等待页面加载，最长10秒
camera - 拍照、开始录像、停止录像
screen_record - 录屏，保存到 Movies/Andclaw/
volume - 音量控制：设置、调高/调低、静音/取消静音、查询当前音量
dpm - Device Owner模式专用：应用管理、设备控制等
finish - 任务完成，停止Agent

关键是有循环检测功能：同一个操作连续做5次？AI会截图用视觉重试，最多3轮，15次后还没进展就自动停下了。不会死命点同一个地方点个几十次。

6. Telegram远程控制

人在外面也能用。通过Telegram Bot远程下发指令，截图、拍照、录像完成后会自动发到Telegram。

常用操作：

直接发文字 → 作为指令下发给Agent执行
/status → 查询Agent状态（运行中/空闲、当前任务、Chat ID）
/stop → 停止当前正在执行的任务

7. 企业级管控（可选）

如果愿意折腾，启用Device Owner模式可以更强。但注意：Android安全限制，设备必须先恢复出厂设置才能启用Device Owner模式。

不启用的话，AI操作手机的权限会大幅受限。

启用后的能力：

应用管理：静默安装/卸载应用、隐藏/显示/挂起应用、阻止卸载、自动授予权限、查询已安装应用列表
设备控制：远程锁屏、重启、恢复出厂设置、禁用摄像头/状态栏/锁屏、USB数据传输控制、定位开关
Kiosk模式：单应用锁定（Lock Task）、替换默认桌面、禁止安全模式/恢复出厂

详细能力清单看GitHub上的 ACTIONS.md。

AI是怎么干活的？

下面是流程图：

用户指令    ↓[1.5s] → 捕获屏幕 UI 树（无障碍服务）    ↓浏览器/WebView？──是──→ 自动截图（视觉分析辅助）    ↓发送给 LLM（系统提示 + 最近 12 条历史 + 屏幕数据 [+ 截图]）    ↓AI 返回 JSON 操作决策    ↓解析失败？──是──→ 纠正提示重试（1 次）    ↓执行操作（点击/滑动/输入/Intent/DPM/拍照/录屏/...）    ↓[2.5s] → 重新捕获屏幕  ←──────────────┐    ↓                                   │循环检测（同一操作连续 5 次？）             │    ↓是→ 截图 + 视觉重试（最多 3 轮，15 次后停止）    ↓否任务完成？──否→ 继续循环    ↓是 → 结束

简单说就是：AI看屏幕 → 思考下一步 → 执行操作 → 看看效果 → 继续还是停下。形成闭环，不用你盯着。

支持的AI模型

官方文档里写的：

提供商	API格式	配置示例
Kimi	Anthropic Messages	Base URL: `https://www.kimi.com/code/console`，Model: `kimi-k2.5`
OpenAI兼容	OpenAI Chat Completions	Base URL: `https://api.openai.com/v1`，Model: `gpt-4o`

两个都支持多模态输入（文本 + 截图base64），可以携带图片。

环境要求

Android 12 (API 31) 或更高
需要在设置里手动启用无障碍服务
需要悬浮窗权限（显示紧急停止按钮）
需要自己准备API Key（Kimi或OpenAI兼容）

安装方式

最简单的（推荐）：用Chrome浏览器访问 andclaw.app/#/install，按提示走就行。

想自己编译的：

git clone https://github.com/andforce/Andclaw.git
创建 local.properties，配 kimi_key 和 tg_token（可选）
./gradlew :app:installDebug
打开App，按提示开无障碍服务和悬浮窗权限
可选：通过ADB激活Device Owner（adb shell dpm set-device-owner com.andforce.andclaw/.DeviceAdminReceiver）

其他一些信息

许可证：MIT（开源）
技术栈：Java 89.4%、Kotlin 7.8%、TypeScript 2.2%
致谢：TestDPC（Device Owner功能参考）、Kimi API

项目地址：https://github.com/andforce/Andclaw官网：https://andclaw.app

扫码加入技术交流群，备注「开发语言-城市-昵称」

合作请注明

如果你觉得这篇文章不错，别忘了点赞、在看、转发给更多需要的小伙伴哦！我们下期再见！