操控桌面软件,AI 终于不用调 API 了:纯视觉方案,数据不离本地
调API?开权限?
AI操控电脑
终于不用调API了!
纯视觉方案 · 数据不离本地 · OSWorld 全球第一
京择 AGI · Mano-P
📦 4 Parts + Last
👉 滑动
PART 01
痛点
桌面软件操控难题
PART 02
方案
Mano-P 纯视觉思路
PART 03
优势
本地运行数据不离设备
PART 04
战绩
OSWorld 全球第一
LAST ///
写在最后
OUTRO
操控浏览器这件事,方案已经很成熟了。CDP、Playwright,随便挑一个都能把网页自动化安排得明明白白。
但是操控电脑上的桌面软件——我一直没找到好的方案。
桌面应用没有统一协议可以调,没有 DOM 可以解析,不同软件的界面结构完全不一样。想让 AI 帮你操作桌面应用?基本上等于干瞪眼。
痛点:云端方案要上传截图,隐私不过关;浏览器方案覆盖不到桌面软件;Accessibility API 依赖系统权限,兼容性差
Mano-P是明略科技开源的一个 GUI-VLA 智能体模型。说白了,就是一个能看懂你电脑屏幕、自己动手操作桌面上任何软件的 AI。
它不依赖 CDP 协议,不依赖 HTML 解析,也不需要你开什么系统权限。模型直接看屏幕截图,理解画面上有什么,然后决定该怎么操作。
“Mano 这个名字来自西班牙语的「手」,P 有两层意思:Person 和 Party。”
“意思就是无论个人还是组织,都能用它创建自己的个性化 AI。”
桌面软件、网页、3D 应用、专业工具——只要有图形界面就能操作。这和那些只能操控浏览器的方案相比,覆盖面大了不止一个量级。
本地模式下,所有截图和任务数据完全不出你的设备。不需要联网,不需要调 API,断网也能跑。
4B 量化模型在 Apple M4 Pro 上的表现:截图理解 3.2 张/秒,内存占用 2.1GB,CPU 占用稳定在 18%。4.3GB,一台普通 M4 MacBook 就能跑起来,不需要什么高端工作站。
企业用户最关心的事:业务数据、客户信息、操作记录全部留在本地,不存在数据泄露的风险。那些吹”AI 控制电脑”但非要云端上传截图的方案,在它面前有点尴尬。
Mano-P 不是简单的看到什么点什么。它的工作流程是:先思考当前画面该做什么,然后执行操作,再验证操作结果是否正确。如果发现不对,它会自己纠错重新来。这种闭环机制让它在复杂的长任务中也能保持稳定性。
OSWorld 专项榜单
58.2%
72B 模型成功率
+13.2%
比第二名高出
13
全球多模态榜单 SOTA
Arena 官方评价:「相较 V3.2 的重大飞跃。」上一代 V3.2 思考模式 1425 分,已经跌落至综合榜单的第 63 名。V4-Pro 目前第 20 名。
打麻将那段视频我看了好一会儿。屏幕截图进去,模型自己判断该点哪、该拖哪,几十步的长流程,中间出错了还能自己纠错重新来。
不夸张地说,这是目前我见过的最接近”让 AI 帮你用电脑”的方案之一。
纯视觉 + 全程本地 + 断网也能跑不调 API,不开权限,数据不出设备
开源地址我放留言区,有兴趣的朋友可以去跑一下试试。
满意就三连支持一下 👏
本文素材来源:GitHub · Mano-P 开源项目
京择 AGI 智能体
夜雨聆风