操控桌面软件,AI 终于不用调 API 了:纯视觉方案,数据不离本地-夜雨聆风

操控桌面软件,AI 终于不用调 API 了:纯视觉方案,数据不离本地

京择说 · 开源先锋2026.05

调API？开权限？

AI操控电脑

终于不用调API了！

纯视觉方案 · 数据不离本地 · OSWorld 全球第一

🖥️

京择 AGI · Mano-P

纯视觉本地运行

📦 4 Parts + Last

👉 滑动

PART 01

痛点

桌面软件操控难题

PART 02

方案

Mano-P 纯视觉思路

PART 03

优势

本地运行数据不离设备

PART 04

战绩

OSWorld 全球第一

LAST ///

写在最后

OUTRO

PART 01|桌面软件操控，为什么一直无解？

操控浏览器这件事，方案已经很成熟了。CDP、Playwright，随便挑一个都能把网页自动化安排得明明白白。

但是操控电脑上的桌面软件——我一直没找到好的方案。

桌面应用没有统一协议可以调，没有 DOM 可以解析，不同软件的界面结构完全不一样。想让 AI 帮你操作桌面应用？基本上等于干瞪眼。

痛点：云端方案要上传截图，隐私不过关；浏览器方案覆盖不到桌面软件；Accessibility API 依赖系统权限，兼容性差

PART 02|纯视觉，像人一样操作任何软件

Mano-P是明略科技开源的一个 GUI-VLA 智能体模型。说白了，就是一个能看懂你电脑屏幕、自己动手操作桌面上任何软件的 AI。

它不依赖 CDP 协议，不依赖 HTML 解析，也不需要你开什么系统权限。模型直接看屏幕截图，理解画面上有什么，然后决定该怎么操作。

“Mano 这个名字来自西班牙语的「手」，P 有两层意思：Person 和 Party。”

“意思就是无论个人还是组织，都能用它创建自己的个性化 AI。”

桌面软件、网页、3D 应用、专业工具——只要有图形界面就能操作。这和那些只能操控浏览器的方案相比，覆盖面大了不止一个量级。

PART 03|全程本地运行，数据不离设备

本地模式下，所有截图和任务数据完全不出你的设备。不需要联网，不需要调 API，断网也能跑。

4B 量化模型在 Apple M4 Pro 上的表现：截图理解 3.2 张/秒，内存占用 2.1GB，CPU 占用稳定在 18%。4.3GB，一台普通 M4 MacBook 就能跑起来，不需要什么高端工作站。

企业用户最关心的事：业务数据、客户信息、操作记录全部留在本地，不存在数据泄露的风险。那些吹”AI 控制电脑”但非要云端上传截图的方案，在它面前有点尴尬。

Mano-P 不是简单的看到什么点什么。它的工作流程是：先思考当前画面该做什么，然后执行操作，再验证操作结果是否正确。如果发现不对，它会自己纠错重新来。这种闭环机制让它在复杂的长任务中也能保持稳定性。

PART 04|成绩单：全球 13 个榜单 SOTA

OSWorld 专项榜单

58.2%

72B 模型成功率

+13.2%

比第二名高出

全球多模态榜单 SOTA

Arena 官方评价：「相较 V3.2 的重大飞跃。」上一代 V3.2 思考模式 1425 分，已经跌落至综合榜单的第 63 名。V4-Pro 目前第 20 名。

LAST ///|写在最后

打麻将那段视频我看了好一会儿。屏幕截图进去，模型自己判断该点哪、该拖哪，几十步的长流程，中间出错了还能自己纠错重新来。

不夸张地说，这是目前我见过的最接近”让 AI 帮你用电脑”的方案之一。

纯视觉 + 全程本地 + 断网也能跑不调 API，不开权限，数据不出设备

开源地址我放留言区，有兴趣的朋友可以去跑一下试试。

满意就三连支持一下 👏

👍在看↗

本文素材来源：GitHub · Mano-P 开源项目

京择 AGI 智能体