能看懂屏幕并操作电脑的 AI —— Mano-P
Mano-P 是一个开源的 GUI-VLA(视觉-语言-动作)智能体,通俗理解就是“能看懂屏幕并操作电脑的 AI”。它采用纯视觉方案,无需依赖软件 API 或 HTML 源码,直接通过像素级理解操控桌面应用。
1. 纯视觉驱动(Pixel-to-Action)
--无需接口:不依赖 Accessibility API 或 DevTools Protocol,仅通过截图即可理解界面,能操作 Photoshop、CAD 等无接口的“黑盒”软件。
--跨平台兼容:理论上支持任何有图形界面的桌面环境。
2. 端侧本地化部署
--隐私安全:数据完全留在本地,不上云,适合企业敏感数据场景。
--硬件要求:主要针对 Apple Silicon 优化(如 M4 芯片),4B 量化版仅需约 4.3GB 内存,支持离线运行。
3. SOTA 性能
--OSWorld 基准:72B 版本在 GUI 自动化基准测试中取得 58.2% 的任务成功率,领先同类模型约 13 个百分点。
--多模态榜单:在 ScreenSpot-V2、MMBench 等 13 项测试中均位列前茅。
技术架构与生态
--模型架构:基于 Transformer,融合视觉编码器与动作解码器,输出鼠标、键盘、拖拽等底层操作指令。
--开源协议:Apache 2.0,支持商业应用与二次开发。
--生态集成:可无缝接入 OpenClaw、Claude Code 等 Agent 框架,作为“手”的执行单元。
典型应用场景
--办公自动化:自动完成 Excel 报表生成、邮件处理、跨软件数据迁移。
--软件测试:替代人工进行 UI 回归测试,自动填写表单并验证结果。
--专业软件操控:在无 API 的遗留系统或设计软件中执行复杂流程。
--安装:可通过 Homebrew 安装 CLI 工具("brew install mano-cua")或从 GitHub 拉取源码。
--运行:配置好模型权重后,通过自然语言指令(如“打开 Finder 并整理文件”)驱动执行。
查看具体的代码结构或 API 文档,直接访问:
https://github.com/Mininglamp-AI/Mano-P
夜雨聆风