GUI Agent 实测
龙虾爪变灵巧手:AI终于能自己操作电脑了?
13个榜单全球第一,纯视觉操控桌面,一行命令装好
— — —
小九的烦恼:AI啥都会,就是不会"动手"
上周小九跟我吐槽:"你说这 AI 小龙虾,写文章、做表格、分析数据都行,但每次我想让它帮我打开个软件、填个表,它就哑火了。能不能让它像人一样,直接在屏幕上点点点?"
我当时说:"这你问到点子上了。AI 会'想'但不怎么会'动手',这在行话里叫——AI 缺一双'手'。"
结果没过两天,明略科技就开源了一个叫 Mano-P 1.0 的模型,名字里的 Mano 就是西班牙语的"手"。13 个全球权威榜单第一,专门解决 AI"动手"的问题。我赶紧装上试了一把——
好家伙,这一试,小龙虾的爪子还真变成了灵巧手。
— — —
Mano-P 是个啥?一句话解释
Mano-P 1.0,明略科技(港交所上市代码 2718.HK)开源的 GUI 智能体模型。GUI 就是 Graphical User Interface,通俗说就是"你在电脑屏幕上看到的所有界面"。这个模型能让 AI 像人一样看屏幕、理解界面、点击操作——不需要任何 API 接口,纯靠眼睛"看"。
以前的 AI 操控电脑,要么靠浏览器专用通道(CDP,一种浏览器调试接口),要么得软件开放 API(程序之间互相"喊话"的通道)。Mano-P 不走这些门,它直接截屏→看图→理解→操作,跟人用电脑一模一样。
说白了:你能在电脑上操作的东西,它都能操作。Safari、Word、Excel、甚至打麻将,管它有没有 API。
💡 打个比方:以前的 AI 像个只会走特殊通道的快递员,软件没开门它就进不去。Mano-P 像个长了眼睛的快递员,走正门、爬窗户都行——因为它会"看"。
— — —
13 个榜单第一,到底什么水平?
数字说话,挑最硬的几个:
🏆 OSWorld 58.2%——GUI 智能体领域的"高考",Mano-P 在专用模型中全球第一,领先第二名 13.2 个百分点。注意,第二名只有 45%,这是断崖式领先。
🏆 WebRetriever 41.7——网页操作检索测试,超过 Gemini 2.5 Pro(40.9)和 Claude 4.5(31.3)。一个 72B 参数的专用模型,把谷歌和 Anthropic 的通用大模型都超了。
🏆 ScreenSpot-V2 93.5——GUI 元素定位精度,基本指哪打哪。
你可能要问:跟 Claude Computer Use 比呢?OSWorld 全模型榜,Claude Sonnet 4.6 排第一(72.1%),但那是千亿参数级的通用大模型。Mano-P 以 72B 参数量排到第五,已经是在跟比自己大十倍的选手同台竞技了。
📊 一句话总结:在"专门操作电脑"这件事上,Mano-P 是目前全球最强的专用模型,没有之一。
— — —
我实测了:一行命令,小龙虾真的动了
光看榜单没意思,得自己试。我在 AI"小龙虾"上装了 Mano-P 的技能包,实测了几个场景。
第 1 步 安装 Mano-P 技能
在 AI"小龙虾"左侧的「技能」菜单里搜索 Mano-P,点击安装就行。也可以在终端一行命令装好:
brew tap HanningWang/tap
brew install mano-cua
装完需要授权两个系统权限:屏幕录制和辅助功能(系统设置→隐私与安全性里勾选)。这是为了让 AI 能"看到"你的屏幕、能控制鼠标键盘。
第 2 步 实测:打开 Safari 搜天气
我跟 AI"小龙虾"说了一句话:
帮我打开 Safari 搜索今日天气
然后我就把手从键盘上挪开了。鼠标自己动起来——打开 Safari、点搜索栏、输入"今日天气"、回车。1 步搞定,我盯着屏幕看了好几秒才反应过来:不是我动的。
— — —
为什么它这么强?三个关键技术
非技术读者可以跳过这节。但如果你跟我一样是个技术控,这三个点值得了解:
1. 双向自增强学习(Mano-Action)——同时训练"看描述找按钮"和"看按钮写描述"两个方向,互相验证、互相增强。有点像 GAN(生成对抗网络)的思想,但用在 GUI 操作上。训练路径是 SFT→离线 RL→在线 RL,模型从"背操作手册"进化到"真会操作"。
2. GSPruning 视觉 Token 剪枝——屏幕截图太大,AI 处理起来太慢。Mano-P 会智能识别界面的关键元素(按钮、菜单、文字),把不重要的背景区域"剪掉",只看最关键的 12.57% 的视觉信息。速度提升 2-3 倍,效果几乎不受影响。
3. W4A16 混合精度量化——把 72B 的大模型蒸馏成 4B 的小模型,权重用 4bit 存储,激活值保留 16bit。结果?在 M4 Pro 上预填充速度 476 tokens/s、解码 76 tokens/s、峰值内存才 4.3GB。一台标配 M4 Mac mini 就能跑。
— — —
最狠的一点:数据完全不上云
这是 Mano-P 跟 Claude Computer Use 最大的区别。
Claude 的 Computer Use 要把你的截图上传到云端分析。Mano-P 的本地模式,所有截图和任务数据完全不出你的设备。不需要 API Key,不需要联网,不向任何外部服务器发数据。
这意味着什么?金融公司的交易系统、医院的病历系统——以前因为数据不能外传,AI 根本进不去,Mano-P 可以本地跑,数据零上云。
当然,目前本地模型还没正式放出(官方说第二阶段即将开放),现在默认走的是云端模式(截图会发到 mano.mininglamp.com 分析)。但代码是 Apache 2.0 开源的,本地模型发布后,一切都在你自己的 Mac 上完成。
🔐 隐私等级对比
传统 RPA:本地运行,但只能操作有 API 的系统
Claude Computer Use:功能强大,但截图要上云
Mano-P 本地模式:功能强大 + 截图不上云 + 开源可审计
— — —
三阶段开源:先给你用,再给你跑,最后教你自己训
Mano-P 的开源分三步走,Apache 2.0 协议(商用友好):
🟢 第一阶段(已开放):Skills 先行。三种接入方式——命令行工具 mano-cua、Agent 技能插件 mano-skill、Python SDK mano-client。现在就能装上用。
🟡 第二阶段(即将开放):模型开放。72B 完整版 + 4B 量化端侧版,下载到本地 Mac 就能跑。我的 M3 Pro / 36GB 内存,跑 4B 量化版应该没问题(官方实测峰值内存才 4.3GB)。
🔴 第三阶段(规划中):方法论公开。训练方法、剪枝量化技术全部开源,让更多团队可以训自己的端侧 GUI 模型。
— — —
小龙虾从"爪"到"手",意味着什么?
之前的 AI 小龙虾,脑子好使但手短——能想出方案,但执行还得靠你自己动手。现在有了 Mano-P,小龙虾长出了真正的"手",能自己在屏幕上操作了。
更关键的是,端侧模型解决了 AI "主动性"的根本问题。云端 AI 不可能真正 7×24 主动帮你——每次运算都在烧平台的钱。但本地模型跑在你自己的设备上,用的是你自己的芯片和电,主动跑一万次也不心疼。
这才是 7×24 贴身 AI 助手该有的样子。
小九知道后说了一句:"那以后是不是可以让小龙虾帮我打开炒股软件看盘了?"
我说:"理论上可以。但现在还在云端模式阶段,等本地模型开放后,你那些不想让别人看到的持仓数据,就完全不用出电脑了。"
小九:"那赶紧的!"
— — —
想试?三步搞定
第 1 步 安装
打开 AI"小龙虾",左侧「技能」菜单搜索 Mano-P 点击安装。或者终端执行:
brew tap HanningWang/tap && brew install mano-cua
第 2 步 授权
系统设置→隐私与安全性→屏幕录制和辅助功能,勾选终端或 AI"小龙虾"。
第 3 步 说话
直接跟 AI"小龙虾"说你想让它操作什么,比如"帮我打开 Safari 搜索今天的新闻"。然后——把手从键盘上挪开,看它表演。
— — —
如果你也想让 AI 帮你操作电脑
欢迎丢到留言区,说不定下篇就写你的场景 🎯
觉得有用就关注一下👆
顺手点个赞👍 转发给需要的朋友
✍️ 养虾小技巧
夜雨聆风