龙虾爪变灵巧手:AI终于能自己操作电脑了?

GUI Agent 实测

龙虾爪变灵巧手：AI终于能自己操作电脑了？

13个榜单全球第一，纯视觉操控桌面，一行命令装好

— — —

小九的烦恼：AI啥都会，就是不会"动手"

上周小九跟我吐槽："你说这 AI 小龙虾，写文章、做表格、分析数据都行，但每次我想让它帮我打开个软件、填个表，它就哑火了。能不能让它像人一样，直接在屏幕上点点点？"

我当时说："这你问到点子上了。AI 会'想'但不怎么会'动手'，这在行话里叫——AI 缺一双'手'。"

结果没过两天，明略科技就开源了一个叫 Mano-P 1.0 的模型，名字里的 Mano 就是西班牙语的"手"。13 个全球权威榜单第一，专门解决 AI"动手"的问题。我赶紧装上试了一把——

好家伙，这一试，小龙虾的爪子还真变成了灵巧手。

— — —

Mano-P 是个啥？一句话解释

Mano-P 1.0，明略科技（港交所上市代码 2718.HK）开源的 GUI 智能体模型。GUI 就是 Graphical User Interface，通俗说就是"你在电脑屏幕上看到的所有界面"。这个模型能让 AI 像人一样看屏幕、理解界面、点击操作——不需要任何 API 接口，纯靠眼睛"看"。

以前的 AI 操控电脑，要么靠浏览器专用通道（CDP，一种浏览器调试接口），要么得软件开放 API（程序之间互相"喊话"的通道）。Mano-P 不走这些门，它直接截屏→看图→理解→操作，跟人用电脑一模一样。

说白了：你能在电脑上操作的东西，它都能操作。Safari、Word、Excel、甚至打麻将，管它有没有 API。

💡 打个比方：以前的 AI 像个只会走特殊通道的快递员，软件没开门它就进不去。Mano-P 像个长了眼睛的快递员，走正门、爬窗户都行——因为它会"看"。

— — —

13 个榜单第一，到底什么水平？

数字说话，挑最硬的几个：

🏆 OSWorld 58.2%——GUI 智能体领域的"高考"，Mano-P 在专用模型中全球第一，领先第二名 13.2 个百分点。注意，第二名只有 45%，这是断崖式领先。

🏆 WebRetriever 41.7——网页操作检索测试，超过 Gemini 2.5 Pro（40.9）和 Claude 4.5（31.3）。一个 72B 参数的专用模型，把谷歌和 Anthropic 的通用大模型都超了。

🏆 ScreenSpot-V2 93.5——GUI 元素定位精度，基本指哪打哪。

你可能要问：跟 Claude Computer Use 比呢？OSWorld 全模型榜，Claude Sonnet 4.6 排第一（72.1%），但那是千亿参数级的通用大模型。Mano-P 以 72B 参数量排到第五，已经是在跟比自己大十倍的选手同台竞技了。

📊 一句话总结：在"专门操作电脑"这件事上，Mano-P 是目前全球最强的专用模型，没有之一。

— — —

我实测了：一行命令，小龙虾真的动了

光看榜单没意思，得自己试。我在 AI"小龙虾"上装了 Mano-P 的技能包，实测了几个场景。

第 1 步 安装 Mano-P 技能

在 AI"小龙虾"左侧的「技能」菜单里搜索 Mano-P，点击安装就行。也可以在终端一行命令装好：

brew tap HanningWang/tap
brew install mano-cua

装完需要授权两个系统权限：屏幕录制和辅助功能（系统设置→隐私与安全性里勾选）。这是为了让 AI 能"看到"你的屏幕、能控制鼠标键盘。

第 2 步 实测：打开 Safari 搜天气

我跟 AI"小龙虾"说了一句话：

帮我打开 Safari 搜索今日天气

然后我就把手从键盘上挪开了。鼠标自己动起来——打开 Safari、点搜索栏、输入"今日天气"、回车。1 步搞定，我盯着屏幕看了好几秒才反应过来：不是我动的。

— — —

为什么它这么强？三个关键技术

非技术读者可以跳过这节。但如果你跟我一样是个技术控，这三个点值得了解：

1. 双向自增强学习（Mano-Action）——同时训练"看描述找按钮"和"看按钮写描述"两个方向，互相验证、互相增强。有点像 GAN（生成对抗网络）的思想，但用在 GUI 操作上。训练路径是 SFT→离线 RL→在线 RL，模型从"背操作手册"进化到"真会操作"。

2. GSPruning 视觉 Token 剪枝——屏幕截图太大，AI 处理起来太慢。Mano-P 会智能识别界面的关键元素（按钮、菜单、文字），把不重要的背景区域"剪掉"，只看最关键的 12.57% 的视觉信息。速度提升 2-3 倍，效果几乎不受影响。

3. W4A16 混合精度量化——把 72B 的大模型蒸馏成 4B 的小模型，权重用 4bit 存储，激活值保留 16bit。结果？在 M4 Pro 上预填充速度 476 tokens/s、解码 76 tokens/s、峰值内存才 4.3GB。一台标配 M4 Mac mini 就能跑。

— — —

最狠的一点：数据完全不上云

这是 Mano-P 跟 Claude Computer Use 最大的区别。

Claude 的 Computer Use 要把你的截图上传到云端分析。Mano-P 的本地模式，所有截图和任务数据完全不出你的设备。不需要 API Key，不需要联网，不向任何外部服务器发数据。

这意味着什么？金融公司的交易系统、医院的病历系统——以前因为数据不能外传，AI 根本进不去，Mano-P 可以本地跑，数据零上云。

当然，目前本地模型还没正式放出（官方说第二阶段即将开放），现在默认走的是云端模式（截图会发到 mano.mininglamp.com 分析）。但代码是 Apache 2.0 开源的，本地模型发布后，一切都在你自己的 Mac 上完成。

🔐 隐私等级对比
传统 RPA：本地运行，但只能操作有 API 的系统
Claude Computer Use：功能强大，但截图要上云
Mano-P 本地模式：功能强大 + 截图不上云 + 开源可审计

— — —

三阶段开源：先给你用，再给你跑，最后教你自己训

Mano-P 的开源分三步走，Apache 2.0 协议（商用友好）：

🟢 第一阶段（已开放）：Skills 先行。三种接入方式——命令行工具 mano-cua、Agent 技能插件 mano-skill、Python SDK mano-client。现在就能装上用。

🟡 第二阶段（即将开放）：模型开放。72B 完整版 + 4B 量化端侧版，下载到本地 Mac 就能跑。我的 M3 Pro / 36GB 内存，跑 4B 量化版应该没问题（官方实测峰值内存才 4.3GB）。

🔴 第三阶段（规划中）：方法论公开。训练方法、剪枝量化技术全部开源，让更多团队可以训自己的端侧 GUI 模型。

— — —

小龙虾从"爪"到"手"，意味着什么？

之前的 AI 小龙虾，脑子好使但手短——能想出方案，但执行还得靠你自己动手。现在有了 Mano-P，小龙虾长出了真正的"手"，能自己在屏幕上操作了。

更关键的是，端侧模型解决了 AI "主动性"的根本问题。云端 AI 不可能真正 7×24 主动帮你——每次运算都在烧平台的钱。但本地模型跑在你自己的设备上，用的是你自己的芯片和电，主动跑一万次也不心疼。

这才是 7×24 贴身 AI 助手该有的样子。

小九知道后说了一句："那以后是不是可以让小龙虾帮我打开炒股软件看盘了？"

我说："理论上可以。但现在还在云端模式阶段，等本地模型开放后，你那些不想让别人看到的持仓数据，就完全不用出电脑了。"

小九："那赶紧的！"

— — —

想试？三步搞定

第 1 步安装

打开 AI"小龙虾"，左侧「技能」菜单搜索 Mano-P 点击安装。或者终端执行：

brew tap HanningWang/tap && brew install mano-cua

第 2 步授权

系统设置→隐私与安全性→屏幕录制和辅助功能，勾选终端或 AI"小龙虾"。

第 3 步说话

直接跟 AI"小龙虾"说你想让它操作什么，比如"帮我打开 Safari 搜索今天的新闻"。然后——把手从键盘上挪开，看它表演。

— — —

如果你也想让 AI 帮你操作电脑
欢迎丢到留言区，说不定下篇就写你的场景 🎯

觉得有用就关注一下👆
顺手点个赞👍 转发给需要的朋友

✍️ 养虾小技巧