Mano-P 1.0 火了:AI 终于开始真“看屏幕”了

Mano-P 1.0 火了：AI 终于开始真“看屏幕”了

这两天我刷 GitHub，第一眼被 Mano-P 1.0 戳到，不是因为它又在讲什么 Agent 闭环，也不是参数多大。

而是它干的事特别直接：不看 DOM，不吃系统 API，就盯着屏幕截图干活。

这个味道一下就不一样了。

过去很多所谓“自动操作界面”的方案，说白了还是在吃浏览器红利。页面结构规整，DOM 能拆，按钮位置能读，跑起来当然顺。可一旦换成桌面软件、系统弹窗、远程窗口，或者 UI 稍微改个版，识别就开始飘，动作链也跟着断。

所以很多方案看着像通用 Agent，实际活动范围一直没出浏览器。

Mano-P 1.0 这次有意思的地方，就在这儿。

它是个纯视觉 GUI 操作模型。不给插件，不靠协议，也不要求目标应用专门开放接口。就是直接看屏幕，理解当前界面，然后决定下一步该点哪、切哪、输什么。

这种“所见即所得”的思路，其实才更接近人用电脑的方式。

你不会先去读一个 App 的内部结构，再决定点哪个按钮。你就是看见它，认出来它，然后动手。

看到这里我第一反应是，这东西终于不再局限在网页自动化那套老路径里了。

它能接到 Claude Code、OpenClaw 这类 Agent 工具里，这个组合就很实用了。前面的 Agent 负责拆任务、规划流程，Mano-P 负责真的落到界面层去执行。等于给 AI 补上了长期缺的一块：不是会想，而是真的会操作。

而且这种能力一旦成立，价值不只是“能点按钮”。

更关键的是维护成本会往下掉。

以前靠 DOM、控件树、系统 API 做自动化，最怕的就是目标界面改版。按钮名字变了，层级动了，甚至只是布局挪一下，都可能要重新适配。纯视觉路线的好处，是它天然更抗这种变化。UI 变了，它不是从协议层报错，而是重新去“看”。

这件事对企业内部软件、老旧系统、跨平台工具尤其重要。

很多业务系统根本没有漂亮的开放接口，但每天又确实有人在重复点、重复录、重复切页面。这个时候，能看屏幕、能跨应用、还能连续执行几十步到上百步，实用价值就出来了。

另一个很容易被忽略的点，是全程本地推理，数据不出设备。

这句话现在看着像标配，放到 GUI 操作场景里就不是小事了。因为界面里经常就是最敏感的数据：客户资料、财务数字、内部系统、聊天记录。模型如果能本地跑，很多原本卡在合规和隐私上的场景，才真的有落地空间。

部署门槛也没想象中高。

官方给的信息里，在 M4 芯片 + 32GB 内存的 Mac 上，4B 量化版本就能直接跑。这个配置不算夸张，至少已经不是“得先备一台专门服务器”那种姿势了。

当然，纯视觉路线也不是没有难点。复杂弹窗、遮挡、分辨率变化、误触恢复、长流程稳定性，这些后面都还得看真实场景里的表现。

但至少 Mano-P 1.0 把那条大家一直想走、又总差一口气的路，往前拱了一大步。

AI 帮你写代码这件事，大家已经有感觉了。

AI 真能接管屏幕、接管软件、接管跨应用操作，这事现在看，开始有点那个意思了。

GitHub地址：MININGLAMP-AI/MANO-P