Mano-P 1.0 火了:AI 终于开始真“看屏幕”了
这两天我刷 GitHub,第一眼被 Mano-P 1.0 戳到,不是因为它又在讲什么 Agent 闭环,也不是参数多大。
而是它干的事特别直接:不看 DOM,不吃系统 API,就盯着屏幕截图干活。
这个味道一下就不一样了。

过去很多所谓“自动操作界面”的方案,说白了还是在吃浏览器红利。页面结构规整,DOM 能拆,按钮位置能读,跑起来当然顺。可一旦换成桌面软件、系统弹窗、远程窗口,或者 UI 稍微改个版,识别就开始飘,动作链也跟着断。
所以很多方案看着像通用 Agent,实际活动范围一直没出浏览器。
Mano-P 1.0 这次有意思的地方,就在这儿。
它是个纯视觉 GUI 操作模型。不给插件,不靠协议,也不要求目标应用专门开放接口。就是直接看屏幕,理解当前界面,然后决定下一步该点哪、切哪、输什么。
这种“所见即所得”的思路,其实才更接近人用电脑的方式。
你不会先去读一个 App 的内部结构,再决定点哪个按钮。你就是看见它,认出来它,然后动手。

看到这里我第一反应是,这东西终于不再局限在网页自动化那套老路径里了。
它能接到 Claude Code、OpenClaw 这类 Agent 工具里,这个组合就很实用了。前面的 Agent 负责拆任务、规划流程,Mano-P 负责真的落到界面层去执行。等于给 AI 补上了长期缺的一块:不是会想,而是真的会操作。
而且这种能力一旦成立,价值不只是“能点按钮”。
更关键的是维护成本会往下掉。
以前靠 DOM、控件树、系统 API 做自动化,最怕的就是目标界面改版。按钮名字变了,层级动了,甚至只是布局挪一下,都可能要重新适配。纯视觉路线的好处,是它天然更抗这种变化。UI 变了,它不是从协议层报错,而是重新去“看”。
这件事对企业内部软件、老旧系统、跨平台工具尤其重要。
很多业务系统根本没有漂亮的开放接口,但每天又确实有人在重复点、重复录、重复切页面。这个时候,能看屏幕、能跨应用、还能连续执行几十步到上百步,实用价值就出来了。
另一个很容易被忽略的点,是全程本地推理,数据不出设备。

这句话现在看着像标配,放到 GUI 操作场景里就不是小事了。因为界面里经常就是最敏感的数据:客户资料、财务数字、内部系统、聊天记录。模型如果能本地跑,很多原本卡在合规和隐私上的场景,才真的有落地空间。
部署门槛也没想象中高。
官方给的信息里,在 M4 芯片 + 32GB 内存的 Mac 上,4B 量化版本就能直接跑。这个配置不算夸张,至少已经不是“得先备一台专门服务器”那种姿势了。
当然,纯视觉路线也不是没有难点。复杂弹窗、遮挡、分辨率变化、误触恢复、长流程稳定性,这些后面都还得看真实场景里的表现。
但至少 Mano-P 1.0 把那条大家一直想走、又总差一口气的路,往前拱了一大步。
AI 帮你写代码这件事,大家已经有感觉了。
AI 真能接管屏幕、接管软件、接管跨应用操作,这事现在看,开始有点那个意思了。
GitHub地址:MININGLAMP-AI/MANO-P
夜雨聆风