
随着氛围编程(Vibe Coding)的兴起,让 AI 落地项目早就不是什么新鲜事了。
但是你肯定遇到过 AI 告诉你代码正确,结果运行页面一看,UI 错乱排版重叠,逻辑按钮根本点不动。

这其实是因为大多数 AI 只有代码交互能力,但没有眼睛。不知道代码渲染成图形界面后长什么样。
解决这种情况最有效的方式就是给 AI 接入视觉,也就是用多模态视觉模型来做 GUI 图形界面测试。不过这又会遇见两个非常现实的问题。
一是高昂的“天价账单”。AI 模拟人眼看屏幕,每次滑动都在传截图。这导致在自动化流水线里,单单 GUI 测试这一个环节,Token 消耗成本往往就占到了整体的 50% 以上。
二是致命的“隐私红线”。把企业内部未公开的核心代码和业务截图传给云端大模型分析,直接触碰了数据安全底线,稍微敏感一点的项目根本不可能获批。
想省钱又保密,唯一的出路就是把视觉模型完全搬到本地电脑上运行,数据绝不上云。但现实很骨感,普通办公电脑的算力根本带不动庞大的多模态模型。
不过前几天,明略科技正式开源了 Mano-P(端侧 GUI 智能体)与配套的 Cider(推理加速框架)这两个项目,打破了这个看似无解的僵局 。

这套“双引擎”硬核地将纯视觉的图形操作能力塞进了本地电脑里,彻底打通了端侧大模型高效、安全落地的最后一公里。
Mano-P

所以,既要 Manus 的“眼力”,又要 OpenClaw 的“安全感”,Mano-P 就是在这个死角里开源出来的。它让你的本地电脑直接长出了“手和眼”,能像真人一样看懂屏幕并直接操作 👇
很多人觉得在本地跑这种视觉模型,电脑肯定会卡死或者反应极慢,其实不然。Mano-P 在性能这块早就做好了深度“瘦身”。
就拿它的 4B 量化模型来说,在苹果 M4 Pro 芯片上,它的预填充速度能达到惊人的 476 tokens/s。从看屏幕到做出反应几乎是电光火石之间。更牛的是,相比于标准的 PyTorch CPU 推理,它的端侧提速超过了 60 倍,且坐标偏差被死死控制在 1 像素以内。

而且它极其省资源,运行时的峰值内存仅仅只有 4.3GB。电脑分出这 4.3G 给它之后,剩下的内存也完全足够你顺畅地开着各种软件办公,基本感受不到它在后台运行的负担,更别提卡顿了 。

就算真的遇到断网环境,它自带的离线长任务自主规划功能,依然能让模型在本地保持运行,安全感绝对拉满。
不过,对于端侧大模型来说,能提高一点性能当然要尽量提高一点。明略科技为了把 Mano-P 的潜能彻底榨干,并没有止步于此,而是还专门为这些大模型配了一个“外挂”,推理加速框架 Cider。




更难得的是,Cider 并没有被锁死在 Mano-P 身上。它是一个完全开源的通用生态插件。像大家平时常用的 Qwen(通义千问)、Llama、Mistral 等等,只要是能接入 MLX 生态的开源模型,统统可以使用 Cider 来白嫖加速。

写在最后
Mano-P 和 Cider 的组合,算是打破了我们对本地大模型“又慢又笨”的偏见。它们证明了在对隐私和成本极其敏感的业务流中,端侧智能体才是真正的最优解。Mano-P 赋予了电脑“眼和手”,Cider 则在底层重构了算力引擎。
目前这两套项目都已经在 GitHub 上开源了。
Mano-P 开源地址:
https://github.com/Mininglamp-AI/Mano-P
Cider 开源地址:
https://github.com/Mininglamp-AI/cider
但最让我期待的,其实是明略科技接下来更为宏大的开源蓝图。


▽▽▽
夜雨聆风