让 AI 真正会用电脑:Cua 把数字员工关进沙盒,点点点不碰你的真机

我们早就习惯了 AI 写代码、画图、聊天,但一直缺一个环节:AI 到底能不能"用"电脑? 不是调 API、不是跑脚本,而是像人一样看屏幕、移鼠标、点按钮、敲字。

最近上手了个开源工具 Cua(读作 "Koo-ah"),专门解决这件事——它让 AI Agent 在一台完全隔离的虚拟电脑里真·操作桌面,截图、点击、打字、跑命令都行,而且 AI 在里面怎么折腾,都不会动到你的真机。短短几个月 GitHub 攒了 1.7 万多 Star,作者是位 YC 创业者。

它到底在干嘛:AI 真的在"用"电脑

最直接的体验方式就一条命令:

npx cuabot

它会弹一个可视化窗口,让你亲眼看着 Agent 在沙盒里操作桌面:截图、点击、输入文字、敲命令行,还能跟主机共享剪贴板。整个过程就像看一个数字员工在工位上干活。

关键是,它在后台跑的时候,你的电脑完全不受影响——你照样写代码、看视频、回消息,两边互不打架。

一套架构看懂:底层换啥,接口都一样

Cua 的设计是清爽的三层结构:

最上面是 AI Agent(负责看屏幕、决策、下指令),中间是统一的 Computer SDK(截图 / 点击 / 键盘 / Shell 一套接口),最下面是 Sandbox 沙盒。好处是:不管底层虚拟化用的是 macOS、Windows、Linux 还是安卓,对 AI 来说接口都一样,代码写一次就能跨系统跑。

而且它不只管桌面——安卓能通过云沙盒或本地虚拟化跑,iOS 也内置支持。也就是说,AI Agent 能像操作电脑一样操作手机,做手势、点击、滑动。

四大组件:从跑到测全包了

简单拆一下这四块。

Cua Driver 是后台操控引擎,能控原生桌面应用又不抢你的光标焦点——mac/win 可用,Linux 还是预发布。

Cua Sandbox 是隔离沙盒。macOS 上的 Lume 组件用 Apple 的 Virtualization.Framework 做的,能跑到原生 CPU 的 97% 速度,还支持快照和 Fork,一个干净快照克隆出几百个并行实例。

Cuabot 给 Claude Code、OpenClaw 这些编码 Agent 配无缝沙盒,独立窗口用 H.265 编码、共享剪贴板。

Cua-Bench 是评测模块,内置 OSWorld、ScreenSpot、WindowsArena 等基准,还能导出 Agent 执行轨迹喂强化学习。

那个 97% 原生速度不是噱头——它确实是 Lume 官方给的数据,Apple Silicon 用户会很受用。

怎么装,以及几个糙点

安装挺省事,一条命令搞定:

macOS / Linux 用 curl … install.sh、Windows 用 PowerShell 的 irm … install.ps1,Python SDK 直接 pip install cua,想先看效果就 npx cuabot。

但有几个坑得提前说清楚:Linux 支持目前还是预发布状态;macOS 上 Rust 版和 Swift 版还没对齐,生产环境建议用 Swift 版;用 MCP Server 需要有效的模型 API Key。

值不值得上

说回本质。以前我们觉得 AI 缺的是"动手"的那一环,Cua 给的正是一个安全的操作环境:让 AI 像数字员工一样真正"使用"电脑,而不只是"访问"电脑,且全程在沙盒里、不碰你的真机。

它用 MIT 协议开源、可自托管,GitHub trycua/cua 上 17.58k Star。如果你主要用 Mac 或 Windows,想让 AI Agent 帮你跑 GUI 任务、又不愿意把主机暴露出去,那 Cua 值得装上试试。只是在 Linux 还预发布、版本未完全对齐的当口,先拿它做实验和自动化探索,别急着塞进关键生产链路。