从手机下个指令,AI 就帮你打开App、刷网页、填表格...
OpenClaw 可以做的事,现在 Claude Code 也可以做到了,而且更安全。
这是 Anthropic 刚刚在 Claude Code 中推出的 “Computer Use” 预览功能。
一方面,它可以像人一样操作电脑:操作鼠标键盘、打开应用、访问浏览器。
另一方面,它可以接受用户来自手机 App 的任务,你可以远程给桌面的 Claude 发一个消息,然后它自己会尝试完成。
怎么做到的?
结合 Connectors:优先调用你已授权的 Slack、邮件、日历、浏览器等工具。
直接屏幕控制:当没有现成接口时,Claude 会请求你授权,然后像真人一样在你的屏幕上移动鼠标、点击、打字、打开 App。
第一条没啥好说的,还是要基于 MCP 服务。
第二条,则是需要以下三点。
首先,Claude(基于 3.5 Sonnet 及后续 4.x 系列)是多模态 VLM(Vision-Language Model)。
每一步都截取屏幕截图作为图像输入,模型直接“看”像素级界面(无 HTML 元数据、无辅助标签)。
其次,使用内部工具输出动作指令,例如:
mouse_move(x, y) left_click / right_click / drag type(text) / key(keycode) screenshot()用户授权,Claude 捕获屏幕,最后模拟鼠标键盘动作。
Claude 先会尝试 Connectors(已授权的 Slack、日历、邮件等 API),无接口时才 fallback 到屏幕操控,减少不必要权限。
至于模型,则是通过 Agent Loop(规划 → 行动 → 观察新截图 → 下一轮)执行任务。
而且多轮对话的情况下,还能保持历史上下文(截图 + 动作记录)。
目前这些功能还处于预览阶段,目前仅限 macOS,以及 Claude Pro 和 Max 订阅用户可用。
从结果来看,跟 OpenClaw 的定位有很大重叠的部分。这样很能理解,每一家都在推出自己的“Claw”,OpenClaw 在技术上并不是很高深的事情,关键在于架构和思路,所以能够被诸多大厂迅速复制、重构、推新。
值得一提的是,目前的 token 消耗依然很快,比普通任务会快许多,而且基于视觉的操作,并不是非常稳定的准确,而且也没有想象的快。
而且它能看到你所有打开的窗口、密码输入框、聊天记录。
虽然来自官方,但也不要完全信任,为避免隐私问题和误操作,可以先从小任务、杂活开始尝试。
总之,这些更新是令人欣喜的,我个人非常喜欢 Claude,也希望后续能尽快推出 Windows 支持。
夜雨聆风