目前有多款大模型和AI Agent已经具备了操作电脑的能力,包括控制浏览器、Office办公软件、命令行等。以下是一些主要的产品和方案:
主流AI电脑操作工具
1. Claude Computer Use(Anthropic)
- 能力:直接操作电脑,打开应用、点击按钮、填写表格、操作浏览器、处理Excel(带公式)、制作PPT、编写Word文档。
- 特点:集成在Claude Cowork和Claude Code中,Pro和Max订阅用户可用,目前处于研究预览阶段。
2. OpenAI Operator
- 能力:像人类一样使用网页浏览器,可代理用户执行基于网页的操作,如订餐、网上购物等。
- 特点:OpenAI首款AI代理工具,目前仅向美国地区的ChatGPT Pro用户开放研究预览版。
3. 微软Copilot Studio "计算机使用"功能
- 能力:让AI智能体直接与网站、桌面应用程序互动,支持Edge、Chrome、Firefox等浏览器。
- 特点:无需编码,通过自然语言描述需求即可构建自动化流程,克服传统RPA的界面元素脆弱性问题。
国内主流产品
4. OpenClaw生态系列
- OpenClaw:开源自动化控制框架,让AI从"对话"走向"执行",能直接操作操作系统。
- QClaw(小龙虾AI):腾讯基于OpenClaw开发的本地化AI助手,支持Windows/macOS,微信远程控制,开箱即用。
- WinClaw:免费AI电脑助手,支持本地部署,可操作Office套件、浏览器自动化、文件管理等。
5. 字节跳动系列
- Agent TARS / UI-TARS:开源多模态AI助手,支持浏览器操作、命令行集成、文件编辑等复杂任务。
- SOLO:字节跳动TRAE推出的独立桌面程序,支持Word文档、Excel表格、PPT演示、PDF处理、写代码、跑命令、上网搜索等。
6. 阿里巴巴QoderWork
- 能力:桌面级通用智能体助手,直接操作Excel、PPT、浏览器及系统文件,在本地沙盒环境中执行任务。
- 特点:继承阿里Qoder团队在代码智能体领域的积累,无需编写代码即可完成复杂操作。
7. 实在Agent
- 能力:拥有屏幕语义理解技术,能像人一样看懂网页、Excel、ERP或钉钉界面,无需API即可操作。
- 特点:原生支持微信、钉钉、飞书等国内办公软件,支持国产操作系统和私有化部署。
开源工具和框架
8. OfficeCLI
- 能力:全球首个专为AI智能体设计的Office套件,通过命令行指令完全掌控Word、Excel和PowerPoint。
- 特点:开源免费,单一可执行文件,无需安装Office套件,全平台运行。
9. TuriX-CUA(Computer Use Agent)
- 能力:基于Python开发的开源AI智能体,通过屏幕截图获取视觉信息,执行鼠标键盘操作。
- 特点:支持Windows和macOS,采用"规划师+执行者"分离设计,兼容MCP协议。
10. PC-Agent
- 能力:基于大语言模型的桌面级AI代理框架,通过自然语言指令驱动计算机完成复杂操作。
- 特点:支持跨软件协同操作,在浏览器、IDE、办公软件间无缝切换。
浏览器集成方案
11. QQ浏览器Excel助理、AI PPT
- 能力:在QQ浏览器PC端内直接操作Excel和PPT,强化数据分析与PPT生成能力。
- 特点:依托浏览器入口优势和DeepSeek-V3.2大模型能力,打造能办事的AI浏览器。
技术特点总结
这些工具的核心技术路径主要分为:
- API集成模式:通过软件提供的API接口进行操作(如OfficeCLI)
- 视觉识别模式:通过屏幕截图和视觉语言模型理解界面并操作(如TuriX-CUA)
- 混合模式:结合API调用和视觉识别(如实在Agent的屏幕语义理解)
选择建议
- 追求易用性:SOLO、QClaw、WinClaw等开箱即用产品适合普通用户
- 需要深度定制:OpenClaw、TuriX-CUA、PC-Agent等开源框架适合开发者
- 企业级需求:实在Agent、微软Copilot Studio提供更稳定的企业级解决方案
- 特定场景:OfficeCLI专注于Office文档操作,QQ浏览器助理专注于浏览器内文档处理
这些工具正在快速演进,从简单的对话助手发展为能够真正操作电脑的"数字管家",大幅提升了工作效率和自动化水平。
夜雨聆风