AI智能体操控电脑走到哪一步了?Minimax点鼠标,Marvis调API

6月1日，MiniMax发布M3，亮点很多：编程超GPT-5.5，1M上下文，原生多模态。但值得深挖的一个能力是Computer Use。

Computer Use，简单说就是AI直接操控你的电脑桌面，像人一样点击、输入、切换窗口。这不是新概念，Anthropic的Claude去年10月就做了，OpenAI的Codex 5月底刚上了Windows版。

但M3是第一个把Computer Use写进模型核心能力的国产大模型。

这件事比跑分重要。因为AI Agent从"对话"到"行动"，Computer Use是关键的那座桥。

01 Computer Use是什么

传统多模态模型能看屏幕截图，告诉你"这是一个Excel表格"。Computer Use要求模型看完截图后，判断"下一步应该点击B3单元格，输入公式"。

这两者之间的差距，就像认路和开车。认路只需要眼睛，开车需要手眼协调加判断。

MiniMax的Computer Use通过MiniMax Code平台提供。用户在手机上说"帮我打开本地那个季度报告，把销售额汇总成表格发到群里"，Agent会操控电脑桌面完成整个流程：打开文件夹、找到文件、操作Excel、复制数据、打开微信、粘贴发送。

4月14日，MiniMax Agent桌面端就上线了Computer Use功能，比M3发布早了将近两个月。M3发布后，这项能力从"桌面端功能"升级为"模型原生能力"，区别在于：以前是外挂模块在操控，现在是模型本身理解桌面交互。

02 两种操控逻辑

MiniMax路线：视觉操控，模型即Agent

M3同时具备编程、1M长上下文、原生多模态三项能力，Computer Use是这三项能力的交汇点。编程能力让它理解操作逻辑，长上下文让它记住多步任务的状态，多模态让它看懂桌面截图。Claw-Eval（面向自主Agent的端到端评测框架）上M3拿到最高分，超过Gemini 3.1 Pro，核心优势就在这里。

目前M3可以接入飞书、微信、企业微信、Slack等主流IM。这相当于给Computer Use装了"通讯模块"，AI操控电脑的同时还能通过聊天软件和人交互。

腾讯Marvis路线：API调用，6个专职Agent

5月20日，腾讯应用宝团队推出Marvis，定位"操作系统层级AI助手"。它也能操控电脑，但方式和M3完全不同：不走视觉操控，走系统API路线。Marvis出厂预置6个Agent（主Agent + File/Computer/App/Browser/Search），每个Agent只做自己的事。改系统设置，Computer Agent直接调系统API改注册表；管文件，File Agent直接调文件系统接口。不截图，不模拟鼠标，不点按钮。

路线区别不只是"谁更强"，而是它们在解决不同的问题。

03 视觉操控 vs API调用

MiniMax和Marvis是国内"AI操控电脑"最有代表性的两家，但操控逻辑完全不同。拆开看，区别在三个层面。

操控方式：截图模拟 vs 接口直调。

M3看桌面截图，判断"下一步该点哪里"，然后模拟鼠标点击和键盘输入，像人坐在电脑前操作。Marvis调系统API，直接改注册表、读写文件、管理应用，跳过界面层，像一个会编程的助手在后台执行命令。

改系统设置、管文件这种有标准API的事，Marvis更靠谱，不会点错。但遇到没有API的场景（操作第三方软件界面、填网页表单等），M3的视觉操控才有用武之地。

架构：1个全能模型 vs 6个专职Agent。

M3是一个模型包揽理解、规划、操控全流程。优势是跨应用时不需要Agent之间切换协调，1M上下文可以记住整个任务链。劣势是单点复杂度高，出错后不好定位是理解出错还是操控出错。

Marvis的6个Agent各司其职，Computer Agent专门负责桌面操控，Browser Agent专门负责网页操作。分工明确，单点稳定，但Agent之间的协调是隐性成本。

定位：开发者工具 vs 电脑管家。

M3搭配MiniMax Code，定位偏开发者和技术用户。核心场景是跨应用自动化、编程任务、长程复杂操作，使用者需要对Agent工作方式有基本理解。

Marvis面向普通用户。核心场景是整理文件、改系统设置、手机远程操控电脑，日常但不需要编程能力。还有隐私模式：数据完全不上云，端侧模型本地推理，断网也能用。

04 三个场景，三个答案

跑分赢了，能力列表有了，但AI操控电脑好不好用，要看三个关键场景。

场景一：非标准界面

企业内部系统、老旧ERP、定制化工具，这些界面没有统一的交互规范。模型训练时见过Chrome和Excel，但可能没见过你们公司的OA系统。这时候多模态的"看图理解"能力就变得关键。

反过来，如果企业OA有标准API接口，Marvis的API路线反而更稳定。选谁，取决于你的系统有没有API，这是两条路线最核心的分水岭。

场景二：跨应用操作

从Word复制数据到Excel，再从Excel生成图表粘贴到PPT。这需要模型同时理解三个不同软件的界面逻辑，并且在切换时保持任务状态不丢失。M3的1M上下文在这里派上用场：操作步骤越多，需要的记忆越长。

这种场景Marvis的API路线目前很难覆盖，因为没有标准接口可以直接操控Office套件的内部操作。

场景三：手机远程操控

MiniMax Code和Marvis都支持这个场景。MiniMax打通了微信和飞书，Marvis通过安卓端+云端同步实现手机操控电脑。实现路径不同，体验差异不大。但难点一样：手机网络断了，Agent的操作怎么续上？这个问题的解决程度，直接决定产品能不能从demo变成工具。

05 小结

Computer Use目前处于什么阶段？用自动驾驶做类比：大概在L2到L3之间。

两条路线在这个阶段的表现不同。Marvis走API路线，可控性强，在L2阶段更稳定——调接口不会点错按钮，但天花板也清晰：没有API的世界，它进不去。

M3走视觉路线，上限更高——理论上任何有人能操作的界面它都能尝试，但失误率也更明显，Claude踩过的坑它大概率也要踩一遍。

Computer Use的瓶颈不只是模型能力，还有桌面环境的碎片化。每个企业用的软件不一样，每个系统的布局不一样，AI需要在无限多的界面变体中找到规律。

但方向是对的。AI从"对话"到"行动"，Computer Use是必经之路。两条路线不是谁替代谁，而是互相补充——有API的事让管家干，没API的事让操作员试。

欢迎评论区留言交流~