6月1日,MiniMax发布M3,亮点很多:编程超GPT-5.5,1M上下文,原生多模态。但值得深挖的一个能力是Computer Use。
Computer Use,简单说就是AI直接操控你的电脑桌面,像人一样点击、输入、切换窗口。这不是新概念,Anthropic的Claude去年10月就做了,OpenAI的Codex 5月底刚上了Windows版。
但M3是第一个把Computer Use写进模型核心能力的国产大模型。
这件事比跑分重要。因为AI Agent从"对话"到"行动",Computer Use是关键的那座桥。
01 Computer Use是什么
传统多模态模型能看屏幕截图,告诉你"这是一个Excel表格"。Computer Use要求模型看完截图后,判断"下一步应该点击B3单元格,输入公式"。
这两者之间的差距,就像认路和开车。认路只需要眼睛,开车需要手眼协调加判断。
MiniMax的Computer Use通过MiniMax Code平台提供。用户在手机上说"帮我打开本地那个季度报告,把销售额汇总成表格发到群里",Agent会操控电脑桌面完成整个流程:打开文件夹、找到文件、操作Excel、复制数据、打开微信、粘贴发送。
4月14日,MiniMax Agent桌面端就上线了Computer Use功能,比M3发布早了将近两个月。M3发布后,这项能力从"桌面端功能"升级为"模型原生能力",区别在于:以前是外挂模块在操控,现在是模型本身理解桌面交互。
02 两种操控逻辑
MiniMax路线:视觉操控,模型即Agent
M3同时具备编程、1M长上下文、原生多模态三项能力,Computer Use是这三项能力的交汇点。编程能力让它理解操作逻辑,长上下文让它记住多步任务的状态,多模态让它看懂桌面截图。Claw-Eval(面向自主Agent的端到端评测框架)上M3拿到最高分,超过Gemini 3.1 Pro,核心优势就在这里。
目前M3可以接入飞书、微信、企业微信、Slack等主流IM。这相当于给Computer Use装了"通讯模块",AI操控电脑的同时还能通过聊天软件和人交互。
腾讯Marvis路线:API调用,6个专职Agent
5月20日,腾讯应用宝团队推出Marvis,定位"操作系统层级AI助手"。它也能操控电脑,但方式和M3完全不同:不走视觉操控,走系统API路线。Marvis出厂预置6个Agent(主Agent + File/Computer/App/Browser/Search),每个Agent只做自己的事。改系统设置,Computer Agent直接调系统API改注册表;管文件,File Agent直接调文件系统接口。不截图,不模拟鼠标,不点按钮。
路线区别不只是"谁更强",而是它们在解决不同的问题。
03 视觉操控 vs API调用
MiniMax和Marvis是国内"AI操控电脑"最有代表性的两家,但操控逻辑完全不同。拆开看,区别在三个层面。
操控方式:截图模拟 vs 接口直调。
M3看桌面截图,判断"下一步该点哪里",然后模拟鼠标点击和键盘输入,像人坐在电脑前操作。Marvis调系统API,直接改注册表、读写文件、管理应用,跳过界面层,像一个会编程的助手在后台执行命令。
改系统设置、管文件这种有标准API的事,Marvis更靠谱,不会点错。但遇到没有API的场景(操作第三方软件界面、填网页表单等),M3的视觉操控才有用武之地。
架构:1个全能模型 vs 6个专职Agent。
M3是一个模型包揽理解、规划、操控全流程。优势是跨应用时不需要Agent之间切换协调,1M上下文可以记住整个任务链。劣势是单点复杂度高,出错后不好定位是理解出错还是操控出错。
Marvis的6个Agent各司其职,Computer Agent专门负责桌面操控,Browser Agent专门负责网页操作。分工明确,单点稳定,但Agent之间的协调是隐性成本。
定位:开发者工具 vs 电脑管家。
M3搭配MiniMax Code,定位偏开发者和技术用户。核心场景是跨应用自动化、编程任务、长程复杂操作,使用者需要对Agent工作方式有基本理解。
Marvis面向普通用户。核心场景是整理文件、改系统设置、手机远程操控电脑,日常但不需要编程能力。还有隐私模式:数据完全不上云,端侧模型本地推理,断网也能用。
04 三个场景,三个答案
跑分赢了,能力列表有了,但AI操控电脑好不好用,要看三个关键场景。
场景一:非标准界面
企业内部系统、老旧ERP、定制化工具,这些界面没有统一的交互规范。模型训练时见过Chrome和Excel,但可能没见过你们公司的OA系统。这时候多模态的"看图理解"能力就变得关键。
反过来,如果企业OA有标准API接口,Marvis的API路线反而更稳定。选谁,取决于你的系统有没有API,这是两条路线最核心的分水岭。
场景二:跨应用操作
从Word复制数据到Excel,再从Excel生成图表粘贴到PPT。这需要模型同时理解三个不同软件的界面逻辑,并且在切换时保持任务状态不丢失。M3的1M上下文在这里派上用场:操作步骤越多,需要的记忆越长。
场景三:手机远程操控
MiniMax Code和Marvis都支持这个场景。MiniMax打通了微信和飞书,Marvis通过安卓端+云端同步实现手机操控电脑。实现路径不同,体验差异不大。但难点一样:手机网络断了,Agent的操作怎么续上?这个问题的解决程度,直接决定产品能不能从demo变成工具。
05 小结
Computer Use目前处于什么阶段?用自动驾驶做类比:大概在L2到L3之间。
两条路线在这个阶段的表现不同。Marvis走API路线,可控性强,在L2阶段更稳定——调接口不会点错按钮,但天花板也清晰:没有API的世界,它进不去。
M3走视觉路线,上限更高——理论上任何有人能操作的界面它都能尝试,但失误率也更明显,Claude踩过的坑它大概率也要踩一遍。
Computer Use的瓶颈不只是模型能力,还有桌面环境的碎片化。每个企业用的软件不一样,每个系统的布局不一样,AI需要在无限多的界面变体中找到规律。
但方向是对的。AI从"对话"到"行动",Computer Use是必经之路。两条路线不是谁替代谁,而是互相补充——有API的事让管家干,没API的事让操作员试。
欢迎评论区留言交流~
夜雨聆风