AI 早八点丨 No.33 腾讯马维斯上手:一句话操控电脑,是噱头还是真香?

2026年5月20日，腾讯发布系统级AI助手Marvis。

它不只是聊天机器人，而是把AI直接嵌进电脑和手机：改设置、找文件、控设备、管任务，一句话就能完成。Windows、Mac、安卓三端开放，每人每天1000万免费Token。

我实测一周，并和Copilot、AutoGLM、Claude Computer Use做了对比。结论很明确：Marvis可能是目前最完整的系统级AI助手，但它也不是没有坑。

用了20年电脑，我第一次感觉它真的“听得懂人话”。

找上个月的报告、整理成表格；检测电脑能不能跑《黑神话：悟空》；把手机身份证照片传到电脑并合成PDF；甚至监控机票价格，低于800就提醒我。

这些过去要翻文件、查配置、传照片、排版、刷网页的操作，现在一句话就能完成。

这就是腾讯Marvis。

它不是普通聊天机器人，而是长在操作系统里的AI管家。

● ● ●

Marvis到底是什么：不是Chatbot，是AI管家

Marvis最关键的定位，是“操作系统级AI助手”。

普通大模型只能在对话框里回答问题，而Marvis直接进入系统内部：改设置、找文件、控应用、调硬件，还能跨设备操作手机。

它背后不是一个单独助手，而是一套6个Agent组成的AI团队：主Agent负责理解需求、拆解任务、调度执行，其他专项Agent分别完成具体操作。

所以它真正改变的，不是聊天方式，而是人和电脑的交互方式。

图：Marvis多Agent协作架构示意图（3+2分层布局）

Marvis聪明的地方在于：用户不用再记功能入口。

你只要说出目标，AI会自己拆步骤、找路径、完成操作。对职场人是提效工具，对长辈来说，也降低了电脑和手机的使用门槛。

更实用的是，它有两种模式：效率模式走端云协同，复杂任务响应更快；隐私模式走本地模型，数据不出设备，断网也能用。

这也是它和很多竞品拉开差距的地方。

● ● ●

六大实测场景：它到底能做什么

我挑了六个最常用也最能体现实力的场景，逐一测试。每个场景都给出结论：好用、能用但有坑、还是鸡肋。

场景一：文件内容搜索★ 好用

我让Marvis在在图库里面里找包含openAI创始人萨姆奥特曼元素的图片。

我测试文件搜索时，Marvis不是一上来就硬扫。

它会先按文件名快搜，找不到再切换策略，用图像分析逐张排查。哪怕翻了100多张图，最后也能定位到目标。

如果关键词很明确，比如“字节跳动估值”，它又能直接命中文件名，Token消耗明显更低。

这说明它不是蛮干，而是有分层搜索逻辑：先快搜，再深搜。

verdict：文件内容搜索能力超出预期，但图像类搜索Token消耗偏高。建议优先用关键词明确的指令。

场景二：系统配置检测与优化★ 好用

我问Marvis：“我的电脑能跑《黑神话：悟空》吗？”

它没有泛泛而谈，而是直接读取本机硬件信息，列出CPU、显卡、内存、硬盘等配置，再和游戏推荐配置逐项对比。

最后结论很清楚：显卡还能打，但CPU、内存和硬盘拖后腿。

它给出的建议也很实用：优先升级内存，性价比最高，提升最直接。

这不是简单查网页，而是Marvis的Computer Agent直接读取系统底层信息。

所以它能判断你的电脑配置能不能跑游戏，也能帮你找到系统设置入口。

我还试了让它“把电脑主题调成绿色”。它虽然没有一步改完所有细节，但已经自动定位到主题色设置页面。

对很多人来说，最麻烦的不是怎么调，而是入口藏在哪。Marvis先把这一步解决了。

verdict：系统信息读取能力非常实用，尤其适合不熟悉电脑配置的用户。但"一键调整"的能力还有提升空间，目前更多是"定位入口+给出建议"。

场景三：手机随时操作电脑★ 好用

Marvis支持手机连接电脑，实时查看电脑任务执行画面，随时可以接管。电脑上能完成的任务，通过手机远程也能完成，为你打造可以随身携带的个人电脑

verdict：跨端体验是目前市面上最完整的，不是"传个文件"这么简单，而是真正的远程可视化操控。前提是你得习惯在手机上操作电脑界面。

场景四：AI图库与照片整理△ 能用但有坑

我还试了图片整理。

一句话让Marvis把相册按人像分类，再把旅行照片单独拎出来。它能根据人物、内容主题、节日、地点等维度自动归类。

对那种桌面和相册常年乱成一团的人来说，这功能真的很实用。

以前整理照片靠耐心，现在可以直接交给AI。

当然，它也不是完全没短板。

照片一多，处理速度会明显下降。我测试了一个3000张照片的文件夹，整理大概花了8分钟。

而且在人像识别上，精度还不够稳。比如同一个人，戴口罩的侧脸和正面照，可能会被分到不同组。

所以它能大幅省事，但还没到完全不用人工检查的程度。

verdict：功能实用，但大规模图库处理速度和分类精度需要提升。适合日常几百张照片的整理，不适合专业摄影师上万张的图库管理。

场景五：浏览器自动化与信息监控△ 能用但有坑

我还测了一个更复杂的任务：

让Marvis搜索GitHub本周热门AI项目，并生成一个可视化HTML页面，要求能点击跳转、黑白配色、简约风格。

这个任务不只是“找资料”，还包含网页搜索、信息筛选、代码生成和页面设计。

也就是说，它要同时完成搜索助手、产品经理和前端开发的工作。

Marvis的Browser Agent确实能接管网页，完成搜索、交互和数据抓取。

像新闻整理这类任务，它表现不错：能自动分类、提炼重点，还会附上来源。

但网页监控就有明显限制：Marvis必须一直在后台运行。电脑一休眠，或者软件被关掉，监控就中断。

而且它目前不会主动推送到手机，结果还得自己回来查看。

verdict：Browser Agent适合一次性信息抓取和整理，"定时监控+主动提醒"的闭环还没完全打通。如果你想让它7x24小时盯盘，目前还不现实。

场景六：文件深度理解与生成★ 好用

Marvis可对本地的文档、表格等多种类型文件进行深度理解分析，支持文档内容优化、图表生成、文案润色、格式转换等，办公学习效率蹭蹭提升

verdict：隐私模式是Marvis的差异化王牌。合同审查、财务报表分析、员工信息处理等敏感场景，数据不出域的保障让它比任何云端AI都更适合企业使用。

● ● ●

四大系统级AI助手横向对比：谁更能打

Marvis不是第一个做系统级AI的。Microsoft Copilot、智谱AutoGLM、Claude Computer Use都在这个赛道。我选了六个维度做横向对比。

图：四大操作系统级AI助手能力雷达对比

横向对比下来，Marvis的优势不在单点最强，而在整体最均衡。

它同时覆盖系统控制、文件管理、跨端协同、隐私模式、开箱即用和免费Token，多Agent加双模式，形成了比较完整的产品壁垒。

Copilot胜在Windows原生集成，但大陆使用受限，系统级能力也依赖Copilot+ PC。

AutoGLM性价比高，跨端不错，但系统控制和文件搜索不如Marvis。

Claude Computer Use更偏研究工具，靠截图理解屏幕，灵活但效率低，也缺少底层系统读取和跨端协同。

所以Marvis真正领先的地方，是把这些能力做成了普通人能直接用的消费级产品。

图：适用场景覆盖能力对比

从场景覆盖看，Marvis在办公效率、文件整理、系统运维、远程控制、隐私安全、应用操控、信息搜索七个场景中全面领先。AutoGLM在远程控制场景表现较好好（8分），但其他场景明显落后。Copilot在系统运维和信息搜索上尚可，但文件整理和隐私安全是短板。

● ● ●

几个需要知道的坑

Marvis很强，但也有几个明显短板。

第一，Token消耗不低。比如图像搜索100多张图，就用了约200万Token。免费额度现在够用，但以后怎么收费，还得看。

第二，复杂任务不一定快。多Agent协同会带来更长执行链路，有些简单操作，手动反而更快。

第三，iOS还没补齐。苹果用户想体验完整跨端协同，还得等。

第四，应用授权有限。目前能操控的App还不够多，微信、PS、Figma这类高频工具还没完全接入。

第五，大图库处理仍需优化。3000张照片整理约8分钟，人像分类也会出现误分。

所以Marvis不是万能工具，而是一个很有潜力、但仍在完善中的系统级AI助手。

● ● ●

写在最后：AI助手的下一个形态

Marvis的意义，不只是多了一个AI助手。

它代表AI正在从“对话工具”，变成“系统级智能中枢”。

以前是我问、AI答，边界在聊天框里。现在是我说目标、AI执行，边界变成整个操作系统。

对电脑小白和长辈，它省掉了找入口、记路径、学步骤的麻烦。

对职场人，它能接管文件整理、跨端传输、批量处理、信息搜索这些重复劳动。

对隐私敏感场景，它还能用本地模式，让数据不出设备，断网也能工作。

但这不是AI取代人，而是AI帮人做繁琐操作，人继续负责判断和决策。敏感操作需要确认，高风险操作直接拒绝，这才是系统级AI该有的边界感。

Marvis还不完美，但它指了一个方向：未来的电脑，可能不再靠一层层点开，而是用一句话唤醒。

● ● ●

参考资料：腾讯Marvis官网(marvis.qq.com)、央广网2026年5月21日报道、新京报贝壳财经、智东西实测报告、腾讯云开发者社区技术文档、Microsoft Copilot官方文档。