文章目录
1. 为什么这事值得写 —— AI 助手终于从"聊天"走进了"操作系统" 2. Marvis 到底是什么? 3. 核心架构:1 个主 Agent + 5 个副 Agent 怎么分工? 4. 安装与上手 5. 实测环节 6. 它跟别的 AI 工具到底差在哪? 7. 当前的不足 8. 总结:它适合谁?你要不要用?
1. 为什么这事值得写 —— AI 助手终于从"聊天"走进了"操作系统"
过去我们用的大多数 AI 是 ChatBot:你把问题说清楚,它把答案“说”回来;最多再给你一段代码让你自己去跑。
Marvis 的不同在于它被官方定义为 操作系统层级的个人 AI 助手(OS-level assistant):它不止“回答”,而是尝试把系统/文件/应用/跨端纳入同一个对话入口,让你用自然语言驱动执行。
一个好用的类比(但不一定严谨):
ChatGPT/元宝等:像“很聪明的顾问” Marvis 想做的是:“顾问 + 有权限的行政助理”,能去看文件、改设置、操作应用,并在关键步骤把控制权还给你确认
2. Marvis 到底是什么?
出身:Marvis(马维斯)由腾讯应用宝团队推出,官网 marvis.qq.com 提供下载入口,报道指向 2026/5/20前后开放/上线节奏。 本质:它不是挂在浏览器里的问答页,而是一个装在设备上的 AI中间层/调度中心:对本地文件系统、软硬件信息、应用生态做深度理解,再把任务分给不同能力模块去执行。 关键产品形态:
效率模式:端云协同,“又快又准”的体验向
隐私模式:端侧模型思路,强调“文件 0 上传”“最大程度保护隐私”,并可谈“断网也能用”
3. 核心架构:1 个主 Agent + 5 个副 Agent 怎么分工?
公开报道反复出现的叙事是:主 Agent 负责理解需求 → 拆解 → 调度,并由一组专项 Agent(File / Computer / App / Browser / Search 等口径)去“各司其职”,并用执行日志/产出区把过程摊开给你看
| 主 Agent | ||
| File Agent | ||
| Computer Agent | ||
| App Agent | ||
| Browser Agent | ||
| Search Agent |
4. 安装与上手
4.1 下载(唯一建议入口) 官网:https://marvis.qq.com
4.2 系统要求(官网所述)
CPU:≥ 6 核内存:≥ 16GB硬盘:固态硬盘系统:Win10 及以上,x64 (Mac/Android 也有对应入口)
4.3 第一次跑起来的关键步骤(建议)
- 装完启动 → 扫码登录
- 权限要给到位
(否则就会出现你说的“什么都听不懂/干不动”的假象): 文件读写 系统设置/设备管理类权限 应用操控/辅助功能 屏幕录制/截图类权限 - 选模式
:效率模式 vs 隐私模式 全局唤醒快捷键:去「设置 → 快捷键」确认/改成你舒服的键位。
5. 实测环节
光说不练假把式。下面我用一个真实、高复杂度的任务,来验证这套 Agent 架构是不是“真干活”。
场景 :学生/职场人的“信息录入地狱”——35张手写/板书截图秒变结构化 Word
测试目的: 市面上大多数 AI 只能处理纯文本,面对图片(尤其是 PPT 截图、手写笔记)往往无能为力,或者需要人工先转成文字。我想测试 Marvis 的多模态识别能力,以及它能否在不拆解指令的情况下,一次性搞定“识别 + 分类 + 排版 + 格式转换”的全链路闭环。
输入指令(极高难度): “这是我刚才上课截屏的笔记帮我整理出来。这个是六级写译部分的,照片黄色高亮的你就用红色高亮,做成 Word 文件形式的笔记,便于我复习。” (注:我在此处一口气上传了 35 张课堂板书截图)

第一轮:意图对齐
Marvis 没有直接开始干活,而是先进行了一波“反向提问”。它识别出图片数量庞大(35张),于是给出了三个方案:
A. 按照片顺序逐页整理 B. 按知识点分类整理(如写作技巧、翻译技巧) C. 两者结合
💡 我的评价 这点非常像经验丰富的项目经理。它没有盲目执行,而是先确认交付标准,避免了返工。
第二轮:内部调度与降本增效
当我选择了“C风格(分类+保序)”后,Marvis 展示了它作为 OS-Agent 的杀手锏——内部 Task Dispatching(任务分发)。
- 主 Agent 的思考
:“用户需求是批量 OCR 和生成 Word,这属于文件处理范畴。如果我用通用的图片分析接口(analyze_image),35张图要调用 4 次,成本高且慢。” - 决策
:它决定“派发给 File Agent 来处理”。
💡 我的评价 这是这篇文章的核心卖点!很多 AI 工具遇到这种活会直接崩掉或者让用户分批传。Marvis 展现了“系统内聚性”,主脑知道谁擅长干这个,直接把任务外包给了专门管文件的 Agent,还附带了“拍了拍”这种拟人化的进度催促。
第三轮:容错与重试
在执行过程中,File Agent 似乎遇到了一点网络或资源的小卡顿。主 Agent 立即接管,发现“未完成产出”,随即重新派发(Re-dispatch),直到任务彻底跑通。
最终交付物:


最终生成的 六级写译笔记.docx不仅是一个简单的文本堆砌,而是一个结构化的知识库:
- 智能分类
:自动将散落在 35 张图中的内容归纳为“被动语态”、“非谓语动词”、“复合句”等六大知识点。 - 格式还原
:完美兑现了“黄色高亮变红色”的承诺。 - 极速交付
:全程无需人工干预,自动调用 python-docx 等底层工具生成了 .docx文件。
💡 实测结论:
如果你经常需要把微信聊天记录里的图片、扫描版 PDF 或者 PPT 截图整理成电子笔记,Marvis 的“File Agent + 多模态”组合是目前为止我见过最省心的方案。它把原本需要 1 小时的“Ctrl+C / Ctrl+V”苦力活,压缩到了 5 分钟,且准确率极高。
6. 它跟别的 AI 工具到底差在哪?
| 定位 | |||
| 开箱即用 | |||
| 隐私控制 | |||
| 跨端 PC↔手机 |
一句话结论:Marvis 的核心不在“模型更强”,而在它试图把 权限 + 索引 + 调度 + 可视化 做成一套“装完就能指使人干活”的壳。
7. 当前的不足
- 稳定性/适配面
:系统级操作永远绕不开“不同机型/不同 OEM定制/不同权限策略”导致的成功率波动(尤其笔记本厂商自带管家、企业镜像、组策略环境)。 - 隐私模式的代价
:本地模型路线通常意味着“复杂推理上限”更低、响应更慢、更吃硬件;官网也把推荐配置写得不低(≥6核/16GB/SSD)。 - GUI自动化天花板
:凡是靠“看见界面再点”的流程,遇到窗口被遮挡、缩放/DPI异常、远程桌面、多显示器,都会更容易翻车——这时它的“拆解+确认”反而是护身符。 - iOS 进度
:还在“在路上”的阶段,需要以官网更新为准。
8. 总结:它适合谁?你要不要用?
- 更适合
:文件重度堆积者、经常做“找文档→摘要点→整理”的人、想少点记设置路径的普通用户、对“数据不出设备”有刚需的场景(切隐私模式再试)。 - 不适合
:期待它像电影里贾维斯一样“全自主、零确认、零出错”的人——目前任何 OS-level Agent 夸大成这样都不诚实。 - 我的判断
:它最大的价值是把“AI 能理解本地”这件事做成产品化入口;你能不能留下,取决于你愿不愿意让它索引你的目录 + 你机器性能撑不撑得住日常开着的代价。
夜雨聆风