
大模型卷了两年,一个越来越清晰的共识是:光会聊天不行,得能干具体的活。
过去一年,从微软Copilot到Claude的Computer Use,从豆包到各类Agent产品,各家都在尝试让AI从浏览器和对话框里走出来,真正接管用户电脑上的具体操作。

但这条路比预想中难走——应用层的权限限制、端侧算力的部署成本、用户对隐私的本能顾虑,每一项都是硬骨头。
腾讯今天上线的 Marvis,是这个赛道最新的一个玩家。定位 “操作系统层级AI助手” ,由腾讯应用宝团队研发,已在Windows、Mac、安卓三端上线。

没有炫技的发布会,但从产品架构来看,它在几个关键问题上给出了自己的技术方案。
一、从应用层沉到系统层,Agent的权限边界被重新划了一次
开屏暴击:这下真是“牛马”了!
这个模型加载页面真的是笑死我了,感同身受了,呜呜呜~~~

不同于其他AI助手,Marvis不只是给你操作指南,而是直接替你执行。

场景一:硬件检测这几天地平线6挺火热的,小媛我就想知道电脑能不能带动?就问了问它。Marvis自动读取CPU、内存、显卡的实时数据,联网匹配游戏配置要求,几秒给出结论,附带瓶颈分析。

场景二:系统优化最近小媛也是发现我的笔记本电脑开机越来越慢?于是我就让Marvis扫描所有自启项,列出清单并附功能说明,确认后一键关闭。 
再它一顿操作后,终于是弄好了,这下再也不用在任务管理器里猜哪个进程能关。
场景三:批量处理几十个PDF转Word,图片统一改格式?一句话下达指令,Marvis自己调用对应软件执行。

这些场景单独看都是“小方便”,但背后涉及一个关键问题:Agent的权限能触达系统多深。 市面上多数Agent产品运行在应用层,靠模拟点击或调用开放API。Marvis背后的团队在PC端有超过十年的底层积累,跟英特尔、微软有长期技术合作,这让它能读取硬件传感器实时数据、调用更深层的系统接口——可操作范围更广,复杂任务的执行链路更短。
二、多Agent协同 + 硬性安全兜底
Marvis采用 “1主+5副” 的Agent协同架构:

实战案例: “把上周销售周报PDF转Excel,只保留华东区数据,发给张总”——Marvis自动串联转换、筛选、发送三个步骤,无需逐步指令。
一个容易被忽略但影响体验的设计是 流程可视化。
各Agent执行任务时界面弹出动画形象,用户能实时看到进度和当前负责人,而不是盯着转圈圈的加载图标。

这个细节,对于耗时长的多步骤任务,直接决定了心理等待体验。
安全机制: Marvis设了L2级硬性阻断。涉及删文件、修改系统核心配置等敏感操作,强制弹窗列出执行计划,等用户手动确认后才执行;

支付等更高敏感级别必须用户本人操作。这不是可跳过的“温馨提示”,而是嵌在执行链路里的技术卡口。
三、隐私保护的核心不是“有本地模式”,而是任务分层路由
AI助手要替人干活,就必须读取文件。对处理合同、报表、内部文档的用户来说,敏感数据上云几乎不可接受——这是企业场景的核心堵点。
Marvis的解决方案是 双模式 + 任务分层:

效率模式: 端云协同,处理复杂意图 隐私模式: 数据解析、文字识别、推理全在本地完成,文件不出电脑,断网也能运行
底层支撑是腾讯混元端侧模型,压缩到约 600MB,普通电脑可流畅运行。
更有工程价值的是 任务分层路由机制。Marvis会判断任务复杂度,能在本地完成的预处理尽量不上云,只有本地无法处理的复杂意图才调用云端。这既减少数据流转,也压低Token消耗。

目前每天免费提供 1000万Token 额度,日常使用基本够用。端侧能力持续增强后,免费模式的成本结构也更可持续。
四、跨端能力叠加AI调度,远程桌面这个老功能长出了新东西
Marvis支持手机与电脑直连,手机端可实时查看电脑屏幕并远程操作。这个功能本身不算新,远程桌面工具已存在多年。

变化在于 AI能力的叠加。用户在手机端不只是“看到”电脑,而是可以直接对Marvis下指令:
“把刚下载的文件传到手机上” “检查一下电脑电池健康状态”
AI去操作电脑执行,用户不需要自己远程操控鼠标键盘。

体验从“远程看屏幕”升级为 “远程指挥电脑干活”。对于下班路上临时处理工作、周末调取办公电脑文件的碎片化场景,操作摩擦明显降低。
跨端能力背后是团队在PC和移动端双端底层生态的长期积累。这不是一个纯AI团队能快速补齐的能力项。
五、 大模型竞赛进入下半场,操作系统正在成为新的分水岭
把Marvis放在更大的行业背景里看,它的上线指向一个正在加速的趋势:大模型的能力正在从云端下沉到终端设备,从对话框扩展到操作系统层级。

微软Copilot在中国的覆盖和服务能力存在明显缺口,苹果的Apple Intelligence本地化落地也还在路上。Marvis产品负责人对此有一个直接的说法:
“中国市场大概只占微软全球收入的1.5%,它的精力就是这1.5%,但这个市场是我们的100%,决心和投入自然不一样。”
这不是一句商业表态,它揭示了一个逻辑——操作系统层级的AI助手,是一个高度依赖本地化、需要跟系统底层和用户习惯深度绑定的产品形态。 大厂的全球产品覆盖不到的地方,就是区域团队的窗口期。
Marvis目前还没有一个让用户非用不可的杀手级场景,产品经理自己也坦诚这一点。但它把 系统层嵌入深度、多Agent协同可视化、端侧隐私方案和跨端AI调度 这几个能力打包成了一个完整的工程方案。

这是一次渐进式的实验,而非颠覆式的宣告。
1995年微软尝试过让电脑界面变成普通人能理解的“家”,那个叫Microsoft Bob的产品失败了。三十年后,技术条件已经完全不同。让机器适应人而不是人适应机器,这个方向本身,比某一个具体产品更重要。
the end

夜雨聆风