2026年5月20日,腾讯正式上线了一款名为Marvis(马维斯)的操作系统层级AI助手。在“AI助手”一词几乎已被行业透支的当下,Marvis的打法颇具差异化——它不是嵌在某个App里的对话机器人,也不是浏览器插件,而是一款能触达操作系统底层、调度多个AI Agent协同执行任务的产品。

与上一轮AI应用不同,Marvis在技术架构上实现了三项关键突破:将传统AI助手的“对话窗口”交互升级为“操作系统API直达”的执行范式;通过6-Agent原生协作体系实现了任务级的并行调度;构建了端云协同的智能路由策略。这些技术特性使Marvis成为首个将Multi-Agent架构做成消费级产品的案例。本文将从技术架构、竞品对位、产品定位、战略价值及局限等维度,为CIO群体勾勒一幅兼具技术纵深与商业判断力的分析图景。

技术架构深度拆解:从“对话窗口”到“系统API”
1.1 架构突破的核心逻辑
传统AI助手的交互范式为“用户 → AI聊天窗口 → 输出文本”,作用范围局限于对话窗口内。Marvis则将这一范式重构为“用户 → 自然语言 → 操作系统API → 文件/设置/应用/硬件”,将整个操作系统纳入AI的作用域。
这种架构层面的跃迁,意味着Marvis并非运行在应用层的对话程序,而是嵌入系统底层的AI中间层。它能够穿透操作系统抽象层,直接访问Windows系统设置、硬件信息、进程管理与文件系统。用户可通过自然语言完成查询CPU型号、内存占用、电池健康度,检测硬件能否流畅运行指定游戏,或一键调整鼠标灵敏度、清理系统冗余文件等操作。
底层的技术支撑来自两个维度:芯片层,腾讯与英特尔深度合作,借助OpenVINO工具套件在英特尔酷睿Ultra平台上实现CPU、GPU、NPU的异构计算优化,充分释放端侧AI推理性能;系统层,与微软在WinML推理框架上协同优化,使大模型在本地NPU、GPU和CPU上的推理效率显著提升。

1.2 六大Agent架构的技术实现
Marvis出厂预置了由6个Agent组成的协作体系,核心架构为“1个主Agent + 5个专业Agent”:
| Agent | 技术实现 | 典型能力 |
|---|---|---|
| PM Agent(主Agent) | 云端混元/DeepSeek V4做复杂意图理解与任务拆解 | 拆解指令、分派子任务、汇总结果 |
| File Agent | 本地文件索引 + 语义搜索(图片文字/人脸/场景识别) | 模糊描述定位文件,批量处理发票生成Excel |
| Computer Agent | Windows API直调(非模拟点击),硬件检测走系统调用 | 磁盘清理、开机项管理、游戏兼容性检测、注册表编辑 |
| App Agent | GUI视觉识别 + 模拟操作,支持EXE和安卓App | 操控同花顺查股价、微信发消息、网易云播放音乐 |
| Browser Agent | 浏览器接管 + DOM解析 | 网页数据抓取、价格监控、表单填写 |
| Search Agent | 网络搜索引擎调用 | 信息聚合 + 引用溯源 |
这一架构的设计理念是“专业的事交给专业的Agent做”。复合指令如“找出最近一个季度的发票,按时间顺序整理成表格”,可由主Agent自动拆解为文件检索、内容识别、数据提取与表格生成四个子任务并调度执行。
1.3 端云协同的路由策略与隐私模式
Marvis提供“效率模式”与“隐私模式”两种工作方式,其模式切换并非让用户手动选择,而是通过一套智能路由策略自动判定:
效率模式:复杂任务的意图理解与规划借助云端大模型(混元与DeepSeek V4),文件处理、执行动作和本地索引则在端侧完成。响应速度快,适合日常办公场景。
隐私模式:完全基于阿里Qwen端侧大模型运行,所有数据解析、图片识别与对话均在本地完成,数据完全不上云,断网状态下亦可正常使用。硬件加速统一基于Intel OpenVINO。
具体路由逻辑为:用户输入后,PM Agent判断任务类型——“帮我整理发票”走云端理解意图 + 端侧搜索识别;“分析这份合同的风险”则走纯端侧,不联网。腾讯Marvis团队前置做了大量端侧预处理,在图片搜索、文件理解等任务上减少云端Token消耗,既降低使用成本,也减少不必要的数据流转。
此外,Marvis明确承诺用户数据仅用于当下推理计算、绝不用于模型训练,并允许用户自定义索引范围,对不希望被索引的内容可随时屏蔽。
1.4 技术局限:不容回避的短板
综合早期用户实测反馈,Marvis在技术层面存在若干明显短板:
开放场景下的能力衰减。实测表明,Marvis在系统预设的固定任务中完成度较高,但一旦任务进入开放环境,表现就差强人意。例如,要求其调用电脑端PS完成公众号封面制作等复杂创意任务时,成功率显著下降。
搜索准确性与推理能力不足。早期用户反馈显示,Marvis的信息检索准确性和逻辑推理能力并未达到预期,存在联网搜索结果不够精准、对复杂指令理解不到位等问题。
多Agent协同的工程难点。多Agent架构的核心挑战不是“拆解任务”本身,而是拆解后的子任务能在规定精度内稳定完成并正确汇总。从实测来看,这一环节仍是当前AI助手的技术高地,Marvis尚未真正攻克——稳定性、长链路任务的可控执行,将成为其“能用”与“好用”之间最关键的鸿沟。

竞品对位:系统级AI市场的多维博弈
下表从系统控制深度、架构、隐私模式、跨端能力、可用性五个维度,将Marvis与当前市场主要竞品做对比:
| 维度 | 腾讯 Marvis | 微软 Copilot | Apple Intelligence | OpenAI/Claude等 |
|---|---|---|---|---|
| 系统控制深度 | Windows API直调,可操作系统设置、文件、进程 | 以应用集成和内容生成为主,系统控制能力有限,近期开始收缩AI入口 | 端侧处理为主,聚焦写作辅助、通知摘要等轻量场景,Siri大改版推迟至2026 | 无系统级控制,局限于对话窗口或代码执行环境(如OpenClaw/Claude Code) |
| 架构 | 6-Agent原生协作,主Agent拆解任务、专项Agent并行执行 | 单Agent模型,主要依托大模型对话能力 + Office套件集成 | 设备端模型 + 私有云计算,系统级整合仍在推进中 | 单Agent或需手动搭建多Agent工作流 |
| 隐私模式 | 隐私模式纯端侧运行(Qwen端侧模型),数据零上云,断网可用 | 数据主要上云处理,端侧能力有限 | 强调端侧处理(Apple Intelligence),但ChatGPT集成涉及云端 | 全部上云,OpenClaw等可本地部署但门槛高 |
| 跨端能力 | Windows/Mac/Android/iOS四端互通,支持手机远程操控电脑桌面 | 跨Windows和Office生态,移动端能力相对薄弱 | 仅限Apple生态内,安卓/Windows不可用 | 无跨端能力,ChatGPT有独立App但不可远程控设备 |
| 可用性 | 2026年5月已全量开放,无需邀请码,每日1000万免费Token | 已上线但用户首选用率从18.8%降至11.5%,企业实际使用率仅约10% | iOS 26.4预计2026年春上线,WWDC 2026完整亮相,目前大部分功能尚未落地 | ChatGPT用户基数大但定位不同,Claude Code面向开发者 |
数据来源:Marvis竞品实测;微软Copilot用户首选用率数据;Apple Intelligence延迟信息。
2.1 微软Copilot:陷入“强制集成”困境
微软Copilot曾是系统级AI赛道最受期待的选手,但近半年来遭遇明显挫折。数据显示,将Copilot列为首选AI工具的用户比例已从2025年7月的18.8%降至2026年1月的11.5%,同期Google Gemini从12.8%升至15.7%。企业实际使用率仅约10%。
用户反馈的核心痛点是“强制集成”——Mozilla公开批评微软在Windows 11中未经用户同意强制集成Copilot功能,包括自动安装、任务栏固定、硬件按键绑定等行为。微软也因此开始回撤,削减Copilot在照片、记事本、画图、文件资源管理器等应用中的入口,并允许用户将Copilot键重新映射为右Ctrl键。
这为Marvis提供了难得的窗口期:Copilot在中国市场的精力本就有限,加上品牌回撤,微软在操作系统AI领域暂时呈现出“战略收缩”的态势。
2.2 Apple Intelligence:延迟与谨慎
苹果在系统级AI上的策略极为谨慎。在WWDC 2025上,苹果展示了“Liquid Glass”视觉设计语言和一系列端侧AI功能,但备受期待的AI驱动Siri大改版被确认延迟至2026年。苹果软件工程高级副总裁Craig Federighi坦言这项工作“需要更多时间”,有报道称新版Siri虽可运行,但在性能一致性上仍面临挑战。
从时间线看,Siri的初期升级预计在2026年3月上线,但真正的“AI总攻”要到WWDC 2026才会揭晓。对于中国市场的CIO而言,Apple Intelligence短期内难以成为决策变量。
2.3 Marvis的差异化窗口
当前系统级AI市场呈现罕见的“空窗期”:微软Copilot陷入用户信任危机和战略收缩,苹果Apple Intelligence一再推迟,OpenAI/Claude等纯云端方案不具备系统级控制能力。Marvis选择在这个时机切入,凭借系统级控制深度和端云双模式架构,确实在卡位时机上占据了先手。
但这一窗口期不会太长。微软正在加速为Copilot整合OpenClaw技术试图补足执行能力,苹果2026年下半年也将全面发力。Marvis需要在这一窗口期内完成用户习惯的占领和生态壁垒的构建。

团队基因与产品定位
值得关注的是,Marvis背后的研发团队并非腾讯AI Lab或混元大模型团队,而是腾讯应用宝团队。
应用宝在腾讯体系内有着特殊的定位——它做了14年的PC和移动端底层生态工作,在跨端运行技术上积累深厚。Marvis实现的“在电脑上操作手机App”能力,直接复用了应用宝在跨端运行上的技术积累。正如Marvis产品经理所言:“应用宝十几年,所以能在电脑上跑安卓App;做过云游戏,所以云设备调度成本最低;跟微软有操作系统层面的合作,Windows文件系统接口不是谁都能拿到的。”
应用宝的转型也有着“自救”色彩。随着移动互联网红利见顶,应用宝急需一场变革。Marvis的诞生,正是应用宝团队从“应用分发工具”向“AI终端入口”跃迁的关键一跳。
在产品定位上,Marvis打出了“操作系统层级个人AI助手”的差异化牌,并刻意营造了人格化的产品体验:以马年头戴红围脖的小马形象出现,六大Agent被包装成一个虚拟办公区里的“同事”,有人去茶水间吃零食,有人去健身房活动,相互之间还会“串工位”交流。这种设计降低了AI产品的使用门槛,也让技术能力有了更温润的表达。

在腾讯AI版图中的位置:终端入口的关键落子
在腾讯的AI产品矩阵中,Marvis占据着一个独特而关键的位置。
与元宝的分工。元宝偏重表达、问答与内容处理,定位在“注意力”层;Marvis则强调操作、调度与执行,定位在“工作流”层。前者争夺用户的时间,后者争夺用户的终端入口。
与WorkBuddy的互补。WorkBuddy是腾讯面向办公场景的智能体工具,已登顶国内日活最高的办公智能体,聚焦于垂直办公效率提升;Marvis则进一步下沉至操作系统层面,覆盖更广泛的个人使用场景。
在腾讯AI战略中的位置。2026年一季度,腾讯密集推出了WorkBuddy、QClaw、ClawPro、Marvis等多款针对不同场景和用户群的Agent产品。在财报电话会议上,腾讯首席战略官James Mitchell透露,腾讯旗下布局多个旗舰AI项目。Marvis是这一布局中面向终端个人用户的关键一环。
可以这样理解:元宝是腾讯AI的“嘴”,负责输出内容;WorkBuddy是“手”,负责提升办公效率;Marvis则是“中枢神经”,试图成为用户调度电脑、手机、文件和应用的“前置界面”。

对CIO的战略价值
Marvis的价值可以从个人提效和组织变革两个维度来理解。
对个人用户,Marvis解决了“电脑操作门槛”和“文件管理混乱”两大核心痛点。对于不熟悉电脑设置的用户,一句话就能完成系统配置调整;对于职场人士,能用自然语言找到“上个月的发票”而无需记忆文件名。
对CIO和企业组织,Marvis代表的系统级AI范式具有更深远的意义。当前CIO群体正面临IT团队人力不足的结构性困境,行政与IT运维是Agent优先部署的两大领域。Marvis的系统级AI能力可覆盖IT支持、文件治理、跨端协同等多个场景,有望成为企业AI治理体系中的“终端执行层”。
尤其值得关注的是Marvis的隐私模式和端侧计算能力。隐私模式采用纯本地推理,数据完全零上云。对金融、法务、人力资源等对数据安全有严格要求的企业,这一设计提供了一条可行路径——AI辅助效率提升与数据本地化不再是非此即彼的选择。
从长期来看,Marvis所代表的“操作系统层级AI”将深刻影响CIO的IT架构决策。Gartner的研究表明,到2029年,至少一半的知识工作者将像使用移动设备一样自然地创建、治理和与Agent协同工作。届时,终端AI助手将不再是“加分项”,而是企业IT基础设施的标配。CIO需要提前规划Agent治理框架、数据安全边界和人机协作流程。

挑战与展望:方向成立,胜局未定
Marvis的多重挑战。
稳定性与信任积累。操作系统层级AI最难的不是发布演示,而是在高频任务中长期稳定、可控、低误差地执行。找错文件、误改设置、误删资料——每一次小失误都可能迅速消耗用户信任。Marvis从“能用”走到“好用”,还需跨越大规模用户使用场景下的可靠性鸿沟。
多Agent系统的工程瓶颈。多Agent架构在生产环境中面临一个核心问题:任务拆解后,各子任务的执行精度和成功率呈乘数级递减。如果每个Agent的成功率是90%,那么一个涉及3个Agent协作的任务,理论成功率只有约73%。这个“精度衰减”问题是当前Multi-Agent系统在消费级场景中最难攻克的技术高地。
成本与商业化的平衡。Agent的Token消耗是Chatbot的150倍,若做到豆包体量,一天成本可达200亿元。虽然腾讯为每位用户提供每日1000万免费Token的初期额度,但长期商业化仍要靠高频、刚需、可付费的真实场景来支撑。
竞争环境的不确定性。微软并非真正“弃守”。种种迹象表明,微软正在收缩Copilot的过度曝光而非放弃系统级AI,OpenClaw技术的整合正在为Copilot注入“执行能力”。苹果则确定在2026年下半年全面发力。Marvis的窗口期不会太长。
生态建设的长期性。一款终端AI助手的价值,不仅取决于它自身能做什么,还取决于它能调动多少第三方应用和服务。Marvis目前更多依赖腾讯生态内的应用,如何拓展外部开发者生态将是一个长期课题。
Marvis是腾讯在终端AI入口上的一次关键落子。它从技术架构上实现了从“对话”到“执行”的范式跃迁,从产品设计上找到了人格化切入路径,从市场时机上抓住了竞品留出的难得空窗期。
但它面临的技术挑战同样真实:多Agent协作的精度衰减、搜索与推理能力的现阶段不足、开放场景下的能力边界,这些都不是产品设计能掩盖的工程问题。正如马化腾在近期员工大会上所言:“回看腾讯的发展历史,面对新机遇,我们不一定是最快抓住机会的企业,但只要方向正确、走对路,给予一定的时间,我们还是会走上正确的轨道。”
对CIO而言,Marvis不仅是一个值得关注的新产品,更是AI Agent从概念走向落地的一个重要路标。它的出现提醒我们:当AI能真正“动手做事”而非仅仅“回答问题”时,企业IT架构和人机协作模式将被重塑。现在,正是规划Agent治理框架的最佳时机。
关注「CIO会客厅」,
读懂浙江创新创业最前沿。
夜雨聆风