腾讯的AI马维斯,开始“动手”了

2026年5月20日，腾讯正式上线了一款名为Marvis（马维斯）的操作系统层级AI助手。在“AI助手”一词几乎已被行业透支的当下，Marvis的打法颇具差异化——它不是嵌在某个App里的对话机器人，也不是浏览器插件，而是一款能触达操作系统底层、调度多个AI Agent协同执行任务的产品。

与上一轮AI应用不同，Marvis在技术架构上实现了三项关键突破：将传统AI助手的“对话窗口”交互升级为“操作系统API直达”的执行范式；通过6-Agent原生协作体系实现了任务级的并行调度；构建了端云协同的智能路由策略。这些技术特性使Marvis成为首个将Multi-Agent架构做成消费级产品的案例。本文将从技术架构、竞品对位、产品定位、战略价值及局限等维度，为CIO群体勾勒一幅兼具技术纵深与商业判断力的分析图景。

技术架构深度拆解：从“对话窗口”到“系统API”

1.1 架构突破的核心逻辑

传统AI助手的交互范式为“用户 → AI聊天窗口 → 输出文本”，作用范围局限于对话窗口内。Marvis则将这一范式重构为“用户 → 自然语言 → 操作系统API → 文件/设置/应用/硬件”，将整个操作系统纳入AI的作用域。

这种架构层面的跃迁，意味着Marvis并非运行在应用层的对话程序，而是嵌入系统底层的AI中间层。它能够穿透操作系统抽象层，直接访问Windows系统设置、硬件信息、进程管理与文件系统。用户可通过自然语言完成查询CPU型号、内存占用、电池健康度，检测硬件能否流畅运行指定游戏，或一键调整鼠标灵敏度、清理系统冗余文件等操作。

底层的技术支撑来自两个维度：芯片层，腾讯与英特尔深度合作，借助OpenVINO工具套件在英特尔酷睿Ultra平台上实现CPU、GPU、NPU的异构计算优化，充分释放端侧AI推理性能；系统层，与微软在WinML推理框架上协同优化，使大模型在本地NPU、GPU和CPU上的推理效率显著提升。

1.2 六大Agent架构的技术实现

Marvis出厂预置了由6个Agent组成的协作体系，核心架构为“1个主Agent + 5个专业Agent”：

Agent	技术实现	典型能力
PM Agent（主Agent）	云端混元/DeepSeek V4做复杂意图理解与任务拆解	拆解指令、分派子任务、汇总结果
File Agent	本地文件索引 + 语义搜索（图片文字/人脸/场景识别）	模糊描述定位文件，批量处理发票生成Excel
Computer Agent	Windows API直调（非模拟点击），硬件检测走系统调用	磁盘清理、开机项管理、游戏兼容性检测、注册表编辑
App Agent	GUI视觉识别 + 模拟操作，支持EXE和安卓App	操控同花顺查股价、微信发消息、网易云播放音乐
Browser Agent	浏览器接管 + DOM解析	网页数据抓取、价格监控、表单填写
Search Agent	网络搜索引擎调用	信息聚合 + 引用溯源

这一架构的设计理念是“专业的事交给专业的Agent做”。复合指令如“找出最近一个季度的发票，按时间顺序整理成表格”，可由主Agent自动拆解为文件检索、内容识别、数据提取与表格生成四个子任务并调度执行。

1.3 端云协同的路由策略与隐私模式

Marvis提供“效率模式”与“隐私模式”两种工作方式，其模式切换并非让用户手动选择，而是通过一套智能路由策略自动判定：

效率模式：复杂任务的意图理解与规划借助云端大模型（混元与DeepSeek V4），文件处理、执行动作和本地索引则在端侧完成。响应速度快，适合日常办公场景。
隐私模式：完全基于阿里Qwen端侧大模型运行，所有数据解析、图片识别与对话均在本地完成，数据完全不上云，断网状态下亦可正常使用。硬件加速统一基于Intel OpenVINO。

具体路由逻辑为：用户输入后，PM Agent判断任务类型——“帮我整理发票”走云端理解意图 + 端侧搜索识别；“分析这份合同的风险”则走纯端侧，不联网。腾讯Marvis团队前置做了大量端侧预处理，在图片搜索、文件理解等任务上减少云端Token消耗，既降低使用成本，也减少不必要的数据流转。

此外，Marvis明确承诺用户数据仅用于当下推理计算、绝不用于模型训练，并允许用户自定义索引范围，对不希望被索引的内容可随时屏蔽。

1.4 技术局限：不容回避的短板

综合早期用户实测反馈，Marvis在技术层面存在若干明显短板：

开放场景下的能力衰减。实测表明，Marvis在系统预设的固定任务中完成度较高，但一旦任务进入开放环境，表现就差强人意。例如，要求其调用电脑端PS完成公众号封面制作等复杂创意任务时，成功率显著下降。

搜索准确性与推理能力不足。早期用户反馈显示，Marvis的信息检索准确性和逻辑推理能力并未达到预期，存在联网搜索结果不够精准、对复杂指令理解不到位等问题。

多Agent协同的工程难点。多Agent架构的核心挑战不是“拆解任务”本身，而是拆解后的子任务能在规定精度内稳定完成并正确汇总。从实测来看，这一环节仍是当前AI助手的技术高地，Marvis尚未真正攻克——稳定性、长链路任务的可控执行，将成为其“能用”与“好用”之间最关键的鸿沟。

竞品对位：系统级AI市场的多维博弈

下表从系统控制深度、架构、隐私模式、跨端能力、可用性五个维度，将Marvis与当前市场主要竞品做对比：

维度	腾讯 Marvis	微软 Copilot	Apple Intelligence	OpenAI/Claude等
系统控制深度	Windows API直调，可操作系统设置、文件、进程	以应用集成和内容生成为主，系统控制能力有限，近期开始收缩AI入口	端侧处理为主，聚焦写作辅助、通知摘要等轻量场景，Siri大改版推迟至2026	无系统级控制，局限于对话窗口或代码执行环境（如OpenClaw/Claude Code）
架构	6-Agent原生协作，主Agent拆解任务、专项Agent并行执行	单Agent模型，主要依托大模型对话能力 + Office套件集成	设备端模型 + 私有云计算，系统级整合仍在推进中	单Agent或需手动搭建多Agent工作流
隐私模式	隐私模式纯端侧运行（Qwen端侧模型），数据零上云，断网可用	数据主要上云处理，端侧能力有限	强调端侧处理（Apple Intelligence），但ChatGPT集成涉及云端	全部上云，OpenClaw等可本地部署但门槛高
跨端能力	Windows/Mac/Android/iOS四端互通，支持手机远程操控电脑桌面	跨Windows和Office生态，移动端能力相对薄弱	仅限Apple生态内，安卓/Windows不可用	无跨端能力，ChatGPT有独立App但不可远程控设备
可用性	2026年5月已全量开放，无需邀请码，每日1000万免费Token	已上线但用户首选用率从18.8%降至11.5%，企业实际使用率仅约10%	iOS 26.4预计2026年春上线，WWDC 2026完整亮相，目前大部分功能尚未落地	ChatGPT用户基数大但定位不同，Claude Code面向开发者

数据来源：Marvis竞品实测；微软Copilot用户首选用率数据；Apple Intelligence延迟信息。

2.1 微软Copilot：陷入“强制集成”困境

微软Copilot曾是系统级AI赛道最受期待的选手，但近半年来遭遇明显挫折。数据显示，将Copilot列为首选AI工具的用户比例已从2025年7月的18.8%降至2026年1月的11.5%，同期Google Gemini从12.8%升至15.7%。企业实际使用率仅约10%。

用户反馈的核心痛点是“强制集成”——Mozilla公开批评微软在Windows 11中未经用户同意强制集成Copilot功能，包括自动安装、任务栏固定、硬件按键绑定等行为。微软也因此开始回撤，削减Copilot在照片、记事本、画图、文件资源管理器等应用中的入口，并允许用户将Copilot键重新映射为右Ctrl键。

这为Marvis提供了难得的窗口期：Copilot在中国市场的精力本就有限，加上品牌回撤，微软在操作系统AI领域暂时呈现出“战略收缩”的态势。

2.2 Apple Intelligence：延迟与谨慎

苹果在系统级AI上的策略极为谨慎。在WWDC 2025上，苹果展示了“Liquid Glass”视觉设计语言和一系列端侧AI功能，但备受期待的AI驱动Siri大改版被确认延迟至2026年。苹果软件工程高级副总裁Craig Federighi坦言这项工作“需要更多时间”，有报道称新版Siri虽可运行，但在性能一致性上仍面临挑战。

从时间线看，Siri的初期升级预计在2026年3月上线，但真正的“AI总攻”要到WWDC 2026才会揭晓。对于中国市场的CIO而言，Apple Intelligence短期内难以成为决策变量。

2.3 Marvis的差异化窗口

当前系统级AI市场呈现罕见的“空窗期”：微软Copilot陷入用户信任危机和战略收缩，苹果Apple Intelligence一再推迟，OpenAI/Claude等纯云端方案不具备系统级控制能力。Marvis选择在这个时机切入，凭借系统级控制深度和端云双模式架构，确实在卡位时机上占据了先手。

但这一窗口期不会太长。微软正在加速为Copilot整合OpenClaw技术试图补足执行能力，苹果2026年下半年也将全面发力。Marvis需要在这一窗口期内完成用户习惯的占领和生态壁垒的构建。

团队基因与产品定位

值得关注的是，Marvis背后的研发团队并非腾讯AI Lab或混元大模型团队，而是腾讯应用宝团队。

应用宝在腾讯体系内有着特殊的定位——它做了14年的PC和移动端底层生态工作，在跨端运行技术上积累深厚。Marvis实现的“在电脑上操作手机App”能力，直接复用了应用宝在跨端运行上的技术积累。正如Marvis产品经理所言：“应用宝十几年，所以能在电脑上跑安卓App；做过云游戏，所以云设备调度成本最低；跟微软有操作系统层面的合作，Windows文件系统接口不是谁都能拿到的。”

应用宝的转型也有着“自救”色彩。随着移动互联网红利见顶，应用宝急需一场变革。Marvis的诞生，正是应用宝团队从“应用分发工具”向“AI终端入口”跃迁的关键一跳。

在产品定位上，Marvis打出了“操作系统层级个人AI助手”的差异化牌，并刻意营造了人格化的产品体验：以马年头戴红围脖的小马形象出现，六大Agent被包装成一个虚拟办公区里的“同事”，有人去茶水间吃零食，有人去健身房活动，相互之间还会“串工位”交流。这种设计降低了AI产品的使用门槛，也让技术能力有了更温润的表达。

在腾讯AI版图中的位置：终端入口的关键落子

在腾讯的AI产品矩阵中，Marvis占据着一个独特而关键的位置。

与元宝的分工。元宝偏重表达、问答与内容处理，定位在“注意力”层；Marvis则强调操作、调度与执行，定位在“工作流”层。前者争夺用户的时间，后者争夺用户的终端入口。

与WorkBuddy的互补。WorkBuddy是腾讯面向办公场景的智能体工具，已登顶国内日活最高的办公智能体，聚焦于垂直办公效率提升；Marvis则进一步下沉至操作系统层面，覆盖更广泛的个人使用场景。

在腾讯AI战略中的位置。2026年一季度，腾讯密集推出了WorkBuddy、QClaw、ClawPro、Marvis等多款针对不同场景和用户群的Agent产品。在财报电话会议上，腾讯首席战略官James Mitchell透露，腾讯旗下布局多个旗舰AI项目。Marvis是这一布局中面向终端个人用户的关键一环。

可以这样理解：元宝是腾讯AI的“嘴”，负责输出内容；WorkBuddy是“手”，负责提升办公效率；Marvis则是“中枢神经”，试图成为用户调度电脑、手机、文件和应用的“前置界面”。

对CIO的战略价值

Marvis的价值可以从个人提效和组织变革两个维度来理解。

对个人用户，Marvis解决了“电脑操作门槛”和“文件管理混乱”两大核心痛点。对于不熟悉电脑设置的用户，一句话就能完成系统配置调整；对于职场人士，能用自然语言找到“上个月的发票”而无需记忆文件名。

对CIO和企业组织，Marvis代表的系统级AI范式具有更深远的意义。当前CIO群体正面临IT团队人力不足的结构性困境，行政与IT运维是Agent优先部署的两大领域。Marvis的系统级AI能力可覆盖IT支持、文件治理、跨端协同等多个场景，有望成为企业AI治理体系中的“终端执行层”。

尤其值得关注的是Marvis的隐私模式和端侧计算能力。隐私模式采用纯本地推理，数据完全零上云。对金融、法务、人力资源等对数据安全有严格要求的企业，这一设计提供了一条可行路径——AI辅助效率提升与数据本地化不再是非此即彼的选择。

从长期来看，Marvis所代表的“操作系统层级AI”将深刻影响CIO的IT架构决策。Gartner的研究表明，到2029年，至少一半的知识工作者将像使用移动设备一样自然地创建、治理和与Agent协同工作。届时，终端AI助手将不再是“加分项”，而是企业IT基础设施的标配。CIO需要提前规划Agent治理框架、数据安全边界和人机协作流程。

挑战与展望：方向成立，胜局未定

Marvis的多重挑战。

稳定性与信任积累。操作系统层级AI最难的不是发布演示，而是在高频任务中长期稳定、可控、低误差地执行。找错文件、误改设置、误删资料——每一次小失误都可能迅速消耗用户信任。Marvis从“能用”走到“好用”，还需跨越大规模用户使用场景下的可靠性鸿沟。

多Agent系统的工程瓶颈。多Agent架构在生产环境中面临一个核心问题：任务拆解后，各子任务的执行精度和成功率呈乘数级递减。如果每个Agent的成功率是90%，那么一个涉及3个Agent协作的任务，理论成功率只有约73%。这个“精度衰减”问题是当前Multi-Agent系统在消费级场景中最难攻克的技术高地。

成本与商业化的平衡。Agent的Token消耗是Chatbot的150倍，若做到豆包体量，一天成本可达200亿元。虽然腾讯为每位用户提供每日1000万免费Token的初期额度，但长期商业化仍要靠高频、刚需、可付费的真实场景来支撑。

竞争环境的不确定性。微软并非真正“弃守”。种种迹象表明，微软正在收缩Copilot的过度曝光而非放弃系统级AI，OpenClaw技术的整合正在为Copilot注入“执行能力”。苹果则确定在2026年下半年全面发力。Marvis的窗口期不会太长。

生态建设的长期性。一款终端AI助手的价值，不仅取决于它自身能做什么，还取决于它能调动多少第三方应用和服务。Marvis目前更多依赖腾讯生态内的应用，如何拓展外部开发者生态将是一个长期课题。

Marvis是腾讯在终端AI入口上的一次关键落子。它从技术架构上实现了从“对话”到“执行”的范式跃迁，从产品设计上找到了人格化切入路径，从市场时机上抓住了竞品留出的难得空窗期。

但它面临的技术挑战同样真实：多Agent协作的精度衰减、搜索与推理能力的现阶段不足、开放场景下的能力边界，这些都不是产品设计能掩盖的工程问题。正如马化腾在近期员工大会上所言：“回看腾讯的发展历史，面对新机遇，我们不一定是最快抓住机会的企业，但只要方向正确、走对路，给予一定的时间，我们还是会走上正确的轨道。”

对CIO而言，Marvis不仅是一个值得关注的新产品，更是AI Agent从概念走向落地的一个重要路标。它的出现提醒我们：当AI能真正“动手做事”而非仅仅“回答问题”时，企业IT架构和人机协作模式将被重塑。现在，正是规划Agent治理框架的最佳时机。

关注「CIO会客厅」，

读懂浙江创新创业最前沿。