腾讯 Marvis 助手体验:个人 AI 的尽头是操作系统

当 AI 不再只是问答机器

过去两年，几乎所有科技公司都在做同一件事：把 AI 塞进一个对话框里，让你问它答。

这个模式培养了用户习惯，但也塑造了一种根深蒂固的认知——AI 等于问答助手。等大家玩腻了新鲜感，开始问更复杂的问题，AI 的局限性就暴露了：它能给你建议，但没法替你执行；它能回答问题，但没法操作电脑；它像个博学的参谋，但永远只是旁观者。

腾讯最近发布的 Marvis 马维斯助手，走了一条完全不同的路。

它没有在聊天界面里内卷，而是直接把自己嵌入了操作系统底层。你用它，不是为了聊天，而是为了让它帮你操作电脑、改设置、管文件、跨设备控制。本质上，它想成为你的第二层操作系统。

这个思路的转变，可能比任何聊天机器人都更重要。

六个 Agent，替代一个全家桶

Marvis 内置了六个分工明确的 Agent：PM、File、Computer、APP、Search、Browser。

听起来很技术化，但体验门槛被压得很低。用户不需要搭建任何工作流，不需要安装插件，不需要写任何配置文件。直接用自然语言下达指令，剩下的由 Agent 协作完成。

PM Agent 负责理解用户意图并拆解任务，File Agent 处理文件操作，Computer Agent 执行系统级配置，APP Agent 管理应用程序，Search Agent 做语义搜索，Browser Agent 处理网页相关操作。六个 Agent 各司其职，串联成完整的任务链。

举几个具体场景。

场景一：找一张两个月前的截图。 你只记得是某个群聊里收到的，内容是《黑神话：悟空》。在 Windows 系统里，这种模糊描述基本等于大海捞针。Marvis 能基于文件名、文档内容甚至图片场景进行语义搜索，精准定位这张截图。Windows 原生搜索做不到的事，它做到了。

场景二：关闭锁屏广告。 按照以前的逻辑，你需要打开设置、找到通知管理、逐级关闭。Marvis 直接读取系统配置入口，一句话完成操作。电池健康检测、自启动程序管理、存储空间分析，这些系统级操作，全都变成了一句自然语言指令。

场景三：手机远程控制电脑。 Marvis 手机 App 可以实时接管电脑桌面，即使电脑锁屏了也能操作。帮家里老人排查电脑问题、在外远程安装软件——这些场景以前需要专门的控制软件，现在变成了自然语言交互。

这种设计解决了一个实际问题：用户不想学 AI，用户只想用 AI 完成事情。

为什么偏偏是腾讯

看完产品介绍，第一个疑问是：为什么是腾讯做出了这个东西？

答案藏在团队背景里。

Marvis 团队来自应用宝，一个在移动生态里运营了 14 年的产品。应用宝的核心能力不是训练模型，而是分发和管控——知道一个应用怎么安装、怎么卸载、怎么管理权限、怎么读取系统信息。这套经验迁移到 AI 助手开发上，就是另一套本事了。

换一个纯做 AI 模型的团队，大概率会做出一个更强的大模型，但未必能做出一个能操作电脑的助手。模型能力可以快速迭代，但对 PC 底层和移动生态的控制力，需要长时间积累。这不是一个算法问题，是一个生态位问题。

行业里有个常见现象：做 AI 的人最懂模型，做产品的人最懂交互，但既懂模型又懂系统底层的人，少之又少。Marvis 团队恰好站在这个交叉点上——他们不需要训出最新的大模型，只需要在现有模型基础上，把系统整合能力做到极致。

这也是为什么，其他厂商都在卷谁的 AI 更聪明，但 Marvis 的核心差异化不在模型本身，而在它对系统的整合深度。

效率模式和隐私模式：不矛盾的两种选择

使用深度系统的 AI 助手，有一个绕不开的问题：数据安全。

Marvis 提供了两种模式切换。

效率模式：由云端大模型（混元 + DeepSeek V4）负责规划，本地执行，速度更快。所有检索和分析在云端完成，适合日常办公场景。

隐私模式：所有操作都在本地端侧模型运行，数据不出设备，断网也能用。适合处理敏感文件或者不想让任何数据离开本地的场景。

两种模式对应两种用户心理。一种用户觉得把文件传给云端没问题，只要结果够快够准；另一种用户觉得数据应该留在本地，宁可牺牲一点速度。这是两种合理的需求，Marvis 把选择权还给了用户。

这里有一个设计细节值得注意：隐私模式不只是为了安全，它也是一种产品哲学——个人 AI 的控制权应该属于个人，而不是厂商。

把这个问题展开来看，当前市场上的 AI 助手分为两类。一类是纯云端对话产品，能力依赖云端模型，数据必须上传，响应质量高但隐私性弱；另一类是端侧部署产品，数据本地处理，隐私有保障但能力受限，通常只能处理简单任务。两者各有优劣，但都逃不出「在隐私和安全之间二选一」的困境。

Marvis 的做法是打破这个二元对立。效率模式下，云端大模型负责复杂推理，本地执行关键操作，速度和安全兼顾；隐私模式下，端侧模型处理所有任务，数据完全不离开设备。这是两条并行路线，用户按需切换，没有妥协。

这背后的技术实现需要解决一个核心问题：如何在保证数据安全的前提下，让 AI 具备系统级操作能力。传统方案是把所有操作都放在云端，但这样隐私模式就毫无意义；Marvis 的方案是把操作层放在本地，只把推理层放到云端，结果是既保住了隐私，又保住了能力。

隐私模式的技术实现有几个关键支撑。首先是端侧模型的量化压缩技术，让7B级别的模型能在普通PC上流畅运行，响应延迟控制在可接受范围内；其次是本地操作的优先级调度，复杂推理仍然交给云端，只有涉及文件、系统设置的操作才在本地执行。这套混合架构的设计思路是：把数据敏感的操作锁在本地，把计算密集的操作交给云端。

从问答入口到任务调度层

回顾个人 AI 的发展路径，能看到一条清晰的进化曲线。

第一阶段：问答机器人。 大模型出来后，所有产品都在做聊天界面。用户问，AI 答。能力边界取决于模型质量，但产品形态没有本质区别。这个阶段培养了用户与 AI 对话的习惯，但也让 AI 的能力边界被锁在了对话框里。

第二阶段：Copilot 辅助。 AI 开始嵌入具体工作流程，比如写代码辅助、文档生成、邮件回复。AI 从旁观者变成协作者，但依然需要人类驱动每一个步骤。你仍然需要告诉 AI 做什么、怎么做，AI 只是一个更高效的工具。

第三阶段：任务执行层。 AI 直接操作系统，执行多步骤任务。用户定义目标，AI 规划路径并执行，不再需要人类一步步操作。这才是 AI 从工具变成助手的关键一跃。

Marvis 做的事，是跳过前两个阶段，直接进入第三阶段。

这背后有一个认知转变：个人 AI 的重点从来不只是 AI，更是个人。如果 AI 只能给你建议，它只是一个更聪明的工具；如果 AI 能替你操作设备，它才真正开始改变人机关系。

三十年前，Microsoft Bob 试图让用户更容易理解电脑，交互方式是图形界面和可视化控件。三十年后，Marvis 试图让电脑反过来理解用户，交互方式变成了自然语言。技术变了，交互模式变了，但核心命题没变：如何让计算机更懂人。

从技术架构角度看，这三个阶段对应的是不同的 AI 部署模式。第一阶段是纯云端 API 调用，第二阶段是云端加插件的混合架构，第三阶段则是端云协同的操作系统级整合。每一次升级都意味着 AI 与用户设备的融合度更高，能执行的任务更复杂，但对系统的权限要求也更深。

Agent 生态的新变量

Marvis 还支持自定义自动任务和 Skill 扩展。

这意味着它不只是一个封闭的产品，而是一个可以生长的平台。用户可以根据自己的需求，定制特定的自动化流程，让 AI 执行重复性的系统操作。

自动任务可以按时间触发，比如「每天早上九点整理桌面文件夹」；Skill 扩展支持调用第三方 API，这意味着它不只操作本地系统，还能与云端服务联动。这种设计让 Marvis 成了一个真正的 Agent 平台，而不只是一个功能单一的助手。

从产品形态看，Marvis 已经不再是传统意义上的 AI 助手，而是一个具备任务规划、工具调用、系统整合能力的 Agent 操作系统。这个定位比大多数同类产品都更激进，也更接近个人 AI 的本质形态。

把 Marvis 放进当前的 AI 助手市场横向对比，能更清晰地看到它的独特之处。

主流产品要么专注于聊天对话，要么做单点功能插件，如邮件助手、日程助手、代码助手。这些产品解决了特定场景的问题，但没有解决根本问题：用户仍然需要在多个工具之间切换，仍然需要手动整合不同工具的输出，仍然需要自己做任务规划。

Marvis 试图打破这个困局。它的思路是做系统级整合，让 AI 成为所有工具的调度层。用户不需要关心背后用了哪些工具，只需要下达指令，Agent 会自动选择合适的工具完成目标。这种体验才是真正的「AI 原生」交互方式。

AutoGPT 在2023年引爆了 Agent 概念，它的核心思路是让 AI 自主规划、执行、修正。用户在 AutoGPT 中输入一个目标，AI 会自动拆解任务、调用工具、检查结果。但 AutoGPT 的问题在于它是一个通用框架，普通用户用起来门槛不低，而且没有与操作系统深度绑定，更多是在浏览器或文件层面操作。

Marvis 相比 AutoGPT 的优势在于，它是一个面向普通用户的成品，而不是一个需要配置的技术框架。AutoGPT 教给了行业 Agent 怎么做，但 Marvis 把 Agent 做出了消费级产品的体验。

当前版本的几个技术细节

深入看 Marvis 的实现，有几个技术细节值得关注。

文件索引机制：Marvis 的文件搜索不是简单的文件名匹配，而是建立了语义索引。用户可以搜索「两个月前群聊里的黑神话截图」，系统会理解这个描述的时间范围、来源场景、内容主题，然后进行跨维度检索。这比 Windows 自带的搜索不知道高到哪里去了。

背后的实现涉及几个技术环节。首先是文件的 embedding 向量化，把文件名、文件内容、修改时间、所在路径等维度编码成向量；其次是基于向量相似度的语义匹配，用户输入的描述会转成查询向量，与索引库中的文件向量做相似度计算；最后是结果的重排序，结合时间、类型、来源等过滤条件，给出最终结果。这套架构在技术上不算新颖，但工程化落地做到体验流畅并不容易。

系统 API 封装：Marvis 把操作系统提供的各种 API 做了一层统一封装，用户通过自然语言调用的每一个操作，都会被翻译成对应的系统 API 调用。这个封装层的质量决定了 Agent 操作系统的体验上限。

具体来说，不同操作对应不同的系统能力：文件操作调用文件系统 API，系统设置调用 Windows Settings API，应用程序调用 COM 接口，浏览器操作调用 WebDriver 协议。Marvis 的封装层需要把这些异构的 API 统一成一套标准的工具调用格式，让上层的 PM Agent 可以用统一的语言描述任务，下沉到底层的具体执行时再转换为对应 API。

多端协同协议：手机控制电脑不是简单的屏幕镜像，而是有一套完整的协议层。手机端发送指令，电脑端执行并回传结果，即使在锁屏状态下也能工作。这个协议的设计直接影响跨端体验的流畅度。

协议层的设计有几个要点：指令的压缩传输，降低网络开销；操作状态的实时同步，确保手机端看到的是电脑端的最新状态；异常处理机制，当网络中断或电脑端程序无响应时，手机端需要有对应的提示和恢复机制。这套协议如果做得好，未来可以扩展到平板、平板、手机之外的更多设备。

这些技术细节决定了产品体验的质量。表面上看是一个 AI 助手，背后是多年的系统整合能力积累。

局限性：现在还只是开始

当然，现在判断 Marvis 是否代表了正确方向还为时过早。

它有明显的局限性。

场景覆盖：目前主要支持 Windows 和手机端，Mac 用户暂时用不上。跨平台支持是未来必须解决的问题，否则会失去大量创意工作者用户。创意工作者往往是 AI 工具的最早采用者，放弃这个群体意味着放弃了口碑扩散的重要渠道。

Mac 平台的技术挑战不只是开发工作量的问题。macOS 的权限管理比 Windows 更严格，应用沙盒、Gatekeeper、TCC 权限数据库等机制决定了第三方应用能访问哪些系统资源。要做到 Marvis 在 Windows 上的深度整合水平，需要对 macOS 的底层安全模型有深入理解，这不是一朝一夕能积累出来的。

生态壁垒：深度整合系统底层意味着需要持续适配不同操作系统版本，维护成本不低。一旦操作系统更新，Agent 的系统级操作能力可能受到影响。这需要持续投入，而不是一次开发就能躺平。微软、苹果每次系统大更新，都可能打破现有的整合方案。

从实际成本角度看，每个 Windows 大版本更新（如从 22H2 到 23H2）都可能改变部分系统 API 的行为，Marvis 团队需要持续测试和适配。更棘手的是操作系统的大版本升级，比如从 Windows 10 升级到 Windows 11，某些系统级操作的实现方式可能完全改变。

用户习惯：从问答过渡到任务执行，需要用户转变使用思路。大量用户已经习惯了「问 AI」而非「让 AI 做」，这个转变不会一夜发生。用户教育是下一步的重要工作，也是所有 Agent 产品面临的共同挑战。

这种习惯的转变比想象中更难。过去的 AI 产品都在强调「问我任何问题」，这让用户形成了「AI 等于问答」的心智模型。现在要把这个模型升级成「AI 等于执行」，需要用户真正相信 AI 能帮他做事，而不是仅仅回答他的问题。信任的建立需要时间，也需要成功的案例积累。

响应速度：系统级操作对延迟更敏感，如果 AI 执行一个操作需要等待很长时间，用户体验会大打折扣。当前版本在复杂任务上的响应速度还需要优化，尤其是涉及多个 Agent 协作的复杂场景。

响应延迟的来源可能有几个：云端模型的推理时间、本地 Agent 的任务规划时间、系统 API 的调用时间。其中云端推理是最不稳定因素，网络状况、服务器负载都会影响最终响应时间。优化方向包括更高效的模型量化、本地缓存常用操作结果、预测用户意图提前执行等。

技能生态：Skill 扩展目前数量有限，第三方开发者生态还没有建立起来。一个平台的价值取决于平台上有多少可用的技能，技能越丰富，平台粘性越高。这个生态建设需要时间，也需要拿出真金白银的激励政策。

参考苹果 App Store 的发展历程，平台生态的建设需要解决几个关键问题：开发工具的易用性、变现模式的清晰度、用户规模的保证。Marvis 需要在这三个方面都有动作，才能吸引开发者参与。

个人 AI 的下半场

AI 公司过去几年拼的是模型能力，谁的模型更强、谁的上下文更长、谁的推理更快。这场竞争的终点，是把 AI 变得更聪明。

但聪明不等于好用。

真正好用的 AI，不只需要聪明，还需要对用户场景的深度理解，以及对系统的整合能力。模型能力可以靠投入追上，但系统整合能力需要时间积累，这是一道护城河。

Marvis 的尝试说明了一个可能性：个人 AI 的尽头，可能不是更聪明的聊天机器人，而是一套能操作设备、理解用户、自动执行任务的操作系统层。

这条路目前只有腾讯在走。但当这条路被验证可行后，会有更多玩家跟进。

个人 AI 的下半场，争夺的不只是模型，而是谁能成为真正的设备任务调度层。

这条路目前只有腾讯在走。但当这条路被验证可行后，会有更多玩家跟进。