当 AI 不再只是问答机器
过去两年,几乎所有科技公司都在做同一件事:把 AI 塞进一个对话框里,让你问它答。
这个模式培养了用户习惯,但也塑造了一种根深蒂固的认知——AI 等于问答助手。等大家玩腻了新鲜感,开始问更复杂的问题,AI 的局限性就暴露了:它能给你建议,但没法替你执行;它能回答问题,但没法操作电脑;它像个博学的参谋,但永远只是旁观者。
腾讯最近发布的 Marvis 马维斯助手,走了一条完全不同的路。
它没有在聊天界面里内卷,而是直接把自己嵌入了操作系统底层。你用它,不是为了聊天,而是为了让它帮你操作电脑、改设置、管文件、跨设备控制。本质上,它想成为你的第二层操作系统。
这个思路的转变,可能比任何聊天机器人都更重要。
六个 Agent,替代一个全家桶
Marvis 内置了六个分工明确的 Agent:PM、File、Computer、APP、Search、Browser。
听起来很技术化,但体验门槛被压得很低。用户不需要搭建任何工作流,不需要安装插件,不需要写任何配置文件。直接用自然语言下达指令,剩下的由 Agent 协作完成。
PM Agent 负责理解用户意图并拆解任务,File Agent 处理文件操作,Computer Agent 执行系统级配置,APP Agent 管理应用程序,Search Agent 做语义搜索,Browser Agent 处理网页相关操作。六个 Agent 各司其职,串联成完整的任务链。
举几个具体场景。
场景一:找一张两个月前的截图。 你只记得是某个群聊里收到的,内容是《黑神话:悟空》。在 Windows 系统里,这种模糊描述基本等于大海捞针。Marvis 能基于文件名、文档内容甚至图片场景进行语义搜索,精准定位这张截图。Windows 原生搜索做不到的事,它做到了。
场景二:关闭锁屏广告。 按照以前的逻辑,你需要打开设置、找到通知管理、逐级关闭。Marvis 直接读取系统配置入口,一句话完成操作。电池健康检测、自启动程序管理、存储空间分析,这些系统级操作,全都变成了一句自然语言指令。
场景三:手机远程控制电脑。 Marvis 手机 App 可以实时接管电脑桌面,即使电脑锁屏了也能操作。帮家里老人排查电脑问题、在外远程安装软件——这些场景以前需要专门的控制软件,现在变成了自然语言交互。
这种设计解决了一个实际问题:用户不想学 AI,用户只想用 AI 完成事情。
为什么偏偏是腾讯
看完产品介绍,第一个疑问是:为什么是腾讯做出了这个东西?
答案藏在团队背景里。
Marvis 团队来自应用宝,一个在移动生态里运营了 14 年的产品。应用宝的核心能力不是训练模型,而是分发和管控——知道一个应用怎么安装、怎么卸载、怎么管理权限、怎么读取系统信息。这套经验迁移到 AI 助手开发上,就是另一套本事了。
换一个纯做 AI 模型的团队,大概率会做出一个更强的大模型,但未必能做出一个能操作电脑的助手。模型能力可以快速迭代,但对 PC 底层和移动生态的控制力,需要长时间积累。这不是一个算法问题,是一个生态位问题。
行业里有个常见现象:做 AI 的人最懂模型,做产品的人最懂交互,但既懂模型又懂系统底层的人,少之又少。Marvis 团队恰好站在这个交叉点上——他们不需要训出最新的大模型,只需要在现有模型基础上,把系统整合能力做到极致。
这也是为什么,其他厂商都在卷谁的 AI 更聪明,但 Marvis 的核心差异化不在模型本身,而在它对系统的整合深度。
效率模式和隐私模式:不矛盾的两种选择
使用深度系统的 AI 助手,有一个绕不开的问题:数据安全。
Marvis 提供了两种模式切换。
效率模式:由云端大模型(混元 + DeepSeek V4)负责规划,本地执行,速度更快。所有检索和分析在云端完成,适合日常办公场景。
隐私模式:所有操作都在本地端侧模型运行,数据不出设备,断网也能用。适合处理敏感文件或者不想让任何数据离开本地的场景。
两种模式对应两种用户心理。一种用户觉得把文件传给云端没问题,只要结果够快够准;另一种用户觉得数据应该留在本地,宁可牺牲一点速度。这是两种合理的需求,Marvis 把选择权还给了用户。
这里有一个设计细节值得注意:隐私模式不只是为了安全,它也是一种产品哲学——个人 AI 的控制权应该属于个人,而不是厂商。
把这个问题展开来看,当前市场上的 AI 助手分为两类。一类是纯云端对话产品,能力依赖云端模型,数据必须上传,响应质量高但隐私性弱;另一类是端侧部署产品,数据本地处理,隐私有保障但能力受限,通常只能处理简单任务。两者各有优劣,但都逃不出「在隐私和安全之间二选一」的困境。
Marvis 的做法是打破这个二元对立。效率模式下,云端大模型负责复杂推理,本地执行关键操作,速度和安全兼顾;隐私模式下,端侧模型处理所有任务,数据完全不离开设备。这是两条并行路线,用户按需切换,没有妥协。
这背后的技术实现需要解决一个核心问题:如何在保证数据安全的前提下,让 AI 具备系统级操作能力。传统方案是把所有操作都放在云端,但这样隐私模式就毫无意义;Marvis 的方案是把操作层放在本地,只把推理层放到云端,结果是既保住了隐私,又保住了能力。
隐私模式的技术实现有几个关键支撑。首先是端侧模型的量化压缩技术,让7B级别的模型能在普通PC上流畅运行,响应延迟控制在可接受范围内;其次是本地操作的优先级调度,复杂推理仍然交给云端,只有涉及文件、系统设置的操作才在本地执行。这套混合架构的设计思路是:把数据敏感的操作锁在本地,把计算密集的操作交给云端。
从问答入口到任务调度层
回顾个人 AI 的发展路径,能看到一条清晰的进化曲线。
第一阶段:问答机器人。 大模型出来后,所有产品都在做聊天界面。用户问,AI 答。能力边界取决于模型质量,但产品形态没有本质区别。这个阶段培养了用户与 AI 对话的习惯,但也让 AI 的能力边界被锁在了对话框里。
第二阶段:Copilot 辅助。 AI 开始嵌入具体工作流程,比如写代码辅助、文档生成、邮件回复。AI 从旁观者变成协作者,但依然需要人类驱动每一个步骤。你仍然需要告诉 AI 做什么、怎么做,AI 只是一个更高效的工具。
第三阶段:任务执行层。 AI 直接操作系统,执行多步骤任务。用户定义目标,AI 规划路径并执行,不再需要人类一步步操作。这才是 AI 从工具变成助手的关键一跃。
Marvis 做的事,是跳过前两个阶段,直接进入第三阶段。
这背后有一个认知转变:个人 AI 的重点从来不只是 AI,更是个人。如果 AI 只能给你建议,它只是一个更聪明的工具;如果 AI 能替你操作设备,它才真正开始改变人机关系。
三十年前,Microsoft Bob 试图让用户更容易理解电脑,交互方式是图形界面和可视化控件。三十年后,Marvis 试图让电脑反过来理解用户,交互方式变成了自然语言。技术变了,交互模式变了,但核心命题没变:如何让计算机更懂人。
从技术架构角度看,这三个阶段对应的是不同的 AI 部署模式。第一阶段是纯云端 API 调用,第二阶段是云端加插件的混合架构,第三阶段则是端云协同的操作系统级整合。每一次升级都意味着 AI 与用户设备的融合度更高,能执行的任务更复杂,但对系统的权限要求也更深。
Agent 生态的新变量
Marvis 还支持自定义自动任务和 Skill 扩展。
这意味着它不只是一个封闭的产品,而是一个可以生长的平台。用户可以根据自己的需求,定制特定的自动化流程,让 AI 执行重复性的系统操作。
自动任务可以按时间触发,比如「每天早上九点整理桌面文件夹」;Skill 扩展支持调用第三方 API,这意味着它不只操作本地系统,还能与云端服务联动。这种设计让 Marvis 成了一个真正的 Agent 平台,而不只是一个功能单一的助手。
从产品形态看,Marvis 已经不再是传统意义上的 AI 助手,而是一个具备任务规划、工具调用、系统整合能力的 Agent 操作系统。这个定位比大多数同类产品都更激进,也更接近个人 AI 的本质形态。
把 Marvis 放进当前的 AI 助手市场横向对比,能更清晰地看到它的独特之处。
主流产品要么专注于聊天对话,要么做单点功能插件,如邮件助手、日程助手、代码助手。这些产品解决了特定场景的问题,但没有解决根本问题:用户仍然需要在多个工具之间切换,仍然需要手动整合不同工具的输出,仍然需要自己做任务规划。
Marvis 试图打破这个困局。它的思路是做系统级整合,让 AI 成为所有工具的调度层。用户不需要关心背后用了哪些工具,只需要下达指令,Agent 会自动选择合适的工具完成目标。这种体验才是真正的「AI 原生」交互方式。
AutoGPT 在2023年引爆了 Agent 概念,它的核心思路是让 AI 自主规划、执行、修正。用户在 AutoGPT 中输入一个目标,AI 会自动拆解任务、调用工具、检查结果。但 AutoGPT 的问题在于它是一个通用框架,普通用户用起来门槛不低,而且没有与操作系统深度绑定,更多是在浏览器或文件层面操作。
Marvis 相比 AutoGPT 的优势在于,它是一个面向普通用户的成品,而不是一个需要配置的技术框架。AutoGPT 教给了行业 Agent 怎么做,但 Marvis 把 Agent 做出了消费级产品的体验。
当前版本的几个技术细节
深入看 Marvis 的实现,有几个技术细节值得关注。
文件索引机制:Marvis 的文件搜索不是简单的文件名匹配,而是建立了语义索引。用户可以搜索「两个月前群聊里的黑神话截图」,系统会理解这个描述的时间范围、来源场景、内容主题,然后进行跨维度检索。这比 Windows 自带的搜索不知道高到哪里去了。
背后的实现涉及几个技术环节。首先是文件的 embedding 向量化,把文件名、文件内容、修改时间、所在路径等维度编码成向量;其次是基于向量相似度的语义匹配,用户输入的描述会转成查询向量,与索引库中的文件向量做相似度计算;最后是结果的重排序,结合时间、类型、来源等过滤条件,给出最终结果。这套架构在技术上不算新颖,但工程化落地做到体验流畅并不容易。
系统 API 封装:Marvis 把操作系统提供的各种 API 做了一层统一封装,用户通过自然语言调用的每一个操作,都会被翻译成对应的系统 API 调用。这个封装层的质量决定了 Agent 操作系统的体验上限。
具体来说,不同操作对应不同的系统能力:文件操作调用文件系统 API,系统设置调用 Windows Settings API,应用程序调用 COM 接口,浏览器操作调用 WebDriver 协议。Marvis 的封装层需要把这些异构的 API 统一成一套标准的工具调用格式,让上层的 PM Agent 可以用统一的语言描述任务,下沉到底层的具体执行时再转换为对应 API。
多端协同协议:手机控制电脑不是简单的屏幕镜像,而是有一套完整的协议层。手机端发送指令,电脑端执行并回传结果,即使在锁屏状态下也能工作。这个协议的设计直接影响跨端体验的流畅度。
协议层的设计有几个要点:指令的压缩传输,降低网络开销;操作状态的实时同步,确保手机端看到的是电脑端的最新状态;异常处理机制,当网络中断或电脑端程序无响应时,手机端需要有对应的提示和恢复机制。这套协议如果做得好,未来可以扩展到平板、平板、手机之外的更多设备。
这些技术细节决定了产品体验的质量。表面上看是一个 AI 助手,背后是多年的系统整合能力积累。
局限性:现在还只是开始
当然,现在判断 Marvis 是否代表了正确方向还为时过早。
它有明显的局限性。
场景覆盖:目前主要支持 Windows 和手机端,Mac 用户暂时用不上。跨平台支持是未来必须解决的问题,否则会失去大量创意工作者用户。创意工作者往往是 AI 工具的最早采用者,放弃这个群体意味着放弃了口碑扩散的重要渠道。
Mac 平台的技术挑战不只是开发工作量的问题。macOS 的权限管理比 Windows 更严格,应用沙盒、Gatekeeper、TCC 权限数据库等机制决定了第三方应用能访问哪些系统资源。要做到 Marvis 在 Windows 上的深度整合水平,需要对 macOS 的底层安全模型有深入理解,这不是一朝一夕能积累出来的。
生态壁垒:深度整合系统底层意味着需要持续适配不同操作系统版本,维护成本不低。一旦操作系统更新,Agent 的系统级操作能力可能受到影响。这需要持续投入,而不是一次开发就能躺平。微软、苹果每次系统大更新,都可能打破现有的整合方案。
从实际成本角度看,每个 Windows 大版本更新(如从 22H2 到 23H2)都可能改变部分系统 API 的行为,Marvis 团队需要持续测试和适配。更棘手的是操作系统的大版本升级,比如从 Windows 10 升级到 Windows 11,某些系统级操作的实现方式可能完全改变。
用户习惯:从问答过渡到任务执行,需要用户转变使用思路。大量用户已经习惯了「问 AI」而非「让 AI 做」,这个转变不会一夜发生。用户教育是下一步的重要工作,也是所有 Agent 产品面临的共同挑战。
这种习惯的转变比想象中更难。过去的 AI 产品都在强调「问我任何问题」,这让用户形成了「AI 等于问答」的心智模型。现在要把这个模型升级成「AI 等于执行」,需要用户真正相信 AI 能帮他做事,而不是仅仅回答他的问题。信任的建立需要时间,也需要成功的案例积累。
响应速度:系统级操作对延迟更敏感,如果 AI 执行一个操作需要等待很长时间,用户体验会大打折扣。当前版本在复杂任务上的响应速度还需要优化,尤其是涉及多个 Agent 协作的复杂场景。
响应延迟的来源可能有几个:云端模型的推理时间、本地 Agent 的任务规划时间、系统 API 的调用时间。其中云端推理是最不稳定因素,网络状况、服务器负载都会影响最终响应时间。优化方向包括更高效的模型量化、本地缓存常用操作结果、预测用户意图提前执行等。
技能生态:Skill 扩展目前数量有限,第三方开发者生态还没有建立起来。一个平台的价值取决于平台上有多少可用的技能,技能越丰富,平台粘性越高。这个生态建设需要时间,也需要拿出真金白银的激励政策。
参考苹果 App Store 的发展历程,平台生态的建设需要解决几个关键问题:开发工具的易用性、变现模式的清晰度、用户规模的保证。Marvis 需要在这三个方面都有动作,才能吸引开发者参与。
个人 AI 的下半场
AI 公司过去几年拼的是模型能力,谁的模型更强、谁的上下文更长、谁的推理更快。这场竞争的终点,是把 AI 变得更聪明。
但聪明不等于好用。
真正好用的 AI,不只需要聪明,还需要对用户场景的深度理解,以及对系统的整合能力。模型能力可以靠投入追上,但系统整合能力需要时间积累,这是一道护城河。
Marvis 的尝试说明了一个可能性:个人 AI 的尽头,可能不是更聪明的聊天机器人,而是一套能操作设备、理解用户、自动执行任务的操作系统层。
这条路目前只有腾讯在走。但当这条路被验证可行后,会有更多玩家跟进。
个人 AI 的下半场,争夺的不只是模型,而是谁能成为真正的设备任务调度层。
这条路目前只有腾讯在走。但当这条路被验证可行后,会有更多玩家跟进。
个人 AI 的下半场,争夺的不只是模型,而是谁能成为真正的设备任务调度层。
夜雨聆风