
我们用AI的时候有没有发现一件奇怪的事——你每天花在AI上的时间越来越多,但实实在在帮你省下来的时间,好像没多少?
你跟豆包说"帮我写一封邮件",它写了,你改了20分钟才发出去。跟Kimi说"分析这份财报",它分析了,但还需要自己核一遍。这些AI都停在同一个地方:它们帮你"想",然后"干活"的事留给你。
腾讯新上线的Marvis(马维斯)说:AI不该这样。
01· 为什么AI帮不了你干活
我们现在用的所有AI——ChatGPT、豆包、Kimi、文心一言——本质上都是问答式AI。它的逻辑只有一步:你输入,它处理,输出文字或代码或图片。
你让AI帮你找一份去年的合同文件,它说"建议搜索关键词'合同'并按日期筛选"。它说的完全没有错。但我们需要的是一份建议吗?我们要的是一份已经找到的文件。再比如让它清一下C盘垃圾,它能给你写一篇1000字的《C盘清理操作指南》。写得很对,但是我们还得是照着这个指南,自己一步一步操作清理。
目前的AI都只有"大脑",没有"手"。
02 · 腾讯“马维斯”有什么不一样
装好马维斯(后附工具地址),直接对它说"帮我把电脑里的流氓软件清了"。它不会说"好的,请看以下步骤"。它是直接开始干活:它先扫描了一遍软件列表,找出可疑的,让用户确认,然后卸载,检查残留,并二次扫描确认是否干净了。
全程不需要我们自己动手。
我们还可以试试其他几个应用场景:
找文件。 把一份合同改名为"新建文档(3)"塞进十几层目录,对它说"帮我找去年跟XX公司那笔合同"。它翻了一会,找到了。
手机远程控电脑。 人在外面,电脑在办公室。打开手机上的客户端,实时看到电脑桌面,找到文件发到自己手机上。全程没用碰到电脑。
查系统配置。 直接问"这台电脑能跑黑神话悟空吗",它读了硬件信息,查了游戏要求,给了个判断。
这几件事单独看都很小。累加起来有一个共同的指向:它不是输出内容的AI——它直接干活。
03 · 为什么豆包做不到,马维斯能做到?
市面上所有AI助手的架构是一样的:云端大脑。
你跟豆包说一句话,这句话被传到字节的服务器,模型在那里推理,结果传回来显示在你的屏幕上。全过程豆包跟你的电脑没有任何连接。它不知道你的电脑里有什么文件、装了什么软件、系统什么状态。对它来说,你的电脑就是一块显示器,它只负责往屏幕上写字。
让它"关弹窗广告",等于让一个坐在北京的人帮你关上海家里的灯——不是不想,是够不着。
马维斯的架构不同:本地客户端 + 云端模型的混合架构。6个Agent跑在你的电脑上,Computer Agent通过微软开放的MCP on Windows协议直接调用系统API。
这种架构以前做不出来。主要有三个条件各自卡了很长时间。
第一,大模型的指令理解能力足够强。 AI必须准确理解"帮我把流氓软件清了"这句话背后的一系列子任务:扫描软件列表→判断哪个是流氓→卸载→检查残留。这个能力是GPT-4级别才有的,2023年之前做不到。
第二,Agent调度框架成熟。 一个AI不能只靠一个模型干所有事,它需要拆解任务、分配任务、监控执行、反馈结果。这个技术2025年底才真正成熟。
第三,操作系统厂商开放底层接口。 微软专门为AI开放了MCP on Windows协议,才让AI可以直接调用系统API而不是模拟鼠标键盘。
这三个条件,缺一个马维斯就出不来。2025年之前,至少有一个不满足。
所以它不是腾讯做了一个更强的AI助手,它是腾讯在技术条件刚刚成熟的时间点,做了一款思维方式和所有AI都不同的产品。可以预测的是:
接下来的一年里,类Marvis的产品会密集出现。
04 · 马维斯现在值不值得装
目前马维斯的短板还是很明显的。
最让人着急的:慢。
让它做“微博签到”这类简单操作,它走的是“截图→看截图→操作→再截图→再看截图”的循环,执行速度较慢,一次签到耗时明显长于手动操作。你看着它干活,很可能忍不住自己去上手了。
图片识别不稳定。
搜文档可以,搜图片经常翻车。而且特别费Token。有人测了一次图片搜索,消耗了200万Token——而免费额度一天才1000万。
你电脑如果不够新,可能带不动。
效率模式最低6核CPU+16GB内存。装之前先看一眼自己的电脑配置。
以及,还有一些非技术原因。
比如它早晚会收费的。长期完全免费不现实。目前每天送1000万Token,但未来大概率会收费。
05 · AI大势所趋
小编写这篇东西不是要推荐谁去装Marvis。免费期内装一个试试确实不亏,但更重要的是它让人重新想了一些事。
过去两年科技公司和媒体给大众灌输了一个认知:AI很强大,AI能帮你做很多事。这个认知没错。但它隐藏了一个前提——AI的"做"停留在数字世界的信息层面。它帮你生成内容、分析数据、给出建议,然后你回到真实世界去执行。
这个前提在2026年之前是对的。Marvis上线的节点让它不完全对了——AI不再止于信息输出,而是进入了执行层面。 AI现在有了"手"。不是通过机械臂或机器人,而是通过你的操作系统、你的文件、你的App——直接操作数字世界的执行层了。
Marvis目前全量开放,marvis.qq.com直接能下,Windows/Mac/安卓都有,不用邀请码,每天1000万Token免费。装完别问"你能干什么",那是你跟豆包说话的方式。直接说"帮我把电脑里的垃圾清了",然后看它是给你写一篇操作指南,还是直接帮你干活。
留言区聊聊:你试了吗?感觉怎么样?
夜雨聆风