上篇介绍了腾讯新上的智能体Marvis,讲了6个Agent怎么分工干活、完成任务。
鹅厂又出手了:上了一只新龙虾,能操控手机APP,还带来了整个Agent团队
同时也提到了它能操控APP这件事。
上次测试了同花顺,在App里查板块数据、出报告,体验很新鲜。
这次来做更多测试。
说实话,我一直期待有一款能操控手机APP的智能体。
Marvis不是直接控制手机,而是通过PC端应用宝的安卓模拟器来操控APP——这个路径和想象中不太一样,但实测下来,惊喜不少。
微博、去哪儿、唯品会、小红书,这四个场景,全是Marvis在模拟器里直接操作的。
它到底怎么操控APP的?
原理说起来不复杂,但做出来的人目前只有它。
Marvis是腾讯应用宝团队做的,应用宝本身就有在电脑上运行安卓APP的能力——你在电脑上装个应用宝,就能直接跑微博、唯品会这些安卓APP,界面和手机上一模一样。
Marvis把这套能力接了进来。
但更关键的是它"怎么操作"——不是通过API调用,而是视觉识别。
App Agent的操控逻辑是这样的:先对当前屏幕截图,然后用视觉模型识别界面上的UI元素——按钮在哪、输入框在哪、文字内容是什么,统统识别出来,算出坐标,再执行点击、输入、滑动这些操作。
和人操作手机的逻辑基本一致:看一眼屏幕,找到要点的地方,用手指(这里是鼠标)点下去。
你在电脑屏幕上看得清清楚楚:Marvis打开了微博,在搜索框里打字,点进了热搜榜,然后把数据读出来整理成表格。
每一步都是"截图→识别→定位→操作"这个循环。

这不是通过API拿数据,是AI直接在APP界面上像人一样操作。
这个区别很关键——API能拿到的数据是有限的,通常只有开发商愿意开放的那部分。但AI能像人一样看到界面上的所有内容,包括那些没有API的APP。
场景一:微博——安装APP,整理24小时热搜榜
我对Marvis说:帮我在应用宝里安装微博,然后查一下当前24小时热搜榜,整理成表格,包含排名、话题、热度值。


PM接单,判断需要操作APP,拍了拍App Agent。
App Agent先打开应用宝,搜索"微博",找到官方版,点击安装。
安装完成后自动拉起微博APP——整个过程和你在手机上装APP一模一样,只是操作者是AI。
微博首页加载出来后,App Agent找到搜索入口,输入"热搜",点进热搜榜页面。
然后它把屏幕上显示的24条热搜逐条读取:排名、话题词、热度值,整理成表格返回给我。
整个过程大概3分钟。
表格包含:排名、话题名称、热度值、是否上新(带"热"或"新"标签的单独标注)。
这个场景最直观的价值是:你不需要自己打开微博、手动抄热搜、粘到表格里。
Marvis直接帮你做完,表格直接能用。
场景二:去哪儿——订机票,从搜索到支付
我对Marvis说:打开去哪儿APP,帮我查一下深圳到北京的机票,最近三天的,整理一下价格和航班信息,然后帮我订一张最便宜的,到支付页面停下来。
这个任务比查热搜复杂得多。
App Agent先打开应用宝,安装去哪儿APP(如果已安装则直接拉起)。

去哪儿首页加载后,App Agent找到"机票"入口,点击,输入出发地"深圳"、目的地"北京",选择日期,点击搜索。
搜索结果出来后,App Agent把最近三天的航班信息逐条读取:航空公司、航班号、起飞时间、到达时间、价格,整理成对比表格。

我看了表格,选了最便宜的一班。
App Agent继续操作:点击订票、填写乘客信息(从我通讯录里读)、选择座位、进入支付页面。

到支付页面,它停了下来,在对话框里告诉我:"已进入支付页面,请您完成支付。"
整个流程跑通了,从搜索到支付,全程自动,最后一步需要人来完成。
这和你自己用手机订机票的操作路径完全一样,只是操作者是AI。
场景三:唯品会——买溯溪鞋,生成HTML对比报告
这个场景最让我意外。
我对Marvis说:打开唯品会APP,搜索"夏季男士溯溪鞋",筛选价格区间200-300元,按销量排序,找出前5款热销商品,详细对比品牌、价格、功能特点,帮我做购买决策。


App Agent打开唯品会,搜索、筛选、逐一点进5款商品详情页,读取商品信息。
然后PM把数据汇总给File Agent——File Agent生成了一份完整的HTML对比报告。


报告包含:
• 5款商品的详细对比(骆驼、安踏、JEEP、探路者、李宁) • 核心功能特点逐条列出 • 价格对比(折后价、原价、折扣力度) • 用户评价摘要 • 综合推荐排行
HTML文件浏览器直接打开,排版完整,表格清晰,甚至做了响应式布局——手机上也能正常看。
这件事的含金量在于:它不只是"帮你搜信息",而是"在APP里帮你做调研,然后把调研结果写成报告"。
信息从哪里来?从APP里实时抓的,不是网上随便搜的。
报告长什么样?HTML格式,直接可用,不是一段纯文字扔给你。
场景四:小红书——端午家庭旅游攻略
之前看其他博主的测评,说Marvis操控不了小红书。
但我这次实测,能用了。
我对Marvis说:打开小红书APP,搜索"端午三天家庭旅游攻略",筛选最新发布的内容,整理出5个最适合家庭出游的目的地和行程安排。

App Agent打开小红书(应用宝里安装的),在搜索框输入关键词,点进搜索结果。
逐条点开笔记,读取正文内容、图片中的文字信息、评论区的高频建议,然后把5个目的地的攻略分别整理出来。
每个目的地包含:地点名称、适合人群、三天行程安排、预算参考、交通方式、住宿建议。
最后汇总成一份攻略摘要,直接可用。

这里有个细节值得说:小红书的内容大量在图片里,纯文字抓取经常丢信息。
Marvis能读图片里的文字(OCR能力),所以攻略整理出来的信息是完整的——不只是笔记正文,还包括图片里写的行程表和tips。
说到小红书,有一点不能不提。
之前我用WorkBuddy操控小红书,账号被封禁了。
这次通过应用宝模拟器来操作,会不会也触发封号,我心里没底。
后面我会测测能不能小红书发帖。
目前测试下来还没事,但这件事说明了一个问题:Marvis现在应该能操控所有上了应用宝的APP,只要模拟器里装得到,它就能打开、能操作。
这个能力的边界在哪里,其实不取决于Marvis,而取决于APP方愿不愿意被操控。
Agent能操控手机APP,这事是很多用户的期待——你不用自己一个个点,AI帮你把事干完。
但反过来,这也是很多APP的禁忌。
小红书大概率不希望自己的内容被AI批量抓取和整理。
我猜Marvis现在能操控小红书,只是因为它刚上线,还没被对方注意到。
后面小红书一定会想办法避免——比如干脆不上应用宝商城,或者在APP里加检测机制,识别出来是模拟器操作就拦截。
腾讯这边,我觉得也会走和微博类似的路:先和小红书官方谈授权,对方同意了,才允许Marvis操控;对方不同意,就会在应用宝层面限制。
这事不是技术能不能做到的问题,是permission的问题。
技术能做到,不等于应该这么做。
目前能操控哪些APP?
根据实测和官方信息,目前已授权可直接操控的APP包括:
微博、同花顺、飞常准、汽车之家、唯品会、去哪儿、小红书。
这些都是应用宝里能装、且Marvis团队做了适配的。
不能操控的也有:微信因安全机制被拒,部分 banking APP 同样出于安全原因暂时不支持。
这个名单会越来越长,但不会因为"想操控就能操控"——每个APP都需要做适配,而且要过安全审核。
它和"其他AI帮你搜"到底差在哪?
这句话值得单独说一遍:
别的AI:我帮你去网上搜微博热搜的数据。
Marvis:我直接帮你打开微博APP,在里头帮你查。
数据来源不一样。
网上的数据有可能是过时的、不完整的、或者根本就是错的。
APP里的数据是你自己打开APP能看到的数据——实时的,完整的,准确的。
这是数量级的差距,不是程度上的差异。
目前已知的限制
速度还是偏慢。微博场景实测3分钟+,去哪儿订机票全程大概5分钟。
不是Marvis"笨",是它真的在模拟人的操作——点一下、等页面加载、再点一下,这个节奏和人操作手机差不多。
部分APP需要登录。同花顺那个场景就卡在了登录环节,需要人手动完成,然后Marvis才能继续。
iOS/macOS还是不支持。目前只支持Windows PC和安卓APP,iPhone用户暂时用不了。
总结:它能做什么,边界在哪
能做的:
• 在电脑上操控安卓APP,完成搜索、读取、填写、点击等完整操作 • 把APP里的数据整理成表格、报告,直接可用 • 多步骤任务(从搜索到支付)一气呵成,不需要你中途介入(除了最后支付环节)
边界:
• 不是所有APP都能操控,要看有没有做适配 • 涉及支付的操作,最后一步需要人来完成 • 需要登录才能看的内容,第一次需要你手动登录 • 目前只支持Windows + 安卓APP
上篇主要写的是"团队协作",这篇写的是"操控APP"。
两篇合起来,大概能看清Marvis在打什么位置了——它不只是个对话AI,它是个能帮你操作电脑和手机的操作系统级助手。
这句判断准不准,等它正式上线了,每个人都能自己试。
Marvis目前处于邀请制内测阶段,官网 marvis.qq.com 已开放下载。第二篇完。
点个关注,还会继续分享更多的AI工具应用测评和方法。
----------------------------------
如果想了解更多AI工作提效的工具和方法
数据分析好帮手:我用 WorkBuddy 把半天杂活,变成了 3 分钟的“专属技能”
我的数字新同事:腾讯WorkBuddy体验记——一个装在本地、能操作电脑、能用微信控制的AI伙伴
万字长文:从视觉识别到生成式AI,拆解零售行业的8个AI转型案例
零售企业ai落地实战案例【1】:从销冠开始的ai赋能销售之路
夜雨聆风