我在微信上装了一个软件——用AI搭桥的奇妙经历
你有没有试过,人在外面,想给家里的电脑装个软件?或者更离谱一点:只靠发微信消息,就让AI帮你把软件装好?
我最近就干了这么一件事,整个过程一波三折,最后居然还真成了。
起因:腾讯出了个新东西
今天无意中刷到一个新闻,腾讯推出了一款叫 Marvis 的 AI 桌面助手。说是能接管电脑操作、整理文件、回答问题,听着挺有意思。官网 marvis.qq.com,安装包大约 8MB。
想马上尝试一下,但是人在外面,电脑在家里,怎么办?
我的微信已经与 Hermes 连接,通过微信,便能操控hermes远程控制我的电脑——打开浏览器、下载文件、执行命令、写脚本,甚至截屏看图。我心想:让它帮我装呗。
于是我在微信对话框里敲了一句:
**"帮我安装腾讯新推出的 Marvis 软件。"**
第一关:下载,轻松拿下
AI 收到指令后,立刻打开浏览器访问 marvis.qq.com,找到了 Windows 版下载链接,几秒钟就把安装包拖到了本地。
8.26MB,文件名 MarvisInstaller_new.exe。看起来一切顺利。
然而,这只是故事的开始。
第二关:安装器不听话
常规软件安装,一条 /S (静默安装)参数就能搞定。但 Marvis 的安装器不走寻常路——它是腾讯自研的 DirectUI 界面,并非标准的 Windows 安装程序。
AI 试了 /S,没反应。
试了 AutoIt3 脚本模拟点击,被检测拦截。
试了计划任务绕过权限,无效。
试了 Python + Windows API 发送模拟按键,同样被识破。
这个安装器像是有"防AI"机制似的,所有的自动化手段全部失效。
整整 17 个临时脚本文件、8.3MB 的尝试记录,全部宣告失败。
第三关:换个思路——用眼睛看
既然"盲操作"不行,那就让 AI 看见屏幕。
我让hermes开发了一个类似Claude code中Computer Use(计算机操控)的技能:
1. 截屏 — 拍下当前桌面画面
2. 视觉分析 — 用 AI 视觉模型(这里用的是glm-4v-flash视觉模型)"看懂"屏幕上的按钮、文字
3. 像素定位 — 算出"立即安装"按钮的精确坐标
4. 模拟鼠标 — 把光标移过去,点一下
这一步的关键在于:不跟安装器的代码较劲,而是像人一样用眼睛看、用手点。
截图传回来,AI 一眼就锁定了那个蓝色"立即安装"按钮。
鼠标移过去,点下。
进度条开始动了。
3%、15%、47%、95%……安装器窗口自动关闭,Marvis 主界面弹了出来。
第四关:走完最后几步
安装好了,但还有"下一步"、"开启 Marvis"、"开机启动允许"三连弹窗要处理。
同样的方法:截屏→识别→点击,三步走完。
Marvis 的蓝色主界面终于完整呈现在屏幕上。
左边菜单栏有"对话"、"任务"、"知识库"、"账号与设置"。一款全新的 AI 桌面助手,就这样通过微信远程装好了。
复盘:AI 学会"看"之后,能做的事多了多少?
| 尝试方式 | 结果 |
|---|---|
| 命令行静默参数 /S | ❌ 不适用 |
| AutoIt3 脚本模拟点击 | ❌ 被检测 |
| 计划任务绕过 UAC | ❌ 失败 |
| Python SendInput 按键 | ❌ 被检测 |
| **截屏 + 视觉分析 + 鼠标点击** | ✅ 成功 |
最后一招奏效,因为它跳出了传统自动化的框架。
传统自动化是"盲人摸象"——给程序发指令,期待它按规矩办事。但现实中大量软件(尤其是国内厂商的)根本不按规矩来:自绘界面、反 Hook、反模拟。
Computer Use 的思路完全不同:它模拟的是人的行为,而不是程序的行为。 人怎么操作电脑?看屏幕,移动鼠标,点击。AI 也这么做。
这其实打开了一扇大门——凡是你坐在电脑前能做的事,理论上 AI 都能远程代劳。安装软件只是其中最简单的一例。
写在最后
整个安装过程耗时约 20 分钟,经历了 10+ 次失败尝试,最终靠"计算机视觉 + 鼠标操控"这个组合拳拿下。
回头想想,这件事的意义不在于装了一个软件,而在于验证了一种可能:
未来,你不需要坐在电脑前。你只需要一部手机,一个对话框,AI 就能帮你把电脑上的事办了。
从微信发一条消息,到软件安装完成——这中间,隔着一整套 AI 思考、试错、换策略、最终突破的全过程。
而这个全过程,你只需要做的,是动动手指打几个字。
本文由 Hermes AI 助手远程操控完成软件安装后撰写,本人修改润色。
夜雨聆风