昨天,Claude发布了新版本的Computer Use功能(AI操控电脑),在圈子里引发了不少讨论。我和几位朋友聊起这个功能时,我提到一个问题:从去年Manus推出算起,AI操控浏览器(Browser use)这个技术已经出现在公众视野一年多了,可直到现在,Anthropic、OpenAI这些大厂才把Computer Use(AI直接操控电脑)拿出来大张旗鼓地推广。其实他们之前也试水过电脑操控功能,但效果一直不尽如人意,如今新一轮集中发布。AI用浏览器和直接操控电脑,核心差别到底在哪?
先搞懂关键概念:什么是DOM?
在讲两者区别前,必须先解释一个核心词——DOM。
DOM,Document Object Model,就是网页的结构化文本描述,相当于一份纯文字版的网页说明书,没有图片、没有像素,全是文本信息。里面会清清楚楚写明:页面上这个元素是按钮还是输入框,它的名字叫什么、类型是什么,有哪些专属属性,该执行什么操作。
而大语言模型天生就是处理文本、理解文本的,和这种文本化的结构信息高度契合。AI只要读懂DOM,就能精准知道该操作哪里,完全不需要依赖视觉分析、不需要截图猜位置,这也是AI操控浏览器的核心优势。
AI操控浏览器 vs AI操控电脑:本质天差地别
很多人觉得浏览器也是电脑软件,AI操作两者应该差不多,实则完全不同,核心差距就在于有没有结构化信息、有没有设备主动配合。
AI操控整台电脑(Computer Use)
不管是打开桌面软件、操作Excel/Word,还是管理电脑文件,AI都没有专属的“说明书”。
它只能通过截取电脑屏幕画面,用视觉模型识别界面元素,再计算鼠标坐标,下达点击、输入的指令。全程靠“看图猜点位”,没有任何结构化信息支撑,容易点错、卡顿,稳定性极差,这也是之前该功能效果不好的核心原因。
AI操控浏览器
浏览器看似是普通软件,却给AI开了“绿色通道”,而且目前绝大多数AI工具,都只选用谷歌浏览器。
因为谷歌浏览器会主动配合AI调用,开放了专门的调试接口,能让AI顺畅读取DOM结构;而微软Edge、苹果Safari等浏览器,并没有做这种针对性的适配配合,所以AI工具普遍把谷歌浏览器作为操作网页的唯一通道。
也正是有了浏览器的主动配合,AI操控浏览器不用只靠视觉,还能分层次操作,适配不同类型的网页。
AI操作浏览器的三个层次,越标准越好用
AI操控浏览器不是单一模式,而是按照“优先结构化,视觉做辅助,兜底靠坐标”的逻辑层层降级,效率和稳定性相差极大:
第一层:纯DOM操作,零视觉依赖(最优解)
遇到标准简单的网页,每个元素都有专属ID、name,操作就是基础的click,没有复杂JS事件,AI完全不截图、不看页面,直接读取DOM文本信息,精准执行操作,成功率接近100%,又快又稳。
第二层:视觉辅助,DOM为主(复杂页面适配)
如果网页结构稍复杂,比如有图表、富文本编辑器,DOM读取不够清晰,AI会截一张图辅助理解页面布局、元素位置,确认方向后,核心操作依然通过DOM和浏览器接口完成,不是单纯靠坐标点击,兼顾理解度与精准度。
第三层:坐标兜底,纯视觉操作(最后备选)
遇到DOM结构复杂的特殊页面,例如多个DIV层层嵌套,还有比较复杂的JS事件流程。AI才会降级成和操控电脑一样的模式,靠截图识别坐标点击,这是最无奈的兜底方案,准确率会大幅下降。
网页想对AI友好?新做、老改造都有方法
明白了DOM的重要性,想让网页适配AI,不管是新开发还是老旧页面,都有对应的办法:
新页面制作:从源头规范DOM
从零开发网页时,只要做好这几点,就能天生适配AI:
1. 规范网页结构,给按钮、输入框、表单等所有交互元素,添加固定且唯一的ID、name,让DOM说明书清晰完整;
2. 简化交互逻辑,用原生的点击、填写、提交操作,减少复杂自定义JS事件,降低AI理解成本;
3. 使用语义化标签,不用杂乱代码模拟元素,保证DOM结构规整,AI能快速识别。
老旧页面改造:无需重做,加段代码即可
很多企业、单位的老旧系统,重构成本高、难度大,想适配AI不用推翻重来。
像谷歌等厂商都推出了简易方案,给老网页嵌入一段专属JS代码,不用改动原有功能,就能自动给元素补全标识、封装复杂操作、生成清晰的DOM说明书,几分钟就能让老网页变成AI友好型,成本极低,效果却立竿见影。
最后总结
回到开头的话题,AI操控电脑之所以晚一年多才成熟,就是因为它只能靠视觉猜点位,而AI浏览器操作早有DOM+谷歌浏览器的主动配合,天生更高效。
简单来说:
• AI操控电脑:无说明书,全靠视觉,稳定性差;
• AI操控浏览器:有DOM文本指引,谷歌浏览器主动配合,分三层操作,精准又高效;
• 网页适配AI:新页面规范DOM,老页面加段代码,无需大改就能实现。
这也是为啥Claude的Computer Use现在才发力,而浏览器AI早已成熟落地,两者的技术逻辑和落地难度,从一开始就不一样。
夜雨聆风