当前所有AI Agent操作电脑的方式都建立在同一个范式上——让Agent像人一样看屏幕、找按钮、点鼠标、填表单。MiniMax的Computer Use、各种浏览器自动化框架,走的都是这条路。这个范式有一个根本性的脆弱点:它模拟的是人类交互的最表层。当页面布局变化、按钮位置移动、表单验证逻辑调整,Agent的整个操作链就会断裂。阿里云开发者社区最近开源的OpenCLI项目揭示了一个完全不同的路径——不模拟UI交互,直接解析和复现网页底层的API请求。这意味着Agent不是在点按钮,而是在调用按钮背后的接口。
理解这个路径转换的意义,需要先看清当前GUI模拟范式的结构性缺陷。当Agent需要完成一个任务——比如在电商后台创建一条商品上架记录——它需要先找到登录按钮、输入账号密码、等待页面加载、找到商品管理菜单、点击新建按钮、填写表单字段、点击提交。整个过程需要十几步UI交互,每一步都可能因为页面DOM结构的变化而失败。更重要的是,这个路径的效率极低——加载整个页面、等待JavaScript渲染、模拟鼠标移动和点击——这些人类操作中的必要步骤,对Agent来说都是不必要的开销。
OpenCLI的做法是直接拦截和分析浏览器发出的HTTP请求。当人类操作者在电商后台完成一次商品上架时,浏览器背后实际上只发了三个API请求——登录鉴权、商品数据提交、状态确认。OpenCLI解析这三个请求的参数、格式和依赖关系,然后让Agent直接构造并发送这些请求。不加载页面、不渲染DOM、不模拟点击。效率从几十秒降低到几秒,可靠性从脆弱的DOM依赖变成了稳定的API契约。
这个路径的核心假设是:软件的未来竞争力不在于它的界面有多好看,而在于它的可调用性。当AI Agent成为软件的主要使用者之一,一个没有公开API或者API设计糟糕的产品,就像一栋没有电梯的大楼——人类可以爬楼梯上去,但Agent进不来。可调用性正在成为软件竞争力的新维度。
这个趋势的信号不仅来自OpenCLI。Google Gemini Robotics的仪表盘读数能力本质上也是在绕开UI层——不是教机器人看屏幕上的数字,而是让它理解物理世界的模拟量。Cloudflare的MCP参考架构也是在绕开UI层——不是让Agent通过网页操作Cloudflare的控制台,而是通过标准化的协议直接调用能力。Ben Horowitz在a16z的访谈中从商业角度验证了这个判断——他认为AI正在侵蚀传统SaaS的护城河,因为当Agent成为软件的主要使用者时,用户界面不再是购买决策的核心因素。底层能力的可调用性将取代UI体验成为竞争力的关键。这和OpenCLI揭示的技术路径完全一致。
把这些信号合成在一起,未来六个月的趋势轮廓是清晰的。第一,Agent交互将从GUI模拟转向API直连。能暴露清晰API的产品将获得Agent生态的第一波红利。第二,软件可调用性将成为产品设计的新标准。不只是面向开发者的API,面向Agent的结构化交互协议正在成为新的基础设施。第三,浏览器自动化的竞争将从模拟精度转向底层解析能力。谁能更准确、更高效地解析和复现Web请求,谁就能定义下一代Agent自动化标准。
对开发者的启示很直接。如果你在构建一个AI Agent产品,先判断目标软件的API是否足够清晰——一个清晰的标准是三个条件同时满足:有OpenAPI或Swagger规范文档、鉴权流程有明确的开发者指引、提供沙箱测试环境。三个条件满足两个以上,可以直接对接。满足不到两个,OpenCLI这类逆向解析工具能帮你绕过限制,但长期来看,推动软件方暴露结构化API,比依赖逆向工程更可持续。
AI Agent操作软件的终局,不在屏幕上的像素里,在像素背后的API契约里。
关注公众号,回复【进化】加入AI商业前沿交流群。关注变量引力,一起进化。
夜雨聆风