AI Agent操作软件的终局,不在屏幕像素,在API契约

当前所有AI Agent操作电脑的方式都建立在同一个范式上——让Agent像人一样看屏幕、找按钮、点鼠标、填表单。MiniMax的Computer Use、各种浏览器自动化框架，走的都是这条路。这个范式有一个根本性的脆弱点：它模拟的是人类交互的最表层。当页面布局变化、按钮位置移动、表单验证逻辑调整，Agent的整个操作链就会断裂。阿里云开发者社区最近开源的OpenCLI项目揭示了一个完全不同的路径——不模拟UI交互，直接解析和复现网页底层的API请求。这意味着Agent不是在点按钮，而是在调用按钮背后的接口。

理解这个路径转换的意义，需要先看清当前GUI模拟范式的结构性缺陷。当Agent需要完成一个任务——比如在电商后台创建一条商品上架记录——它需要先找到登录按钮、输入账号密码、等待页面加载、找到商品管理菜单、点击新建按钮、填写表单字段、点击提交。整个过程需要十几步UI交互，每一步都可能因为页面DOM结构的变化而失败。更重要的是，这个路径的效率极低——加载整个页面、等待JavaScript渲染、模拟鼠标移动和点击——这些人类操作中的必要步骤，对Agent来说都是不必要的开销。

OpenCLI的做法是直接拦截和分析浏览器发出的HTTP请求。当人类操作者在电商后台完成一次商品上架时，浏览器背后实际上只发了三个API请求——登录鉴权、商品数据提交、状态确认。OpenCLI解析这三个请求的参数、格式和依赖关系，然后让Agent直接构造并发送这些请求。不加载页面、不渲染DOM、不模拟点击。效率从几十秒降低到几秒，可靠性从脆弱的DOM依赖变成了稳定的API契约。

这个路径的核心假设是：软件的未来竞争力不在于它的界面有多好看，而在于它的可调用性。当AI Agent成为软件的主要使用者之一，一个没有公开API或者API设计糟糕的产品，就像一栋没有电梯的大楼——人类可以爬楼梯上去，但Agent进不来。可调用性正在成为软件竞争力的新维度。

这个趋势的信号不仅来自OpenCLI。Google Gemini Robotics的仪表盘读数能力本质上也是在绕开UI层——不是教机器人看屏幕上的数字，而是让它理解物理世界的模拟量。Cloudflare的MCP参考架构也是在绕开UI层——不是让Agent通过网页操作Cloudflare的控制台，而是通过标准化的协议直接调用能力。Ben Horowitz在a16z的访谈中从商业角度验证了这个判断——他认为AI正在侵蚀传统SaaS的护城河，因为当Agent成为软件的主要使用者时，用户界面不再是购买决策的核心因素。底层能力的可调用性将取代UI体验成为竞争力的关键。这和OpenCLI揭示的技术路径完全一致。

把这些信号合成在一起，未来六个月的趋势轮廓是清晰的。第一，Agent交互将从GUI模拟转向API直连。能暴露清晰API的产品将获得Agent生态的第一波红利。第二，软件可调用性将成为产品设计的新标准。不只是面向开发者的API，面向Agent的结构化交互协议正在成为新的基础设施。第三，浏览器自动化的竞争将从模拟精度转向底层解析能力。谁能更准确、更高效地解析和复现Web请求，谁就能定义下一代Agent自动化标准。

对开发者的启示很直接。如果你在构建一个AI Agent产品，先判断目标软件的API是否足够清晰——一个清晰的标准是三个条件同时满足：有OpenAPI或Swagger规范文档、鉴权流程有明确的开发者指引、提供沙箱测试环境。三个条件满足两个以上，可以直接对接。满足不到两个，OpenCLI这类逆向解析工具能帮你绕过限制，但长期来看，推动软件方暴露结构化API，比依赖逆向工程更可持续。

AI Agent操作软件的终局，不在屏幕上的像素里，在像素背后的API契约里。

关注公众号，回复【进化】加入AI商业前沿交流群。关注变量引力，一起进化。