90个网站变命令行?这个开源工具让AI Agent直接操作你的浏览器
你跟 Claude Code 说「帮我查一下小红书通知」,它回你一句抱歉,说它无法访问需要登录的网站。
你跟 Cursor 说「看看知乎今天有什么 AI 新闻」,它直接给你编了一个假的。
你的 AI Agent 明明聪明得很,却被一道登录墙挡在门外,动都动不了。
这是几乎所有 AI 用户每天都在经历的困境。
问题的根源
为什么 Agent 上不了网?
说起来原因很简单:90% 的网站没有开放 API。你没有接口可以调用,Agent 自然无计可施。
更进一步,即使有 API,大多数网站的核心数据都藏在登录态后面。Agent 拿不到你的账号密码,也拿不到你的登录态 cookie。它能看到的,只有登录页。
还有一层麻烦:反爬机制越来越严。你好不容易写了个爬虫,跑两天就被封 IP 了。
这三个问题叠加在一起,就形成了 Agent 访问互联网的结构性障碍。几乎所有现存的浏览器自动化方案,比如 Chrome Dev MCP、Agent Browser、Browser-Use,都绕不开这个困境。
直到我发现了 OpenCLI。
一个反直觉的思路
OpenCLI 解决这个问题的思路特别反直觉:与其让 Agent 操作浏览器,不如让 Agent 操作命令行。
它把各种网页应用都包装成命令行接口。网站、浏览器会话、Electron 桌面应用,只要你能打开的东西,OpenCLI 都能给它包装出一个确定的命令行接口。
这个接口不只是给我们人用的,更重要的是,AI Agent 也能用。
对 Agent 来说,装好对应的 skill 之后,你直接跟它说「帮我查一下 B 站今天有哪些热门视频」,Agent 就会在底层调用 OpenCLI 去完成操作。整个过程对用户是完全透明的。
这个设计思路的背后有一个更深的洞察:Agent 其实更适合操作命令行,而不是操作浏览器。
为什么?
让 Agent 直接操控浏览器,无论是用哪种方案,都会遇到两个致命问题:又慢又不稳定,token 消耗巨大。每次都要模拟点击、等待加载、解析 DOM,中间任何一步出错就全链断裂。而且 token 消耗是个无底洞。渲染页面、解析 DOM、识别元素,每一步都在烧钱。
而命令行是确定性的。相同的输入永远得到相同的输出结构,没有渲染延迟,没有 DOM 结构突变。Agent 告诉 OpenCLI 查知乎热榜,OpenCLI 返回一个表格,就是这个表格,不会突然变成另一个格式。
更重要的是,命令行完全不消耗模型 token。
三大能力,层层递进
OpenCLI 的能力可以分为三层来看。
第一层:内置适配器。
它内置了 90 多个适配器,覆盖 B 站、知乎、小红书、Twitter、GitHub 这些常用网站。装上就能直接用,不用自己写代码。
这意味着什么?你不需要研究每个网站的接口,不需要抓包分析请求,不需要写爬虫。只要你想查,一条命令就搞定。
opencli bilibili hot --limit 5opencli zhihu hotopencli xiaohongshu search "AI工具"
第二层:AI Agent 自动化。
内置适配器覆盖的毕竟是有限的 90 多个网站。那其他网站怎么办?
OpenCLI 支持让 Agent 操作任意网站。它会复用你浏览器里已经登录的状态,所以那些需要登录才能看的页面它都能处理,导航、点击、提取数据都不在话下。
这解决了 Agent 访问互联网的最后一公里问题:即使没有适配器,Agent 也能像人一样操作网页。
第三层:CLI 枢纽。
OpenCLI 还能把本地工具统一管理起来。gh、docker、Obsidian 这些命令行工具都可以注册到 OpenCLI 下面,形成一个统一的入口。
以后你想查 GitHub issues,想看 Docker 容器状态,想操作 Obsidian 笔记,都通过 OpenCLI 一个入口来管理。
从网站到本地工具,这是一条完整的能力链路。
四个核心亮点
用下来最吸引人的地方有四个。
零 LLM 成本。 运行的时候完全不消耗模型 token,这对于高频调用的场景特别友好。你一天查 100 次热榜,也不会多花一分钱。对比那些让 Agent 直接操控浏览器然后渲染页面的方案,这个优势是数量级的差距。
确定性输出。 同样的命令每次返回的结构都是一样的,这就让你可以放心地把结果接进 CI 流程里,不用担心哪天格式突然变了脚本全挂了。对比 AI 操控浏览器的方案,输出稳定性是天壤之别。
账号安全。 它复用的是你 Chrome 浏览器的登录态,你的 cookie 和 token 永远不会经过第三方服务器。这一点非常关键,因为很多替代方案要求你把凭据交给中间层,而 OpenCLI 不需要。它直接在你的浏览器环境里运行。
可脚本化。 输出可以直接管道传给其他工具,自动化这块儿特别顺手。你可以用 shell 脚本把多个命令串联起来,组装成复杂的工作流。
谁最适合用
如果你经常需要从某些网站抓数据做分析或者自动化脚本,用 OpenCLI 会省事很多。不用再费劲写爬虫,不用再跟反爬机制斗智斗勇。
如果你在用 AI Agent,又想让 Agent 能操作那些必须登录才能用的网站,它可以直接复用你浏览器的登录态,这个问题就解决了。
如果你是那种喜欢把重复操作变成一条命令的人,效率工具爱好者,那 OpenCLI 肯定合你胃口。把每天要查的信息变成命令,把每天要做的事情变成脚本,这才是命令行该有的用法。
为什么这件事值得关注
说了这么多,OpenCLI 真正解决的核心问题是:让 AI Agent 能够可靠地操作互联网。
我们正处在一个 AI Agent 快速发展的阶段,但 Agent 能做的事情还是很有限。大多数时候,Agent 只能处理纯文本任务。一旦涉及到需要访问特定网站、需要登录态的操作,Agent 就抓瞎了。
OpenCLI 提供了一个实用的解决方案,而且门槛很低。你不需要懂爬虫,不需要研究网页结构,不需要写复杂的自动化脚本。你只需要装上 OpenCLI,然后告诉 Agent 你想干什么。
90 多个内置适配器意味着开箱即用的能力。Browser 命令意味着对任意网站的操控能力。零 token 成本意味着可以高频使用。复用 Chrome 登录态意味着账号安全有保障。
这是一套完整的方案,不是一个半成品。
这个系列要做什么
这是 OpenCLI 系列的第一篇。
后面还有两期内容。第二期会手把手教大家怎么配置,让 Agent 真正能替你操作那些需要登录的网站。从安装到配置,从调试到实战,会有详细的步骤演示。
第三期内容更进阶。没有适配器的网站,每次都要 Agent 临时分析页面结构,效率不够高怎么办?答案是让 Agent 自己写适配器。给它一个网址,加上一句话需求,它就自动完成整个适配器的编写。
这条能力进阶路径是这样的:先学会用现有的 90+ 适配器,再学会让 Agent 操作任意网站,最后学会让 Agent 自己写新的适配器。三步走完,你的 Agent 就能像人一样操作互联网。
而且每次操作都会积累经验,越用越快,越来越懂你。
下期见。
夜雨聆风