90个网站变命令行?这个开源工具让AI Agent直接操作你的浏览器-夜雨聆风

90个网站变命令行?这个开源工具让AI Agent直接操作你的浏览器

你跟 Claude Code 说「帮我查一下小红书通知」，它回你一句抱歉，说它无法访问需要登录的网站。

你跟 Cursor 说「看看知乎今天有什么 AI 新闻」，它直接给你编了一个假的。

你的 AI Agent 明明聪明得很，却被一道登录墙挡在门外，动都动不了。

这是几乎所有 AI 用户每天都在经历的困境。

问题的根源

为什么 Agent 上不了网？

说起来原因很简单：90% 的网站没有开放 API。你没有接口可以调用，Agent 自然无计可施。

更进一步，即使有 API，大多数网站的核心数据都藏在登录态后面。Agent 拿不到你的账号密码，也拿不到你的登录态 cookie。它能看到的，只有登录页。

还有一层麻烦：反爬机制越来越严。你好不容易写了个爬虫，跑两天就被封 IP 了。

这三个问题叠加在一起，就形成了 Agent 访问互联网的结构性障碍。几乎所有现存的浏览器自动化方案，比如 Chrome Dev MCP、Agent Browser、Browser-Use，都绕不开这个困境。

直到我发现了 OpenCLI。

一个反直觉的思路

OpenCLI 解决这个问题的思路特别反直觉：与其让 Agent 操作浏览器，不如让 Agent 操作命令行。

它把各种网页应用都包装成命令行接口。网站、浏览器会话、Electron 桌面应用，只要你能打开的东西，OpenCLI 都能给它包装出一个确定的命令行接口。

这个接口不只是给我们人用的，更重要的是，AI Agent 也能用。

对 Agent 来说，装好对应的 skill 之后，你直接跟它说「帮我查一下 B 站今天有哪些热门视频」，Agent 就会在底层调用 OpenCLI 去完成操作。整个过程对用户是完全透明的。

这个设计思路的背后有一个更深的洞察：Agent 其实更适合操作命令行，而不是操作浏览器。

为什么？

让 Agent 直接操控浏览器，无论是用哪种方案，都会遇到两个致命问题：又慢又不稳定，token 消耗巨大。每次都要模拟点击、等待加载、解析 DOM，中间任何一步出错就全链断裂。而且 token 消耗是个无底洞。渲染页面、解析 DOM、识别元素，每一步都在烧钱。

而命令行是确定性的。相同的输入永远得到相同的输出结构，没有渲染延迟，没有 DOM 结构突变。Agent 告诉 OpenCLI 查知乎热榜，OpenCLI 返回一个表格，就是这个表格，不会突然变成另一个格式。

更重要的是，命令行完全不消耗模型 token。

三大能力，层层递进

OpenCLI 的能力可以分为三层来看。

第一层：内置适配器。

它内置了 90 多个适配器，覆盖 B 站、知乎、小红书、Twitter、GitHub 这些常用网站。装上就能直接用，不用自己写代码。

这意味着什么？你不需要研究每个网站的接口，不需要抓包分析请求，不需要写爬虫。只要你想查，一条命令就搞定。

opencli bilibili hot --limit 5opencli zhihu hotopencli xiaohongshu search "AI工具"

第二层：AI Agent 自动化。

内置适配器覆盖的毕竟是有限的 90 多个网站。那其他网站怎么办？

OpenCLI 支持让 Agent 操作任意网站。它会复用你浏览器里已经登录的状态，所以那些需要登录才能看的页面它都能处理，导航、点击、提取数据都不在话下。

这解决了 Agent 访问互联网的最后一公里问题：即使没有适配器，Agent 也能像人一样操作网页。

第三层：CLI 枢纽。

OpenCLI 还能把本地工具统一管理起来。gh、docker、Obsidian 这些命令行工具都可以注册到 OpenCLI 下面，形成一个统一的入口。

以后你想查 GitHub issues，想看 Docker 容器状态，想操作 Obsidian 笔记，都通过 OpenCLI 一个入口来管理。

从网站到本地工具，这是一条完整的能力链路。

四个核心亮点

用下来最吸引人的地方有四个。

零 LLM 成本。 运行的时候完全不消耗模型 token，这对于高频调用的场景特别友好。你一天查 100 次热榜，也不会多花一分钱。对比那些让 Agent 直接操控浏览器然后渲染页面的方案，这个优势是数量级的差距。

确定性输出。 同样的命令每次返回的结构都是一样的，这就让你可以放心地把结果接进 CI 流程里，不用担心哪天格式突然变了脚本全挂了。对比 AI 操控浏览器的方案，输出稳定性是天壤之别。

账号安全。 它复用的是你 Chrome 浏览器的登录态，你的 cookie 和 token 永远不会经过第三方服务器。这一点非常关键，因为很多替代方案要求你把凭据交给中间层，而 OpenCLI 不需要。它直接在你的浏览器环境里运行。

可脚本化。 输出可以直接管道传给其他工具，自动化这块儿特别顺手。你可以用 shell 脚本把多个命令串联起来，组装成复杂的工作流。

谁最适合用

如果你经常需要从某些网站抓数据做分析或者自动化脚本，用 OpenCLI 会省事很多。不用再费劲写爬虫，不用再跟反爬机制斗智斗勇。

如果你在用 AI Agent，又想让 Agent 能操作那些必须登录才能用的网站，它可以直接复用你浏览器的登录态，这个问题就解决了。

如果你是那种喜欢把重复操作变成一条命令的人，效率工具爱好者，那 OpenCLI 肯定合你胃口。把每天要查的信息变成命令，把每天要做的事情变成脚本，这才是命令行该有的用法。

为什么这件事值得关注

说了这么多，OpenCLI 真正解决的核心问题是：让 AI Agent 能够可靠地操作互联网。

我们正处在一个 AI Agent 快速发展的阶段，但 Agent 能做的事情还是很有限。大多数时候，Agent 只能处理纯文本任务。一旦涉及到需要访问特定网站、需要登录态的操作，Agent 就抓瞎了。

OpenCLI 提供了一个实用的解决方案，而且门槛很低。你不需要懂爬虫，不需要研究网页结构，不需要写复杂的自动化脚本。你只需要装上 OpenCLI，然后告诉 Agent 你想干什么。

90 多个内置适配器意味着开箱即用的能力。Browser 命令意味着对任意网站的操控能力。零 token 成本意味着可以高频使用。复用 Chrome 登录态意味着账号安全有保障。

这是一套完整的方案，不是一个半成品。

这个系列要做什么

这是 OpenCLI 系列的第一篇。

后面还有两期内容。第二期会手把手教大家怎么配置，让 Agent 真正能替你操作那些需要登录的网站。从安装到配置，从调试到实战，会有详细的步骤演示。

第三期内容更进阶。没有适配器的网站，每次都要 Agent 临时分析页面结构，效率不够高怎么办？答案是让 Agent 自己写适配器。给它一个网址，加上一句话需求，它就自动完成整个适配器的编写。

这条能力进阶路径是这样的：先学会用现有的 90+ 适配器，再学会让 Agent 操作任意网站，最后学会让 Agent 自己写新的适配器。三步走完，你的 Agent 就能像人一样操作互联网。

而且每次操作都会积累经验，越用越快，越来越懂你。

下期见。