agent-browser:让 AI 真正学会「上网」的工具

agent-browser：让 AI 真正学会「上网」的工具

你有没有被 AI 的回答逗乐过？

就是你问它「帮我看看今天科技头条有什么」，它一本正经给你列了五条新闻，你点进去一看，五条全是我编的。这种感觉挺离谱的，AI 根本不知道互联网长什么样，它只是在「想象」网页长什么样。

这个问题一直没有太好的解决方案。直到我最近用了 agent-browser。

这个 Skill 解决了什么问题

传统 AI 联网的方案就两种：要么靠搜索引擎返回一堆链接，要么靠爬虫把页面塞给 AI。前者 AI 拿到的是标题和摘要，后者经常抓下来的页面乱码、格式崩溃，体验都很差。

agent-browser 的思路不一样，它让 AI 真正打开一个浏览器，像真人一样操作网页。

打开、点击、填表、截图、滚动，AI 说什么它就做什么。它的交互方式是专门给 AI 优化的，不是什么 CSS 选择器、XPath，而是语义化的指令，「找到登录按钮」「找到邮箱输入框」，AI 看得懂，网页也认得出来。

怎么用

安装很简单，一条命令：

1
npm install -g agent-browser

用起来更简单，基本流程是三步：

1
2
3
agent-browser open https://example.com    # 打开网页
agent-browser snapshot -i                 # 获取可交互元素列表
agent-browser click @e1                   # 点击第一个元素

那个 @e1 就是 AI 友好的元素引用，每次快照都会变，但语义是稳定的，你和 AI 都知道「登录按钮」是哪个。

如果你的需求比较复杂，还可以批量执行：

1
2
3
4
5
agent-browser batch \
  "open https://example.com" \
  "snapshot -i" \
  "click @e1" \
  "screenshot"

一条命令跑完整套流程，不用每次都重新启动浏览器。

最骚的是它还有个 chat 模式，直接说人话：

1
agent-browser chat "帮我登录这个网站，用户名是 ai@test.com，密码是 123456"

你想想这意味着什么：你的工作流里那些需要手动点点点的重复操作，现在可以让 AI 自己跑了。

它跟市面上的方案比怎么样

我之前用 Playwright 和 Puppeteer，这两个工具本身很强，但主要还是给人用的。AI 用的时候，元素定位是个大麻烦，页面的按钮换了位置，整个脚本就废了。

agent-browser 的快照系统正好解决这个问题。快照返回的是 accessibility tree，页面的语义结构，AI 读得懂，即使页面改版，只要功能还在，AI 就能找到它。

而且它接了一堆云端浏览器服务，包括 Browserless、Browserbase、Browser Use、KERNEL 等等。本地跑也好，云端跑也好，命令行是同一套。

还有一个我很喜欢的东西，diff 功能。做 UI 监控的时候，以前我得自己写脚本对比截图，现在一句话：

1
agent-browser diff screenshot

它自动对比上一次的快照，告诉你哪里变了。真的方便。

什么人适合用它

如果你需要 AI 帮你做这些事情，agent-browser 值得一试：

第一，数据采集类需求。 竞品监控、新闻追踪、价格变化，这类重复性的网页操作，以前要么写爬虫要么自己手动刷新，现在可以全丢给 AI。

第二，自动填表和申报。 政府网站、企业内部系统，这类页面动辄几十个字段，手动填一次要半小时。用 agent-browser 搭好流程，下次就是一键的事。

第三，UI 测试和监控。 不用自己写断言语句，直接对比快照-diff，结果直接输出。

第四，研究和信息整理。 导师让整理文献、运营让追踪热点，AI 读网页这件事终于不再是个玄学。

缺点也得说

用了几天，我发现两个小问题。

一个是它毕竟跑的是真实浏览器，启动速度比纯 API 调用慢一些。如果你需要毫秒级响应的场景，agent-browser 可能不是最优选。

另一个是目前文档还不够完善，有些高级功能比如 network interception、trace/profiler，要自己啃源码或者在 Discord 里翻讨论才能搞明白。

不过考虑到它才出来没多久，这两个问题我觉得都可以接受。

怎么接入 Claude Code

回到 Skills 这个主题，agent-browser 本身是独立的 CLI 工具，但在 Claude Code 里用的时候，需要一个 wrapper skill 来组织提示词和工作流。

好消息是它的命令设计很干净，基本就是「动词 + 宾语」的结构，很适合封装成 Claude 的 tool 调用。如果你有一定的动手能力，给自己写一个 agent-browser 的 Claude Code integration 不难。

当然，如果 Agent Browser 官方或者社区能出一个专门的 Skill，体验会更顺滑。我估计这个不会太远。

说真的，这几年我见过很多号称「让 AI 控制浏览器」的工具，大多数跑起来都是半成品，体验拉胯。agent-browser 是少有的让我觉得「这个真的能用」的项目。

核心原因是它的设计思路：它是专门为 AI 工作流从头设计的，不是先有给人用的工具再强行改造。

你平时有什么需要重复操作网页的场景吗？评论区说说，下次我来帮你设计一套自动化方案。

以上，既然看到这里了，

如果觉得不错，随手点个赞、在看、转发三连吧，

如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章

后台回复skill，也可以获取全套skill～

我创建了一个skill分享交流群，有兴趣的可以加入