乐于分享
好东西不私藏

agent-browser:让 AI 真正学会「上网」的工具

agent-browser:让 AI 真正学会「上网」的工具

agent-browser:让 AI 真正学会「上网」的工具


你有没有被 AI 的回答逗乐过?

就是你问它「帮我看看今天科技头条有什么」,它一本正经给你列了五条新闻,你点进去一看,五条全是我编的。这种感觉挺离谱的,AI 根本不知道互联网长什么样,它只是在「想象」网页长什么样。

这个问题一直没有太好的解决方案。直到我最近用了 agent-browser。

这个 Skill 解决了什么问题

传统 AI 联网的方案就两种:要么靠搜索引擎返回一堆链接,要么靠爬虫把页面塞给 AI。前者 AI 拿到的是标题和摘要,后者经常抓下来的页面乱码、格式崩溃,体验都很差。

agent-browser 的思路不一样,它让 AI 真正打开一个浏览器,像真人一样操作网页。

打开、点击、填表、截图、滚动,AI 说什么它就做什么。它的交互方式是专门给 AI 优化的,不是什么 CSS 选择器、XPath,而是语义化的指令,「找到登录按钮」「找到邮箱输入框」,AI 看得懂,网页也认得出来。

怎么用

安装很简单,一条命令:

1
npm install -g agent-browser

用起来更简单,基本流程是三步:

1
2
3
agent-browser open https://example.com    # 打开网页
agent-browser snapshot -i                 # 获取可交互元素列表
agent-browser click @e1                   # 点击第一个元素

那个 @e1 就是 AI 友好的元素引用,每次快照都会变,但语义是稳定的,你和 AI 都知道「登录按钮」是哪个。

如果你的需求比较复杂,还可以批量执行:

1
2
3
4
5
agent-browser batch \
  "open https://example.com" \
  "snapshot -i" \
  "click @e1" \
  "screenshot"

一条命令跑完整套流程,不用每次都重新启动浏览器。

最骚的是它还有个 chat 模式,直接说人话:

1
agent-browser chat "帮我登录这个网站,用户名是 ai@test.com,密码是 123456"

你想想这意味着什么:你的工作流里那些需要手动点点点的重复操作,现在可以让 AI 自己跑了。

agent-browser 三步工作流

它跟市面上的方案比怎么样

我之前用 Playwright 和 Puppeteer,这两个工具本身很强,但主要还是给人用的。AI 用的时候,元素定位是个大麻烦,页面的按钮换了位置,整个脚本就废了。

agent-browser 的快照系统正好解决这个问题。快照返回的是 accessibility tree,页面的语义结构,AI 读得懂,即使页面改版,只要功能还在,AI 就能找到它。

而且它接了一堆云端浏览器服务,包括 Browserless、Browserbase、Browser Use、KERNEL 等等。本地跑也好,云端跑也好,命令行是同一套。

还有一个我很喜欢的东西,diff 功能。做 UI 监控的时候,以前我得自己写脚本对比截图,现在一句话:

1
agent-browser diff screenshot

它自动对比上一次的快照,告诉你哪里变了。真的方便。

AI 上网方案对比

什么人适合用它

如果你需要 AI 帮你做这些事情,agent-browser 值得一试:

第一,数据采集类需求。 竞品监控、新闻追踪、价格变化,这类重复性的网页操作,以前要么写爬虫要么自己手动刷新,现在可以全丢给 AI。

第二,自动填表和申报。 政府网站、企业内部系统,这类页面动辄几十个字段,手动填一次要半小时。用 agent-browser 搭好流程,下次就是一键的事。

第三,UI 测试和监控。 不用自己写断言语句,直接对比快照-diff,结果直接输出。

第四,研究和信息整理。 导师让整理文献、运营让追踪热点,AI 读网页这件事终于不再是个玄学。

谁适合用 agent-browser

缺点也得说

用了几天,我发现两个小问题。

一个是它毕竟跑的是真实浏览器,启动速度比纯 API 调用慢一些。如果你需要毫秒级响应的场景,agent-browser 可能不是最优选。

另一个是目前文档还不够完善,有些高级功能比如 network interception、trace/profiler,要自己啃源码或者在 Discord 里翻讨论才能搞明白。

不过考虑到它才出来没多久,这两个问题我觉得都可以接受。

怎么接入 Claude Code

回到 Skills 这个主题,agent-browser 本身是独立的 CLI 工具,但在 Claude Code 里用的时候,需要一个 wrapper skill 来组织提示词和工作流。

好消息是它的命令设计很干净,基本就是「动词 + 宾语」的结构,很适合封装成 Claude 的 tool 调用。如果你有一定的动手能力,给自己写一个 agent-browser 的 Claude Code integration 不难。

当然,如果 Agent Browser 官方或者社区能出一个专门的 Skill,体验会更顺滑。我估计这个不会太远。


说真的,这几年我见过很多号称「让 AI 控制浏览器」的工具,大多数跑起来都是半成品,体验拉胯。agent-browser 是少有的让我觉得「这个真的能用」的项目。

核心原因是它的设计思路:它是专门为 AI 工作流从头设计的,不是先有给人用的工具再强行改造。

你平时有什么需要重复操作网页的场景吗?评论区说说,下次我来帮你设计一套自动化方案。

以上,既然看到这里了,

如果觉得不错,随手点个赞、在看、转发三连吧,

如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章

后台回复skill,也可以获取全套skill~

我创建了一个skill分享交流群,有兴趣的可以加入