用一句话让AI替你操作浏览器,这工具真的香-夜雨聆风

用一句话让AI替你操作浏览器,这工具真的香

前几天有个朋友跟我吐槽，说他在做一个竞品调研，要一个个打开几十个网页截图存档。”手都要点断了”，他说。

我就问他：你怎么不让AI帮你干这活？

他愣了一下：AI还能操作浏览器？

能。而且做得很漂亮。今天就给大家介绍这个工具——agent-browser。

它能干什么

简单说，这是一个专门给AI设计浏览器自动化工具。你跟它说人话，它就能帮你操作浏览器。

比如你说”帮我填这个表格并发提交”，它自动识别页面上的输入框、按钮，把内容填好、点提交。整个过程你不需要写一行代码。

再说个场景——你想让AI帮你研究某个网站的产品和价格。传统做法你得写爬虫、搭环境、处理反爬。用agent-browser呢？一句命令搞定：

agent-browser chat “打开这个网站，把所有产品名称和价格提取出来”

AI会自动导航到页面、识别元素、读取信息。你只是下命令的那个。

我用了哪些场景

自动填表。有些后台管理界面三天两头要录数据，之前都是复制粘贴累死人。现在让agent-browser自动填，舒服。

批量截图存档。定期把某些网站的页面截图保存，用cron定时跑，省心。

登录状态保持。第一次登录之后，下次运行时自动恢复会话，不用重复登录。

页面对比。改完网站想看看前后的差别，直接diff对比，不用肉眼一个个找。

iOS真机测试。除了桌面浏览器，还能在iPhone模拟器上跑，测移动端页面很方便。

哪些Agent能用

好消息是主流的几个AI编程助手基本都支持：

OpenClaw——原生内置，拿来就能用，本文所有演示就是在OpenClaw里跑的。

Claude Code——通过npx调用，跟原生一样流畅。

Cursor——同样支持，配置文件都不用改。

其他CLI Agent——只要能跑shell命令，就能调agent-browser。

怎么装

三种方式，看你熟悉哪个：

npm（最通用）

npm i -g agent-browser

Homebrew（Mac用户）

brew install agent-browser

cargo（Rust党）

cargo install agent-browser

装完之后跑一下初始化，它会自动检测你系统里的Chrome，没有的话会自己下载：

agent-browser install

怎么用

上手很简单，四步走。

第一步：打开网页

agent-browser open https://example.com

第二步：看看页面上有什么

agent-browser snapshot -i

它会列出页面上的可交互元素，每个给一个编号：

@e1 [input type=”email”]@e2 [input type=”password”]@e3 [button] “Submit”

第三步：操作

agent-browser fill @e1 “my@email.com”agent-browser fill @e2 “mypassword”agent-browser click @e3

第四步：截图留证

agent-browser screenshot

加上--full可以截长图，整个页面都保存下来。

几个实用的进阶技巧

批量命令

与其一条条输命令，不如一次性和盘托出：

agent-browser batch \ “open https://example.com/form” \ “snapshot -i” \ “fill @e1 \”Jane Doe\”” \ “fill @e2 \”jane@example.com\”” \ “click @e3” \ “wait 2000” \ “screenshot”

一口气干完所有事。

登录状态不用重复

第一次手动登录之后，下次直接用--session-name自动恢复：

agent-browser –session-name myapp open https://app.example.com/login# …手动登录一次…agent-browser close# 之后直接用，自动恢复登录态agent-browser –session-name myapp open https://app.example.com/dashboard

如果密码不想留痕，可以用加密的凭证库：

echo “$PASSWORD” | agent-browser auth save github \ –url https://github.com/login \ –username user@email.com \ –password-stdin# 之后一键登录agent-browser auth login github

让AI自己理解页面

这是我觉得最酷的功能——你直接说人话：

agent-browser chat “打开Google，搜索AI工具，截图返回结果”

截图对比

想知道改版前后的差别，不用肉眼对比：

agent-browser diff url https://staging.example.com https://prod.example.com

它会自动截图对比，差异部分标红显示。

测试移动端

agent-browser -p ios –device “iPhone 16 Pro” open https://example.com

触屏操作也支持：

agent-browser -p ios tap @e1agent-browser -p ios swipe up

踩过的坑

Ref用完就失效。这是最常犯的错误。点完一个链接跳转之后，之前拿到的@e1、@e2这些引用就全废了，必须重新snapshot -i获取新的。懒了一下没重新获取，结果点了半天没反应。

networkidle慎用。有些网站广告多、推送多，一直有后台请求。等networkidle会等到你怀疑人生。用wait 2000或者wait "#具体元素"更稳妥。

状态文件要保护好。登录状态文件里存着你的会话token，推到GitHub上就麻烦了。用AGENT_BROWSER_ENCRYPTION_KEY加密一下，或者直接放.gitignore里不提交。

快速命令表

要做的事	命令
打开网页	agent-browser open [url]
看页面元素	agent-browser snapshot -i
点按钮/链接	agent-browser click @e1
填表单	agent-browser fill @e1 “文字”
截图	agent-browser screenshot
批量执行	agent-browser batch “cmd1” “cmd2”
AI帮你做	agent-browser chat “指令”
保持登录	–session-name [名称]

说到底，agent-browser解决的核心问题就是——把浏览器操作的活，从”写代码”变成”说话”。

对于AI开发者或者AI工作流搭建者来说，这半小时上手绝对值得。试试看，你会发现之前那些机械重复的浏览器操作，真的可以不动手了。

想获取命令速查表？关注公众号后回复”浏览器”