乐于分享
好东西不私藏

用一句话让AI替你操作浏览器,这工具真的香

用一句话让AI替你操作浏览器,这工具真的香

前几天有个朋友跟我吐槽,说他在做一个竞品调研,要一个个打开几十个网页截图存档。”手都要点断了”,他说。

我就问他:你怎么不让AI帮你干这活?

他愣了一下:AI还能操作浏览器?

能。而且做得很漂亮。今天就给大家介绍这个工具——agent-browser


它能干什么

简单说,这是一个专门给AI设计浏览器自动化工具。你跟它说人话,它就能帮你操作浏览器。

比如你说”帮我填这个表格并发提交”,它自动识别页面上的输入框、按钮,把内容填好、点提交。整个过程你不需要写一行代码。

再说个场景——你想让AI帮你研究某个网站的产品和价格。传统做法你得写爬虫、搭环境、处理反爬。用agent-browser呢?一句命令搞定:

agent-browser chat “打开这个网站,把所有产品名称和价格提取出来”

AI会自动导航到页面、识别元素、读取信息。你只是下命令的那个。


我用了哪些场景

自动填表。有些后台管理界面三天两头要录数据,之前都是复制粘贴累死人。现在让agent-browser自动填,舒服。

批量截图存档。定期把某些网站的页面截图保存,用cron定时跑,省心。

登录状态保持。第一次登录之后,下次运行时自动恢复会话,不用重复登录。

页面对比。改完网站想看看前后的差别,直接diff对比,不用肉眼一个个找。

iOS真机测试。除了桌面浏览器,还能在iPhone模拟器上跑,测移动端页面很方便。


哪些Agent能用

好消息是主流的几个AI编程助手基本都支持:

OpenClaw——原生内置,拿来就能用,本文所有演示就是在OpenClaw里跑的。

Claude Code——通过npx调用,跟原生一样流畅。

Cursor——同样支持,配置文件都不用改。

其他CLI Agent——只要能跑shell命令,就能调agent-browser。


怎么装

三种方式,看你熟悉哪个:

npm(最通用)

npm i -g agent-browser

Homebrew(Mac用户)

brew install agent-browser

cargo(Rust党)

cargo install agent-browser

装完之后跑一下初始化,它会自动检测你系统里的Chrome,没有的话会自己下载:

agent-browser install


怎么用

上手很简单,四步走。

第一步:打开网页

agent-browser open https://example.com

第二步:看看页面上有什么

agent-browser snapshot -i

它会列出页面上的可交互元素,每个给一个编号:

@e1 [input type=”email”]@e2 [input type=”password”]@e3 [button] “Submit”

第三步:操作

agent-browser fill @e1 “my@email.com”agent-browser fill @e2 “mypassword”agent-browser click @e3

第四步:截图留证

agent-browser screenshot

加上--full可以截长图,整个页面都保存下来。


几个实用的进阶技巧

批量命令

与其一条条输命令,不如一次性和盘托出:

agent-browser batch \  “open https://example.com/form” \  “snapshot -i” \  “fill @e1 \”Jane Doe\”” \  “fill @e2 \”jane@example.com\”” \  “click @e3” \  “wait 2000” \  “screenshot”

一口气干完所有事。

登录状态不用重复

第一次手动登录之后,下次直接用--session-name自动恢复:

agent-browser –session-name myapp open https://app.example.com/login# …手动登录一次…agent-browser close# 之后直接用,自动恢复登录态agent-browser –session-name myapp open https://app.example.com/dashboard

如果密码不想留痕,可以用加密的凭证库:

echo “$PASSWORD” | agent-browser auth save github \  –url https://github.com/login \  –username user@email.com \  –password-stdin# 之后一键登录agent-browser auth login github

让AI自己理解页面

这是我觉得最酷的功能——你直接说人话:

agent-browser chat “打开Google,搜索AI工具,截图返回结果”

截图对比

想知道改版前后的差别,不用肉眼对比:

agent-browser diff url https://staging.example.com https://prod.example.com

它会自动截图对比,差异部分标红显示。

测试移动端

agent-browser -p ios –device “iPhone 16 Pro” open https://example.com

触屏操作也支持:

agent-browser -p ios tap @e1agent-browser -p ios swipe up


踩过的坑

Ref用完就失效。这是最常犯的错误。点完一个链接跳转之后,之前拿到的@e1、@e2这些引用就全废了,必须重新snapshot -i获取新的。懒了一下没重新获取,结果点了半天没反应。

networkidle慎用。有些网站广告多、推送多,一直有后台请求。等networkidle会等到你怀疑人生。用wait 2000或者wait "#具体元素"更稳妥。

状态文件要保护好。登录状态文件里存着你的会话token,推到GitHub上就麻烦了。用AGENT_BROWSER_ENCRYPTION_KEY加密一下,或者直接放.gitignore里不提交。


快速命令表

要做的事
命令
打开网页
agent-browser open [url]
看页面元素
agent-browser snapshot -i
点按钮/链接
agent-browser click @e1
填表单
agent-browser fill @e1 “文字”
截图
agent-browser screenshot
批量执行
agent-browser batch “cmd1” “cmd2”
AI帮你做
agent-browser chat “指令”
保持登录
–session-name [名称]

说到底,agent-browser解决的核心问题就是——把浏览器操作的活,从”写代码”变成”说话”。

对于AI开发者或者AI工作流搭建者来说,这半小时上手绝对值得。试试看,你会发现之前那些机械重复的浏览器操作,真的可以不动手了。

想获取命令速查表?关注公众号后回复”浏览器”