用一句话让AI替你操作浏览器,这工具真的香
前几天有个朋友跟我吐槽,说他在做一个竞品调研,要一个个打开几十个网页截图存档。”手都要点断了”,他说。
我就问他:你怎么不让AI帮你干这活?
他愣了一下:AI还能操作浏览器?
能。而且做得很漂亮。今天就给大家介绍这个工具——agent-browser。
它能干什么
简单说,这是一个专门给AI设计浏览器自动化工具。你跟它说人话,它就能帮你操作浏览器。
比如你说”帮我填这个表格并发提交”,它自动识别页面上的输入框、按钮,把内容填好、点提交。整个过程你不需要写一行代码。
再说个场景——你想让AI帮你研究某个网站的产品和价格。传统做法你得写爬虫、搭环境、处理反爬。用agent-browser呢?一句命令搞定:
agent-browser chat “打开这个网站,把所有产品名称和价格提取出来”
AI会自动导航到页面、识别元素、读取信息。你只是下命令的那个。
我用了哪些场景
自动填表。有些后台管理界面三天两头要录数据,之前都是复制粘贴累死人。现在让agent-browser自动填,舒服。
批量截图存档。定期把某些网站的页面截图保存,用cron定时跑,省心。
登录状态保持。第一次登录之后,下次运行时自动恢复会话,不用重复登录。
页面对比。改完网站想看看前后的差别,直接diff对比,不用肉眼一个个找。
iOS真机测试。除了桌面浏览器,还能在iPhone模拟器上跑,测移动端页面很方便。
哪些Agent能用
好消息是主流的几个AI编程助手基本都支持:
OpenClaw——原生内置,拿来就能用,本文所有演示就是在OpenClaw里跑的。
Claude Code——通过npx调用,跟原生一样流畅。
Cursor——同样支持,配置文件都不用改。
其他CLI Agent——只要能跑shell命令,就能调agent-browser。
怎么装
三种方式,看你熟悉哪个:
npm(最通用)
npm i -g agent-browser
Homebrew(Mac用户)
brew install agent-browser
cargo(Rust党)
cargo install agent-browser
装完之后跑一下初始化,它会自动检测你系统里的Chrome,没有的话会自己下载:
agent-browser install
怎么用
上手很简单,四步走。
第一步:打开网页
agent-browser open https://example.com
第二步:看看页面上有什么
agent-browser snapshot -i
它会列出页面上的可交互元素,每个给一个编号:
@e1 [input type=”email”]@e2 [input type=”password”]@e3 [button] “Submit”
第三步:操作
agent-browser fill @e1 “my@email.com”agent-browser fill @e2 “mypassword”agent-browser click @e3
第四步:截图留证
agent-browser screenshot
加上--full可以截长图,整个页面都保存下来。
几个实用的进阶技巧
批量命令
与其一条条输命令,不如一次性和盘托出:
agent-browser batch \ “open https://example.com/form” \ “snapshot -i” \ “fill @e1 \”Jane Doe\”” \ “fill @e2 \”jane@example.com\”” \ “click @e3” \ “wait 2000” \ “screenshot”
一口气干完所有事。
登录状态不用重复
第一次手动登录之后,下次直接用--session-name自动恢复:
agent-browser –session-name myapp open https://app.example.com/login# …手动登录一次…agent-browser close# 之后直接用,自动恢复登录态agent-browser –session-name myapp open https://app.example.com/dashboard
如果密码不想留痕,可以用加密的凭证库:
echo “$PASSWORD” | agent-browser auth save github \ –url https://github.com/login \ –username user@email.com \ –password-stdin# 之后一键登录agent-browser auth login github
让AI自己理解页面
这是我觉得最酷的功能——你直接说人话:
agent-browser chat “打开Google,搜索AI工具,截图返回结果”
截图对比
想知道改版前后的差别,不用肉眼对比:
agent-browser diff url https://staging.example.com https://prod.example.com
它会自动截图对比,差异部分标红显示。
测试移动端
agent-browser -p ios –device “iPhone 16 Pro” open https://example.com
触屏操作也支持:
agent-browser -p ios tap @e1agent-browser -p ios swipe up
踩过的坑
Ref用完就失效。这是最常犯的错误。点完一个链接跳转之后,之前拿到的@e1、@e2这些引用就全废了,必须重新snapshot -i获取新的。懒了一下没重新获取,结果点了半天没反应。
networkidle慎用。有些网站广告多、推送多,一直有后台请求。等networkidle会等到你怀疑人生。用wait 2000或者wait "#具体元素"更稳妥。
状态文件要保护好。登录状态文件里存着你的会话token,推到GitHub上就麻烦了。用AGENT_BROWSER_ENCRYPTION_KEY加密一下,或者直接放.gitignore里不提交。
快速命令表
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
说到底,agent-browser解决的核心问题就是——把浏览器操作的活,从”写代码”变成”说话”。
对于AI开发者或者AI工作流搭建者来说,这半小时上手绝对值得。试试看,你会发现之前那些机械重复的浏览器操作,真的可以不动手了。
想获取命令速查表?关注公众号后回复”浏览器”
夜雨聆风