agent-browser 让 AI 像人一样操作浏览器——点击、填写、截图、提取数据。44 万人已经装了。

AI 的「上网能力」有多弱?
场景 1:查不到最新信息
你让 AI 帮你查一下某个竞品的最新定价。它搜索了一通,给你一个链接。你打开一看——404。因为那篇文章是去年的。
AI 不能实时打开网页看最新信息。它只能靠搜索引擎的缓存,而缓存经常过期。
场景 2:不能登录操作
你让 AI 帮你从一个需要登录的后台导出数据。它说:「抱歉,我无法访问需要认证的页面。」
AI 不能登录、不能操作 Cookie、不能处理 SPA 页面。它只能「看」静态 HTML,不能「用」网页。
场景 3:自动化测试总崩
你让 AI 帮你做一个自动化测试:打开页面 → 点击按钮 → 填写表单 → 提交 → 检查结果。
AI 写了 Selenium 脚本,但经常因为元素定位失败而崩溃。CSS 选择器一变,整个脚本就废了。

agent-browser 有多火?Vercel 官方出品,441K 安装,35.9K GitHub Star,周安装量稳定 2.4 万。
agent-browser 让 AI 真正能用浏览器
不是靠搜索引擎缓存,不是靠解析静态 HTML——是直接控制 Chrome 浏览器,像人一样点击、填写、滚动、截图。而且会话持久化,不用每次都从头开始。

agent-browser 的 4 大核心能力:
① 15+ 命令类别 — 导航、页面检查、交互操作、数据提取、Cookie 管理、JavaScript 执行……覆盖浏览器自动化的所有场景。
② 会话持久化 — 不用每次都从头开始。登录状态、Cookie、页面上下文全部保留。连续执行 100 条命令也不会丢状态。
③ @eN 元素引用 — 用无障碍树(Accessibility Tree)做页面快照,生成紧凑的 @e1、@e2 元素引用。不靠脆弱的 CSS 选择器,靠语义定位。
④ Python 集成 — 内置 Python 集成,可以直接设置变量、访问浏览器对象、运行脚本。自动化工作流无缝衔接。

agent-browser 支持 3 种浏览器模式:
• Headless Chromium:无界面运行,适合 CI/CD、后台自动化、批量爬取
• 真实 Chrome:连接你的真实浏览器,保留登录状态、扩展、Cookie
• 云端浏览器:云端托管的远程浏览器,带代理配置,适合跨地区访问

agent-browser 最适合这 4 类场景:
🔍 竞品监控 — 自动打开竞品网站,截图最新页面,提取价格/功能变化。定时执行,变化时告警。
🧪 E2E 测试 — 自动执行用户操作流程:打开页面 → 点击 → 填写 → 提交 → 验证结果。
📊 数据采集 — 从需要登录的后台、SPA 页面、动态加载的网站中提取数据。比传统爬虫更强。
🤖 AI 代理工作流 — 让 AI 代理自主上网搜索、填写表单、提交申请。结合 Cloudflare 隧道访问本地服务。
安装方法(三平台)
Claude Code
# 一键安装
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser
安装后说「帮我打开 xxx 网站截图」,AI 自动控制浏览器完成操作。
Codex
# 一键安装
npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser
安装后说「用 agent-browser 测试登录流程」,自动执行 E2E 测试。
Hermes Agent
# CLI 安装
hermes skills install agent-browser
# 或手动
git clone https://github.com/vercel-labs/agent-browser.git /tmp/ab
cp -r /tmp/ab/skills/agent-browser ~/.hermes/skills/
安装后说「帮我监控竞品网站的变化」,自动定时截图对比。
现在就试试
1. 安装 agent-browser:npx skills add ... --skill agent-browser
2. 说「帮我打开 xxx 网站,截图并提取标题」
3. 观察 AI 是否自动控制浏览器完成操作
4. 试试需要登录的场景:「登录后台,导出数据」
5. 探索高级功能:云端浏览器、Cloudflare 隧道、并行子代理
夜雨聆风