AI 终于能上网了

agent-browser 让 AI 像人一样操作浏览器——点击、填写、截图、提取数据。44 万人已经装了。

AI 的「上网能力」有多弱？

场景 1：查不到最新信息

你让 AI 帮你查一下某个竞品的最新定价。它搜索了一通，给你一个链接。你打开一看——404。因为那篇文章是去年的。

AI 不能实时打开网页看最新信息。它只能靠搜索引擎的缓存，而缓存经常过期。

场景 2：不能登录操作

你让 AI 帮你从一个需要登录的后台导出数据。它说：「抱歉，我无法访问需要认证的页面。」

AI 不能登录、不能操作 Cookie、不能处理 SPA 页面。它只能「看」静态 HTML，不能「用」网页。

场景 3：自动化测试总崩

你让 AI 帮你做一个自动化测试：打开页面 → 点击按钮 → 填写表单 → 提交 → 检查结果。

AI 写了 Selenium 脚本，但经常因为元素定位失败而崩溃。CSS 选择器一变，整个脚本就废了。

agent-browser 有多火？Vercel 官方出品，441K 安装，35.9K GitHub Star，周安装量稳定 2.4 万。

agent-browser 让 AI 真正能用浏览器

不是靠搜索引擎缓存，不是靠解析静态 HTML——是直接控制 Chrome 浏览器，像人一样点击、填写、滚动、截图。而且会话持久化，不用每次都从头开始。

agent-browser 的 4 大核心能力：

① 15+ 命令类别 — 导航、页面检查、交互操作、数据提取、Cookie 管理、JavaScript 执行……覆盖浏览器自动化的所有场景。

② 会话持久化 — 不用每次都从头开始。登录状态、Cookie、页面上下文全部保留。连续执行 100 条命令也不会丢状态。

③ @eN 元素引用 — 用无障碍树（Accessibility Tree）做页面快照，生成紧凑的 @e1、@e2 元素引用。不靠脆弱的 CSS 选择器，靠语义定位。

④ Python 集成 — 内置 Python 集成，可以直接设置变量、访问浏览器对象、运行脚本。自动化工作流无缝衔接。

agent-browser 支持 3 种浏览器模式：

• Headless Chromium：无界面运行，适合 CI/CD、后台自动化、批量爬取

• 真实 Chrome：连接你的真实浏览器，保留登录状态、扩展、Cookie

• 云端浏览器：云端托管的远程浏览器，带代理配置，适合跨地区访问

agent-browser 最适合这 4 类场景：

🔍 竞品监控 — 自动打开竞品网站，截图最新页面，提取价格/功能变化。定时执行，变化时告警。

🧪 E2E 测试 — 自动执行用户操作流程：打开页面 → 点击 → 填写 → 提交 → 验证结果。

📊 数据采集 — 从需要登录的后台、SPA 页面、动态加载的网站中提取数据。比传统爬虫更强。

🤖 AI 代理工作流 — 让 AI 代理自主上网搜索、填写表单、提交申请。结合 Cloudflare 隧道访问本地服务。

安装方法（三平台）

Claude Code

# 一键安装

npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser

安装后说「帮我打开 xxx 网站截图」，AI 自动控制浏览器完成操作。

Codex

# 一键安装

npx skills add https://github.com/vercel-labs/agent-browser --skill agent-browser

安装后说「用 agent-browser 测试登录流程」，自动执行 E2E 测试。

Hermes Agent

# CLI 安装

hermes skills install agent-browser

# 或手动

git clone https://github.com/vercel-labs/agent-browser.git /tmp/ab

cp -r /tmp/ab/skills/agent-browser ~/.hermes/skills/

安装后说「帮我监控竞品网站的变化」，自动定时截图对比。

现在就试试

1. 安装 agent-browser：npx skills add ... --skill agent-browser

2. 说「帮我打开 xxx 网站，截图并提取标题」

3. 观察 AI 是否自动控制浏览器完成操作

4. 试试需要登录的场景：「登录后台，导出数据」

5. 探索高级功能：云端浏览器、Cloudflare 隧道、并行子代理