AI 正在接管浏览器!7 大开源工具横评:谁才是 Agent 时代的最佳选择?
🔍 GitHub Radar · 2026-05-29 · 浏览器自动化 AI 专题
01 痛点:让 AI 用浏览器,比想象中更难
过去一年,AI Agent 的概念火遍全网。但几乎所有 Agent 都面临同一个瓶颈——如何让 AI 真正「操作」网页?
传统的 API 调用只能访问有开放接口的服务,而互联网上 99% 的信息和操作都藏在网页里。订票、填表、发邮件、爬数据……这些任务都需要一个「数字手脚」来代替人类点击鼠标、输入文字。
浏览器自动化工具不是什么新鲜事物,Selenium 已经存在了 20 年。但 AI 时代的浏览器自动化,正在经历一场范式革命:
· 从「DOM 树解析」转向「视觉截图理解」
· 从「程序员写脚本」转向「Agent 自主决策」
· 从「启动虚拟浏览器」转向「接管用户真实浏览器」
今天,我们横向测评 7 款最热门的开源浏览器自动化工具,帮你找到 Agent 场景下的最佳选择。
02 七大神器逐个看
◆ browser-use ◆
👤 browser-use · 💻 Python · ⭐ 96,078
让网站对 AI Agent 可访问的完整框架,自带任务规划、LLM 集成、浏览器控制。
功能特点:
· 完整的 Web Agent 框架,支持任务分解和多步规划
· 底层基于 Playwright,可切换浏览器引擎
· 支持多种 LLM(OpenAI、Claude、本地模型)
· 内置 DOM 解析 + 视觉理解双模式
· 提供丰富的示例和文档
优点:
· 社区最活跃,GitHub 近 10 万 Star
· 开箱即用,框架成熟稳定
· 生态完善,有云端托管服务
风险:
· 架构较重,学习曲线陡峭
· 依赖 Playwright 底层,多层抽象
· AGPL 部分组件存在商业使用限制风险
场景举例:
你想让 AI 自动完成「在 LinkedIn 上搜索某公司的员工并发送连接请求」——browser-use 会把任务分解为登录→搜索→筛选→发送请求,一步步执行。
🔗 GitHub: https://github.com/browser-use/browser-use
◆ browser-harness ◆
👤 browser-use · 💻 Python · ⭐ 13,947
Self-healing harness,让 LLM 直接骑乘浏览器的极简工具链。
功能特点:
· 直接 CDP 连接用户已有 Chrome,无需启动新浏览器
· 截图驱动 + 坐标点击,天然穿透 iframe/shadow DOM
· Agent 自修复:执行中自动编写 helper 代码
· Domain Skills 生态: crowdsourced 上百个站点剧本
· 仅约 1,000 行核心代码,极简架构
优点:
· 继承用户真实浏览器的登录态、Cookie、书签
· 坐标点击在合成器层面执行,无视跨域限制
· 越用越聪明,Domain Skills 持续积累
· 支持 Browser Use Cloud 远程浏览器
风险:
· CDP 暴露上帝权限(Cookie/网络/JS 执行),Agent 行为不可预测
· 坐标点击在响应式布局下会漂移
· Chrome 144+ 每次 attach 需用户点击 Allow 弹窗
· IPC 安全边界较弱,同用户进程可连接 socket
· 仅支持 Chrome/CDP
场景举例:
Agent 想帮你在 Gmail 里发邮件——直接连接你正在用的 Chrome,无需重新登录,截图看到「撰写」按钮就点,全程像人类一样操作。
🔗 GitHub: https://github.com/browser-use/browser-harness
◆ Playwright ◆
👤 Microsoft · 💻 TypeScript · ⭐ 89,745
微软出品的端到端测试框架,支持 Chromium/Firefox/WebKit 三引擎统一 API。
功能特点:
· 跨浏览器:Chromium、Firefox、WebKit 统一 API
· 自动等待:智能等待元素就绪,减少 flaky test
· 代码生成:录制用户操作自动生成脚本
· 强大的 selector 引擎(role、text、CSS、XPath)
· Trace Viewer:完整的执行回溯和调试
优点:
· 工业级稳定性,微软官方维护
· 测试场景的首选,API 设计极其优雅
· 社区庞大,文档完善
· 支持移动端模拟、地理位置、权限模拟
风险:
· 为人类程序员设计,对 Agent 不够友好
· DOM selector 在页面改版时易失效
· 多层抽象(Locator→Frame→Page→Context→Browser)
· Agent 上下文窗口消耗大
场景举例:
电商网站的自动化测试——登录→加购物车→结算→支付,每一步都用 selector 精确控制,页面改版后只需更新选择器。
🔗 GitHub: https://github.com/microsoft/playwright
◆ Puppeteer ◆
👤 GoogleChrome · 💻 TypeScript · ⭐ 94,383
Google 官方出品的 Chrome DevTools Protocol 驱动库。
功能特点:
· 直接操作 CDP,控制力极强
· 支持 Chrome 和 Firefox
· 生成 PDF、截图、性能分析
· 无头/有头模式灵活切换
· Chrome 扩展测试支持
优点:
· Google 官方维护,CDP 新特性第一时间支持
· 比 Selenium 更快更轻量
· Node.js 生态原生集成
· 适合爬虫、PDF 生成、截图服务
风险:
· 仅支持 JavaScript/TypeScript
· 需要自己 launch 浏览器,管理进程
· 跨 iframe/shadow DOM 需要显式处理
· 对 Agent 场景没有原生优化
场景举例:
服务端截图服务——启动无头 Chrome,访问网页,截取首屏,生成 PDF,关闭浏览器,全程在服务器完成。
🔗 GitHub: https://github.com/puppeteer/puppeteer
◆ Selenium ◆
👤 SeleniumHQ · 💻 Java · ⭐ 34,128
浏览器自动化的鼻祖,20 年历史的企业级跨浏览器测试框架。
功能特点:
· 跨浏览器之王:Chrome/Firefox/Safari/Edge/IE 全支持
· WebDriver 标准协议的制定者
· 多语言绑定:Java/Python/C#/Ruby/JavaScript
· Grid 分布式执行
· 与 CI/CD 工具深度集成
优点:
· 企业级测试的事实标准
· 真正的跨浏览器,不只是 Chromium 系
· 生态最成熟,工具链最完善
· 法律合规性强,金融机构首选
风险:
· 架构老旧,设计于 AJAX 之前
· 代码量庞大(数十万行),启动慢
· WebDriver 协议比 CDP 慢(HTTP JSON vs WebSocket)
· 对现代 SPA 支持靠补丁
· 对 Agent 场景完全不友好
场景举例:
银行核心系统的跨浏览器兼容性测试——必须在 Chrome、Firefox、Safari、Edge 上跑同一套测试用例,确保界面一致。
🔗 GitHub: https://github.com/SeleniumHQ/selenium
◆ Stagehand ◆
👤 Browserbase · 💻 TypeScript · ⭐ 22,850
AI 原生的浏览器 Agent SDK,基于 Playwright 的「智能层」。
功能特点:
· 自然语言驱动:「点击登录按钮」代替 selector
· LLM 自动理解页面意图,生成操作步骤
· 与 Browserbase 云端浏览器深度集成
· 支持观察模式(observe)和执行模式(act)
· TypeScript 类型完备
优点:
· 为 AI Agent 场景专门设计
· 自然语言接口极大降低使用门槛
· 云端浏览器解决 stealth/captcha 问题
· 创业公司迭代快,新特性响应迅速
风险:
· 深度绑定 Browserbase 云服务,有 vendor lock-in
· 自然语言到操作的映射仍有幻觉风险
· 社区和生态比 browser-use 小
· 开源版功能受限,高级特性需付费
场景举例:
创业公司快速搭建一个「AI 订票助手」——用自然语言描述任务,Stagehand 自动翻译成浏览器操作,部署在 Browserbase 云端。
🔗 GitHub: https://github.com/browserbase/stagehand
◆ Skyvern ◆
👤 Skyvern-AI · 💻 Python · ⭐ 21,765
用 LLM + 计算机视觉自动执行浏览器工作流。
功能特点:
· 视觉 + DOM 双模态理解页面
· 工作流可编辑、可审计的 JSON 定义
· 支持表单自动填充、文件上传、验证码处理
· 内置任务重试和错误恢复
· REST API 接口,易于集成
优点:
· 强调可审计性,每个操作都有记录
· 适合企业 RPA 场景替代传统自动化
· Python 生态友好
· 工作流可视化编辑
风险:
· AGPL-3.0 许可证,商业使用受限
· 架构较重,部署复杂
· 视觉理解的准确率仍有提升空间
· 社区活跃度和 browser-use 有差距
场景举例:
企业财务部门每月固定流程——登录 ERP→导出报表→上传到财务系统→发送邮件通知,Skyvern 自动执行并生成审计日志。
🔗 GitHub: https://github.com/Skyvern-AI/skyvern
◆ Crawl4AI ◆
👤 unclecode · 💻 Python · ⭐ 66,986
LLM 友好的开源网页爬虫与抓取工具。
功能特点:
· 专为 LLM 设计的内容提取和清洗
· 支持 JavaScript 渲染的动态页面
· 自动提取结构化数据(表格、列表、文章)
· Markdown/JSON 输出,直接喂给 LLM
· 支持代理、速率限制、缓存
优点:
· 爬虫场景的专用工具,提取质量极高
· 对 LLM 的上下文窗口友好
· 支持批量爬取和分布式部署
· 社区非常活跃,Star 增长迅猛
风险:
· 专注爬取,不适合交互式操作(点击、填表)
· 与浏览器自动化工具的交集有限
· 大规模爬取存在法律和道德风险
场景举例:
构建一个「AI 知识库」——批量爬取 1000 个网页,自动提取正文、清理广告、生成 Markdown,直接用于 RAG 训练。
🔗 GitHub: https://github.com/unclecode/crawl4ai
03 横向大对比:一张表看清区别
项目 · Stars · 语言 · 协议 · 定位 · 浏览器来源 · 页面理解 · 最适合场景
browser-use · 96K · Python · MIT · 完整 Web Agent · 自启动 · DOM+视觉 · 通用 AI Agent
browser-harness · 14K · Python · MIT · Agent 浏览器控制器 · 用户已有 Chrome · 截图+坐标 · Agent 操作真实浏览器
Playwright · 90K · TS · Apache · E2E 测试框架 · 自启动 · DOM selector · 自动化测试
Puppeteer · 94K · TS · Apache · Chrome 自动化 · 自启动 · DOM selector · 爬虫/截图/PDF
Selenium · 34K · Java · Apache · 跨浏览器测试 · 自启动 · DOM selector · 企业级兼容性测试
Stagehand · 23K · TS · MIT · AI Agent SDK · 云端/本地 · 自然语言+DOM · AI 原生浏览器任务
Skyvern · 22K · Python · AGPL · RPA 工作流 · 自启动 · 视觉+DOM · 企业自动化流程
Crawl4AI · 67K · Python · Apache · LLM 爬虫 · 自启动 · 内容提取 · 数据抓取/知识库构建
04 风险总览:Agent 操控浏览器的水有多深?
◆ 安全风险 ◆
· CDP 上帝权限:能读所有 Cookie、拦截所有网络请求、执行任意 JS
· Agent 不可预测:prompt injection 可能导致恶意操作
· 自动生成的代码:agent_helpers.py 可能包含硬编码密码或恶意逻辑
· Profile 同步风险:Cookie 上传到云端等于交出登录会话
◆ 技术风险 ◆
· 坐标漂移:响应式布局/DPR 变化导致点击错位
· LLM 视觉幻觉:看错了按钮、点错了位置
· Session stale:标签页被关闭后 daemon 无法恢复
· Chrome 弹窗:144+ 版本需要用户手动点击 Allow
◆ 选型建议 ◆
· 要「AI Agent 做网页任务」→ browser-use 或 Stagehand
· 要「Agent 像人类一样用我的浏览器」→ browser-harness
· 要「自动化测试」→ Playwright(首选)或 Selenium(跨浏览器)
· 要「服务端截图/爬虫」→ Puppeteer 或 Crawl4AI
· 要「企业 RPA 替代」→ Skyvern
05 写在最后
浏览器自动化的历史,就是一部「让机器越来越像人类操作网页」的进化史。
Selenium 打开了这扇门,Playwright 和 Puppeteer 让这扇门更宽更稳,而 browser-use、browser-harness、Stagehand 正在把门拆掉——因为 AI Agent 根本不需要「按门铃」,它可以直接「穿墙而过」。
这个领域的竞争才刚刚开始。未来 12 个月,我们预计会看到:
· 视觉驱动的 Agent 准确率从 70% 提升到 90%+
· Domain Skills 生态爆发,每个主流网站都有专属剧本
· 浏览器厂商原生集成 AI 控制接口(不再依赖 CDP hack)
· 法律框架跟上,明确 Agent 操作网页的权责边界
如果你正在构建 AI Agent 产品,现在就是选择浏览器自动化栈的最佳时机。
GitHub 项目地址见上文各项目链接
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
—
萤火虫 AI 俱乐部 · 发现优质开源项目
夜雨聆风