这7个工具让你的AI拥有自动操作浏览器的超能力-夜雨聆风

这7个工具让你的AI拥有自动操作浏览器的超能力

引言

Claude Code 能让 AI 直接操作浏览器 —— 自动测试页面、截图、填写表单、抓取数据。但支持的工具不少，定位和适用场景差别挺大。本文对比 7 个工具：Playwright MCP、Chrome DevTools MCP、Puppeteer MCP、Selenium MCP、Browser Use MCP，以及阿里巴巴 PageAgent 和最近冒头的 OpenCLI。每个都附带安装步骤，帮你做选择。

一、Playwright MCP：最成熟的通用方案

它是什么

Playwright 是微软开源的浏览器自动化框架，支持 Chromium、Firefox、WebKit 三大内核。MCP 版本让 Claude Code 能通过自然语言调用 Playwright 的能力。

适合什么场景

• E2E 自动化测试、回归测试
• 页面截图、PDF 导出
• 爬虫和数据抓取
• 需要跨浏览器兼容性的场景

安装步骤

前置条件：已安装 Node.js 18+ 和 Claude Code CLI。终端执行一条命令：

claude mcp add playwright npx @playwright/mcp@latest

WSL 环境下 shell 解析有问题，加引号：

claude mcp add playwright npx "@playwright/mcp@latest"

验证安装：

claude mcp list

看到 playwright 在列表中即为成功。手动配置方式（可选）：编辑 \~/\.claude/settings\.json：

{"mcpServers":{"playwright":{"command":"npx","args":["@playwright/mcp@latest"]}}}

使用示例

帮我打开百度，搜索"Claude Code"并截图

访问 localhost:1080，检查页面是否有错误，把 console 日志发给我

帮我生成一个 Playwright 测试，流程是：打开首页 -> 点击登录 -> 输入用户名密码 -> 验证跳转

注意事项

• Playwright MCP 启动时会自动下载 Chromium，首次使用需要等几分钟
• 页面结构复杂时，建议先用 browser\_snapshot 获取页面结构再操作
• @latest 标签保证始终用最新版本

二、Chrome DevTools MCP：前端调试利器

它是什么

Google 官方推出的 Chrome DevTools MCP 插件，提供 29 个工具，覆盖浏览器自动化、性能分析、网络监控。GitHub: claude.com/plugins/chrome-devtools-mcp

适合什么场景

• 前端开发调试（检查 DOM、查看样式、分析布局）
• 性能分析（Lighthouse 指标、Core Web Vitals）
• 网络请求监控（查看 API 调用、分析加载性能）
• 需要深度访问 Chrome 开发者工具的场景

与 Playwright 的区别

Playwright 是从外部操控浏览器，适合自动化流程；Chrome DevTools MCP 是深入浏览器内部，适合调试和分析。两者互补，不是替代关系。

安装步骤

claude mcp add chrome-devtools npx chrome-devtools-mcp@latest

然后在 Chrome 中安装对应的 DevTools 扩展即可连接。

使用示例

检查一下当前页面的布局问题，有没有 overflow 的情况

帮我分析一下这个页面的加载性能，看看哪些资源最慢

三、Puppeteer MCP：轻量级 Chrome 控制

它是什么

Puppeteer 是 Google 官方维护的 Node.js 库，专门控制 Chrome/Chromium。Puppeteer MCP 把它的能力通过 MCP 协议暴露给 Claude Code。相比 Playwright，Puppeteer 更轻量，只专注 Chromium 内核。社区里有几个主要实现：

• jaenster/puppeteer-mcp-claude
• andytango/puppeteer-mcp

适合什么场景

• 截图和 PDF 生成（Puppeteer 在这方面是业界标准）
• 服务端渲染（SSR）页面的爬虫
• 轻量级浏览器自动化，不需要 Firefox/WebKit 支持
• 已有 Puppeteer 项目的迁移和集成

安装步骤

# 全局安装npm install -g puppeteer-mcp-server

添加到 Claude Code 配置：

claude mcp add puppeteer puppeteer-mcp-server

或者通过 settings.json 手动配置：

{"mcpServers":{"puppeteer":{"command":"npx","args":["-y","puppeteer-mcp-server"]}}}

首次使用会自动下载 Chromium。

使用示例

用 Puppeteer 打开这个页面，截图保存为 PDF

抓取这个 SPA 页面的完整 HTML，包括 JavaScript 渲染后的内容

四、Selenium MCP：企业级测试标准

它是什么

Selenium 是最早也最广泛使用的浏览器自动化框架。Selenium MCP 把它的能力通过 MCP 协议接入 Claude Code。它支持几乎所有主流浏览器（Chrome、Firefox、Safari、Edge），社区生态也最庞大。PyPI: selenium-mcp-server

适合什么场景

• 企业级 E2E 测试（很多公司的测试体系基于 Selenium）
• 需要测试多浏览器的兼容性
• 遗留 Selenium 项目的 AI 化改造
• 自动化测试团队从 Selenium Grid 迁移

安装步骤

pip install selenium-mcp-server

添加到 Claude Code 配置：

claude mcp add selenium selenium-mcp-server

需要确保系统中已安装对应浏览器的 WebDriver（或使用 selenium-manager 自动管理）。

使用示例

用 Selenium 打开这个页面，等待 3 秒后截图

帮我用 Selenium 完成登录流程，验证页面元素是否存在

五、Browser Use MCP：AI 原生浏览器自动化

它是什么

Browser Use 是一个为 AI Agent 设计的浏览器自动化框架。它的 MCP Server 让 Claude Code 以 AI 友好的方式操控浏览器 —— 不是机械地按坐标点击，而是理解页面语义后智能操作。GitHub: kontext-dev/browser-use-mcp-server文档: docs.browser-use.com

适合什么场景

• AI Agent 需要理解页面内容并做决策（不只是机械操作）
• 复杂的网页交互流程（需要理解上下文）
• 智能数据提取（基于语义而非固定选择器）
• Agent 需要看懂页面后再行动

安装步骤

# 使用 pip 安装pip install browser-use-mcp-server# 或使用 uv（更快）uv pip install browser-use-mcp-server

添加到 Claude Code 配置：

claude mcp add browser-use browser-use-mcp-server

如果页面提示找不到浏览器驱动：

playwright install

使用示例

用 Browser Use 打开这个电商页面，帮我找到最便宜的商品

分析这个页面的主要内容和结构，提取关键信息

六、阿里巴巴 PageAgent：让 AI 住进网页里

它是什么

PageAgent 是阿里巴巴开源的纯前端 GUI Agent（GitHub: alibaba/page-agent，约 14.7k Stars）。它不是从外部操控浏览器，而是直接嵌入网页内部，让 AI 理解并操作当前页面。

适合什么场景

• SaaS 产品中添加 AI 助手功能（几行代码集成）
• 智能表单填写（把多次点击变成一句话）
• ERP/CRM/ 管理后台的自然语言操作
• 需要保持用户登录态、实时交互的场景

与前五者的核心区别

维度	Playwright / DevTools / Puppeteer 等	PageAgent
运行位置	外部控制浏览器	嵌入页面内部
需要浏览器进程	是	否（当前页面即可）
交互方式	代码指令	自然语言 + DOM 解析
用户登录态	需手动配置 Cookie	自动保持
适合人群	开发者 / 测试人员	产品团队 / 终端用户

安装步骤

方式一：NPM 集成（开发者）

npm install page-agent

在代码中初始化：

import { PageAgent } from'page-agent';const agent = newPageAgent({// 配置 LLM 模型和 API Key});await agent.execute('帮我填写这个表单');

方式二：Chrome 扩展（普通用户）在 Chrome 应用商店搜索安装 Page Agent 扩展，打开目标网页后点击扩展图标即可用自然语言操作页面。方式三：MCP Server（Beta，配合 Claude Code/Cursor）

1. 在 Chrome 中安装 Page Agent 扩展
2. 在 MCP 客户端配置中添加 PageAgent Server
3. 配置完成后，Claude Code 可直接通过 MCP 协议操控浏览器官方文档: alibaba.github.io/page-agent

七、OpenCLI：把网站变成命令行

它是什么

OpenCLI 是一个 AI 原生的 CLI 运行时框架，由开发者 jackwener 于 2026 年 3 月 14 日发布。思路很直接：把任何网站或 Electron 桌面应用变成命令行工具。开源两天拿到 1.8K GitHub Stars，最近挺火。GitHub: jackwener/opencli

工作原理

与传统的 GUI 自动化（让 AI 看截图、点按钮、填表单，每步调用视觉模型）不同，OpenCLI 的思路是：网页上看到的所有数据，背后都有 API 接口在返回。它通过 Chrome 浏览器直接调用这些底层 API，把网页能力提取成命令行命令。

• 复用 Chrome 登录态 —— 无需 API 密钥，零风控风险
• 无需源码或 API 文档 —— 直接从外部把应用的操作能力掏出来
• 已支持 19+ 平台（B 站、知乎等），80+ 命令

与 MCP 的关系

OpenCLI 与 MCP 是互补关系：

• MCP 需要应用方主动提供接口
• OpenCLI 不需要应用方配合，直接从外部提取能力
• 理想链路：OpenCLI 将网站 CLI 化 → 包装成 MCP Server → AI Agent 通过 MCP 调用

适合什么场景

• AI Agent 需要操控第三方网站 / 应用（如 B 站、知乎、飞书等）
• 不需要写脚本点按钮，直接调命令
• 复用已有 Chrome 登录态，无需处理验证码、风控
• 把 Electron 桌面应用（如微信、钉钉）变成命令行

安装步骤

# 安装 OpenCLInpm install -g @jackwener/opencli# 查看支持的命令opencli --helpopencli list# 使用具体平台命令（示例）opencli bilibili search "AI"opencli zhihu trending

与 Claude Code 配合时，OpenCLI 作为命令行工具可以被 Claude 直接在 Bash 中调用：

帮我用 opencli 查一下知乎今天的热搜

用 opencli 在 B站搜索"机器学习"，把前 5 个结果发给我

注意事项

• 需要 Chrome 浏览器已登录目标平台账号
• 2026 年 3 月版本有重大变更，建议使用最新版
• 建议关闭广告拦截类插件以避免干扰

八、7 个工具对比总结

	Playwright MCP	Chrome DevTools MCP	Puppeteer MCP	Selenium MCP	Browser Use MCP	PageAgent	OpenCLI
开发者	微软	Google	Google / 社区	Selenium / 社区	Kontext-dev	阿里巴巴	jackwener
核心能力	浏览器自动化	浏览器调试分析	Chrome 控制	多浏览器自动化	AI 语义理解操控	页面内 AI 操控	网站变命令行
安装方式	npm 一行命令	npm + Chrome 扩展	npm/pip	pip	pip	npm / 扩展	npm
适合测试	✅	❌	⚠️ 可以	✅	⚠️ 可以	❌	❌
适合前端调试	⚠️ 一般	✅	⚠️ 一般	❌	❌	⚠️ 一般	❌
适合爬虫	✅	❌	✅	✅	⚠️ 偏重理解	❌	⚠️ 限支持平台
适合 AI Agent	⚠️ 机械操作	❌	⚠️ 机械操作	⚠️ 机械操作	✅	✅	✅
适合产品集成	❌	❌	❌	❌	❌	✅	⚠️ 间接
跨浏览器	✅	❌ 仅 Chrome	❌ 仅 Chromium	✅	✅	✅ 页面无关	依赖 Chrome
成熟度	高	中	高	高	中	中	新（2026.3）

怎么选

• 自动化测试、截图 → Playwright MCP（最成熟，首选）
• 前端开发调试 → Chrome DevTools MCP（官方出品，调试能力强）
• 轻量 Chrome 控制、PDF 生成 → Puppeteer MCP（Google 官方维护，轻量）
• 企业级多浏览器测试 → Selenium MCP（生态最大，支持最广）
• AI Agent 智能操控网页 → Browser Use MCP（理解语义，不只是机械点击）
• 给产品加 AI 助手 → PageAgent（嵌入页面内，保持登录态）
• 操控第三方网站 / 应用 → OpenCLI（网站变命令行，零风控）

九、补充说明

以上工具都基于 MCP（Model Context Protocol）协议或与之兼容。MCP 是 Anthropic 提出的标准化接口，让 AI 模型能通过统一方式调用外部工具。安装通常一条命令，升级也不用改代码，多个工具可以同时装互不影响。在 Claude Code 里装了多个浏览器工具后，AI 会根据你的需求自动选。说截个图它用 Playwright，说检查一下页面布局可能用 Chrome DevTools MCP，说帮我查一下知乎热榜可能用 OpenCLI。工作需要同时做测试、调试和操控第三方网站的话，完全可以同时装多个。