Cursor 写好了登录页面,但你得动手打开浏览器去测。
Hermes 能自动部署应用,但没法帮你填表单提交。
Codex 生成了完整前端项目,但预览还要自己点开 URL。
你可能会说:用 Playwright 写个脚本不就好了?
没错,但问题是——你的 Cursor、Codex、Hermes 没有“手”。它们能写代码、能调 API、能操作文件,唯独敲不开你的浏览器大门。
尤其当 Agent 24 小时在线——你希望它半夜自动帮你处理表单、检查网站变更、监控数据面板。这些事全在浏览器里发生,但 Agent 只能干瞪眼。
你可能会追问:浏览器自动化不是有 Selenium 吗?有 Playwright 吗?有 Browser-Use 吗?
有,但它们是给程序员写测试用的,不是给 AI Agent 用的。Agent 需要的不是一个编程库,而是一个自己能调用的「浏览器遥控器」。
6 月 22 日,腾讯开源了一个叫 BrowserSkill 的项目,正在解决这个问题。
01 「手」从哪来
BrowserSkill 的思路很聪明——它不在 Agent 和浏览器之间塞一个「AI 大脑」,而是搭一座「本地桥梁」。
结构其实很简明:
Agent 发一条 Shell 命令 → bsk 命令行工具 → 本地后台 daemon → 走 WebSocket → 浏览器扩展 → 直接操作真实标签页。不是 Playwright 那种无头浏览器,也不需要配置单独的 Profile 和登录态——你 Gmail 已经登录了,Agent 就能直接用;你 GitHub 处于登录状态,Agent 就可以提 Issue、审核 PR。
技术上,这个桥梁由三层构成:底层的 bsk CLI 用 Rust 编写,通过 Unix Domain Socket 跟本地 daemon 通信;daemon 再把命令通过 WebSocket 转发给浏览器扩展;扩展用 Chrome DevTools Protocol(CDP)驱动真实的标签页。全链路都在 127.0.0.1 上跑,不走公网。
💡 这就好比你把自己的浏览器借给 Agent 用,它干完活就还回来,不弄乱你的东西。
02 三个亮点
01 不打扰
BrowserSkill 最打动人的设计——它在浏览器里开一个独立的 Agent Window(代理窗口),所有自动化操作都在这个窗口里执行。你本人在其他标签页继续工作,互不干扰。
Agent 也可以「借用」你当前已打开的标签页(比如你正开着 GitHub PR 审核页),操作完立即归还。
02 复用一切
你登录过的网站、保存的密码、两因素认证的会话——全部直接可用。
不需要额外维护测试账号池,不需要单独配置 Cookie 或 Token。Agent 能做的事,就是你在浏览器里亲自能做的事。
03 通用接口
BrowserSkill 不是某个工具的专属插件。
Cursor、Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy、Pi、Hermes Agent……只要 Agent 能执行 Shell 命令,就能用 bsk CLI 接入。
03 它能干什么
全套工具方法一共 21 个。从导航到交互,从截图到脚本执行,覆盖了你能想到的所有浏览器操作:
| 观察页面 | |
| 操作页面 | |
| 管理标签页 | |
| 执行脚本 | |
| 人机协作 |
bsk navigate https://example.com --session ab12 bsk snapshot --session ab12 bsk click @e3 --session ab12 bsk fill @e5 --value "hello" --session ab12 bsk session stop ab12注意 session 机制:每次开始浏览器任务时创建一个 4 字母会话 ID,所有操作绑定在这个会话上,任务完成后必须手动关闭。5 分钟闲置自动超时只是兜底。
04 它没想替代谁
最后一个绕不开的问题:已经有了 Playwright / Puppeteer,为什么还需要 BrowserSkill?
答案:它们解决的是不同的问题。
| 定位 | ||
| 使用者 | ||
| 登录态 |
Playwright 是给开发者写自动化脚本用的。它是「工程工具」——稳定、可靠、可编程,但需要你写代码、管理浏览器 Profile、手动处理登录态。
BrowserSkill 是给 AI Agent 用的。它是「接口」——让本来只有「脑」(大模型推理能力)的 Agent,长出「手」(真实浏览器操作能力)。
两者不冲突,甚至互补。你可以在 CI 流水线里跑 Playwright 做回归测试,同时在本地开发时让 BrowserSkill 帮 Cursor 测试刚改完的页面。
腾讯这次开源(MIT 协议),不只是放出了一些代码——它提供了一个 Agent 生态里的通用基础设施。像 USB-C 接口一样,不管你用什么 Agent,都能通过它连接真实浏览器世界。
这个项目还很新——发布刚 4 天,CLI 版本 v0.1.5,扩展版本 v0.1.2,GitHub 上只有 26 个 Star。但方向是对的。
如果说 Cursor 让写代码不再是程序员的专利,Codex 让自然语言变成软件,Hermes 让 AI 可以 24 小时在线工作——那么 BrowserSkill 补上的,是最后那墙墙:让这些 AI 工具不再止步于代码,而是能走进真实网页世界。
扫码关注 · AI练计箱

— END —
夜雨聆风