AI编程工具的“最后一公里”——让Agent真正操作你的浏览器

Cursor 写好了登录页面，但你得动手打开浏览器去测。

Hermes 能自动部署应用，但没法帮你填表单提交。

Codex 生成了完整前端项目，但预览还要自己点开 URL。

你可能会说：用 Playwright 写个脚本不就好了？

没错，但问题是——你的 Cursor、Codex、Hermes 没有“手”。它们能写代码、能调 API、能操作文件，唯独敲不开你的浏览器大门。

尤其当 Agent 24 小时在线——你希望它半夜自动帮你处理表单、检查网站变更、监控数据面板。这些事全在浏览器里发生，但 Agent 只能干瞪眼。

你可能会追问：浏览器自动化不是有 Selenium 吗？有 Playwright 吗？有 Browser-Use 吗？

有，但它们是给程序员写测试用的，不是给 AI Agent 用的。Agent 需要的不是一个编程库，而是一个自己能调用的「浏览器遥控器」。

6 月 22 日，腾讯开源了一个叫 BrowserSkill 的项目，正在解决这个问题。

01 「手」从哪来

BrowserSkill 的思路很聪明——它不在 Agent 和浏览器之间塞一个「AI 大脑」，而是搭一座「本地桥梁」。

结构其实很简明：

Agent 发一条 Shell 命令 → bsk 命令行工具 → 本地后台 daemon → 走 WebSocket → 浏览器扩展 → 直接操作真实标签页。

不是 Playwright 那种无头浏览器，也不需要配置单独的 Profile 和登录态——你 Gmail 已经登录了，Agent 就能直接用；你 GitHub 处于登录状态，Agent 就可以提 Issue、审核 PR。

技术上，这个桥梁由三层构成：底层的 bsk CLI 用 Rust 编写，通过 Unix Domain Socket 跟本地 daemon 通信；daemon 再把命令通过 WebSocket 转发给浏览器扩展；扩展用 Chrome DevTools Protocol（CDP）驱动真实的标签页。全链路都在 127.0.0.1 上跑，不走公网。

💡 这就好比你把自己的浏览器借给 Agent 用，它干完活就还回来，不弄乱你的东西。

02 三个亮点

01 不打扰

BrowserSkill 最打动人的设计——它在浏览器里开一个独立的 Agent Window（代理窗口），所有自动化操作都在这个窗口里执行。你本人在其他标签页继续工作，互不干扰。

Agent 也可以「借用」你当前已打开的标签页（比如你正开着 GitHub PR 审核页），操作完立即归还。

02 复用一切

你登录过的网站、保存的密码、两因素认证的会话——全部直接可用。

不需要额外维护测试账号池，不需要单独配置 Cookie 或 Token。Agent 能做的事，就是你在浏览器里亲自能做的事。

03 通用接口

BrowserSkill 不是某个工具的专属插件。

Cursor、Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy、Pi、Hermes Agent……只要 Agent 能执行 Shell 命令，就能用 bsk CLI 接入。

03 它能干什么

全套工具方法一共 21 个。从导航到交互，从截图到脚本执行，覆盖了你能想到的所有浏览器操作：

能力	说明
观察页面	可访问性树 snapshot → HTML 源码 → 截图。逐步升级，省 Token
操作页面	点击、填表、选下拉框、按键。通过 @eN 编号引用元素
管理标签页	创建、关闭、切换、借用用户标签、归还
执行脚本	JS 执行（有红线：禁止偷取 Cookie 和 Token）
人机协作	验证码/确认弹窗→暂停→请你操作→继续

bsk navigate https://example.com --session ab12 bsk snapshot --session ab12 bsk click @e3 --session ab12 bsk fill @e5 --value "hello" --session ab12 bsk session stop ab12

注意 session 机制：每次开始浏览器任务时创建一个 4 字母会话 ID，所有操作绑定在这个会话上，任务完成后必须手动关闭。5 分钟闲置自动超时只是兜底。

04 它没想替代谁

最后一个绕不开的问题：已经有了 Playwright / Puppeteer，为什么还需要 BrowserSkill？

答案：它们解决的是不同的问题。

对比项	Playwright	BrowserSkill
定位	工程自动化工具	Agent 浏览器接口
使用者	开发者写代码	AI Agent Shell 调用
登录态	需手动管理	直接复用

Playwright 是给开发者写自动化脚本用的。它是「工程工具」——稳定、可靠、可编程，但需要你写代码、管理浏览器 Profile、手动处理登录态。

BrowserSkill 是给 AI Agent 用的。它是「接口」——让本来只有「脑」（大模型推理能力）的 Agent，长出「手」（真实浏览器操作能力）。

两者不冲突，甚至互补。你可以在 CI 流水线里跑 Playwright 做回归测试，同时在本地开发时让 BrowserSkill 帮 Cursor 测试刚改完的页面。

腾讯这次开源（MIT 协议），不只是放出了一些代码——它提供了一个 Agent 生态里的通用基础设施。像 USB-C 接口一样，不管你用什么 Agent，都能通过它连接真实浏览器世界。

这个项目还很新——发布刚 4 天，CLI 版本 v0.1.5，扩展版本 v0.1.2，GitHub 上只有 26 个 Star。但方向是对的。

如果说 Cursor 让写代码不再是程序员的专利，Codex 让自然语言变成软件，Hermes 让 AI 可以 24 小时在线工作——那么 BrowserSkill 补上的，是最后那墙墙：让这些 AI 工具不再止步于代码，而是能走进真实网页世界。

扫码关注 · AI练计箱

— END —