BrowserAct Skills 最扎眼的地方不是“让 Agent 操作浏览器”,这事大家都在做,而是它承认了一个很现实的问题:Agent 一碰到反爬、验证码、人机验证,经常直接趴窝。( 啧,这才是脏活。
以前做点小抓取、小监控,最烦的不是 Playwright 跑不起来,而是第二天账号状态变了、Cookie 丢了、代理抽风了、页面突然弹个人机验证,日志里还看不出到底死在哪。

BrowserAct 这次把路子分成了几层:前面做环境隔离和指纹处理,中间碰到验证码尝试自动处理,实在不行就生成远程接管链接,让人类从手机或电脑上接一下,Agent 再继续跑。README 里把这个叫 progressive layers。
这就很现实。
还有一个点我挺在意:多浏览器并行时,它强调每个任务有独立 Cookie、指纹、代理和会话,不让任务之间互相串味。别小看这个。很多自动化脚本一开始看着能跑,真到批量任务,最容易炸的就是共享状态:A 账号的登录态污染 B 任务,或者一个窗口卡住,把后面的队列全堵死。
不过这块也别急着吹。反爬本来就是网站和自动化之间的拉扯,任何“更稳”的方案,都不等于可以乱抓。尤其是登录态、多账号、验证码这些东西,用在自己授权的数据采集、内部测试、合规监控上还说得过去,拿去硬怼别人的限制,最后锅还是开发者自己背。
BrowserAct 另一个聪明点,是输出格式给大模型省 Token。它不是把一大坨 HTML 或 JSON 塞给模型,而是返回带索引的文本状态,让 Agent 用类似“点第几个、填第几个”的方式继续操作。对 Claude Code、Cursor 这类工具来说,这比让模型在 DOM 里瞎翻要舒服不少。

Skill Forge 也值得扫一眼。它的思路是先让 AI 探一次网站结构,生成可复用的采集 Skill,后面批量跑就别每次重新探索。这个方向我挺喜欢,但最终好不好用,还得看真实网站改版后能不能兜住。
项目目前是 MIT 开源,GitHub 上已经有 2.4k star。适合经常让 Agent 做浏览器任务、又被验证码和会话状态折磨过的人先试试;想靠它一劳永逸绕过所有限制,那就想多了。
GitHub地址:github.com/browser-act/skills
夜雨聆风