BrowserAct Skills:AI Agent 跑浏览器,终于有人盯上验证码这块硬骨头了

BrowserAct Skills 最扎眼的地方不是“让 Agent 操作浏览器”，这事大家都在做，而是它承认了一个很现实的问题：Agent 一碰到反爬、验证码、人机验证，经常直接趴窝。( 啧，这才是脏活。

以前做点小抓取、小监控，最烦的不是 Playwright 跑不起来，而是第二天账号状态变了、Cookie 丢了、代理抽风了、页面突然弹个人机验证，日志里还看不出到底死在哪。

BrowserAct 这次把路子分成了几层：前面做环境隔离和指纹处理，中间碰到验证码尝试自动处理，实在不行就生成远程接管链接，让人类从手机或电脑上接一下，Agent 再继续跑。README 里把这个叫 progressive layers。

这就很现实。

还有一个点我挺在意：多浏览器并行时，它强调每个任务有独立 Cookie、指纹、代理和会话，不让任务之间互相串味。别小看这个。很多自动化脚本一开始看着能跑，真到批量任务，最容易炸的就是共享状态：A 账号的登录态污染 B 任务，或者一个窗口卡住，把后面的队列全堵死。

不过这块也别急着吹。反爬本来就是网站和自动化之间的拉扯，任何“更稳”的方案，都不等于可以乱抓。尤其是登录态、多账号、验证码这些东西，用在自己授权的数据采集、内部测试、合规监控上还说得过去，拿去硬怼别人的限制，最后锅还是开发者自己背。

BrowserAct 另一个聪明点，是输出格式给大模型省 Token。它不是把一大坨 HTML 或 JSON 塞给模型，而是返回带索引的文本状态，让 Agent 用类似“点第几个、填第几个”的方式继续操作。对 Claude Code、Cursor 这类工具来说，这比让模型在 DOM 里瞎翻要舒服不少。

Skill Forge 也值得扫一眼。它的思路是先让 AI 探一次网站结构，生成可复用的采集 Skill，后面批量跑就别每次重新探索。这个方向我挺喜欢，但最终好不好用，还得看真实网站改版后能不能兜住。

项目目前是 MIT 开源，GitHub 上已经有 2.4k star。适合经常让 Agent 做浏览器任务、又被验证码和会话状态折磨过的人先试试；想靠它一劳永逸绕过所有限制，那就想多了。

GitHub地址：github.com/browser-act/skills