camofox-browser:AI Agent 卡在网页门口时,可以换个底座了
我刚看到 camofox-browser 时,先停在一句话上。
“Stealth plugins become the fingerprint.”
这句话有点扎心。
很多人做网页 Agent,前面流程都搭好了:规划任务、打开页面、点击、输入、抓结果。结果一到真实网站,浏览器刚露头,就被拦在门口。
换 UA,补 navigator,塞 stealth 插件。
补来补去,插件自己也成了特征。
camofox-browser 这次绕开的不是某一个检测点,而是把问题往下压了一层。

它基于 Camoufox。后者是一个 Firefox fork,把一批浏览器指纹相关东西放到 C++ 实现层处理,比如硬件并发数、WebGL、AudioContext、屏幕几何、WebRTC 等,尽量在 JavaScript 看到之前就完成伪装。camofox-browser 再把这个浏览器包装成一套给 Agent 用的 REST API。
我更在意的不是“反检测”这几个字。
真正影响 Agent 使用体感的,是它没有把整页 HTML 直接丢给模型。
它返回的是无障碍快照,里面带稳定的元素引用,比如 e1、e2、e3。Agent 不用在一大坨 DOM 里猜按钮在哪,而是拿着这些 ref 去点、输入、滚动。仓库里说,这种 snapshot 比原始 HTML 小约 90%。
这对做过网页自动化的人很熟。
问题常常不是“模型不会操作网页”,而是网页给它的信息太吵。
导航栏、广告位、脚本生成的节点、隐藏元素,全塞进上下文后,模型开始犯一些很笨的错。camofox-browser 的思路是先把页面压成 Agent 更容易读的形态,再让它操作。
它还内置了一组搜索宏。
Google、YouTube、Amazon、Reddit、Wikipedia、LinkedIn、Instagram、TikTok 等站点都列在里面。Reddit 相关宏甚至可以直接返回 JSON,不一定要再走 HTML 解析那套流程。([GitHub][1])
这类小东西看着不大,但放进 Agent 工作流里,会少很多胶水代码。
比如让 Agent 搜一个商品、看几条 Reddit 讨论、再打开 YouTube 找视频资料。过去你要给它写一堆页面适配逻辑。现在至少常见入口可以先宏化,后面再交给浏览器继续点。
登录态这块也做了。
camofox-browser 支持导入 Netscape 格式的 Cookie 文件,用来恢复已认证会话;默认也会把每个用户的 cookie 和 localStorage 持久化到独立 profile 里。Cookie 导入默认关闭,需要配置 API key 才能启用。

这点比较适合多用户 Agent 服务。
同一个底层浏览器引擎跑着,但不同用户的会话、存储、上下文隔开。代理和 GeoIP 也能配,时区、locale、地理位置会跟代理 IP 走。
还有一个很现实的数字:空闲时内存大约 40MB。
仓库里写它用了 lazy browser launch 和 idle shutdown,目标是能放在树莓派、5 美元 VPS 或共享基础设施上跑。
所以我觉得它不是一个“让爬虫更猛”的玩具。
更准确一点,它是在给网页 Agent 补底盘。
前提当然是用在你有权限访问、也符合站点规则的场景里。内部运营后台、个人知识工作流、授权账号下的信息整理、自动化测试,这些地方才是它最顺手的位置。
GitHub地址:jo-inc/camofox-browser。
夜雨聆风