林晓揉了揉酸涩的眼睛,盯着屏幕上密密麻麻的网页数据。作为科技伦理研究员,她最近接了一个项目——分析几款主流社交媒体平台在数据收集上的透明度差异。这意味着她要在不同网站上反复执行相同的操作:登录、查找隐私政策链接、抓取相关段落、对比措辞差异。手动操作不仅耗时,还容易漏掉细节。
“要是能像人一样‘浏览’网页,但又不用一直盯屏幕就好了。”她喃喃自语。连续三天,她在浏览器标签页间来回切换,复制粘贴,眼睛像被砂纸磨过。某个深夜,她趴在桌上几乎要放弃时,小光——她的 AI 助手——轻轻提示:“主人,OpenClaw 里有个叫 Agent Browser 的技能,也许能帮你。”
林晓半信半疑地打开终端,输入 agent-browser open https://example-social-platform.com。几乎是瞬间,命令行界面显示出页面已加载。她接着运行 agent-browser snapshot -i,屏幕上列出了一组带标记的元素引用,比如 @e1 是“隐私政策”链接,@e2 是搜索框。原来,这个工具能在无头模式下“看”网页,并用结构化指令与页面交互。
她的心跳快了几拍。按照文档示例,她先 agent-browser click @e1 进入隐私政策页,再 snapshot -i 找到正文区域,用 agent-browser get text @e5 把关键段落抓下来,整个过程不到一分钟。更妙的是,她还能用 agent-browser state save auth.json 保存登录态,下次直接载入,不必重复输入账号密码。
接下来的几天,林晓像发现了新大陆。她编写了一个简单的操作序列:打开网站 → 快照 → 定位元素 → 提取文本 → 保存结果。Agent Browser 的语义定位功能让她不必死记元素编号,可以直接 find text "隐私政策" click。面对需要滚动加载的长页面,她用 scroll down 500 或 scrollintoview 精准控制视窗。甚至在做跨站点对比时,她开启两个会话(--session siteA 和 --session siteB),并行采集数据。
有一晚,她在分析一个平台的 Cookie 声明时,发现它用了非常模糊的表述。林晓用 agent-browser cookies 导出所有 cookie 列表,再用 get attr 检查它们的用途说明,迅速识别出几个未作明确告知的追踪器。她感慨:“这不只是效率提升,更是让我能深入那些原本被忽略的细节。科技不该让人疲于奔命,它该帮我们看清真相。”
故事的尾声,是她完成报告的那一刻。鼠标滑过屏幕上整齐的对比表格,她想起第一次手动复制粘贴时的焦躁,再对比现在流畅的自动化流程,仿佛从一个迷宫走进了明亮的广场。她意识到,工具的真正意义不仅是节省时间,更是释放人的注意力,让我们专注于思考和判断。人性化的科技,就像 Agent Browser 这样——默默在背后运作,把繁杂的机械劳动化为一步指令,让人回归到探究本质的角色。
林晓的日记 “最好的科技,是让人专注思考而非疲于操作。”
技能卡片
【技能名称】Agent Browser
【功能】通过 CLI 对网页进行导航、快照、交互、数据提取和自动化测试,支持无头或有头模式。
【使用场景】
批量采集网页公开信息用于研究或监测 自动化表单填写与提交流程 跨设备/会话复用登录态进行长周期任务
【命令示例】
agent-browser open https://example.com
agent-browser snapshot -i
agent-browser click @e1
agent-browser fill @e2 "text"
agent-browser state save auth.json
【安装方式】
npm install -g agent-browser
agent-browser install
夜雨聆风