乐于分享
好东西不私藏

OpenClaw 更新了,现在一个提示词就能抓取网页内容

OpenClaw 更新了,现在一个提示词就能抓取网页内容

前几天更新 OpenClaw,发现它添加了一个新的特性,就是 browser 功能。

试了一下,还挺好用的。简单说就是——你给它一个网址,它会帮你打开一个浏览器窗口去访问这个页面,然后把内容抓回来。

整个过程就一句提示词的事。

它到底干了什么

其实原理很简单,熟悉爬虫的朋友应该一听就懂。

OpenClaw 的 browser 功能,本质上跟 Selenium、Playwright 是一回事——启动一个真实的浏览器去访问目标网页。不是发 HTTP 请求,而是真的打开一个浏览器窗口,页面该加载的加载,该渲染的渲染,跟你自己用 Chrome 打开没什么区别。

区别在于,你不需要写代码。

以前用 Selenium 抓个网页,你得装 Python 环境、装 ChromeDriver、版本还得对上、然后写定位元素的代码……光环境搭建就够折腾一阵的。

现在你只需要跟 OpenClaw 说一句话就行了。比如:

请使用 openclaw 自带的浏览器功能来访问 https://mp.weixin.qq.com/s/RSAMyQ_9bj6ggjzgRAfJjw,然后抓取这个网页的内容保存到一个 markdown 文件中

然后它就会打开浏览器,访问这个链接,把页面上的正文内容提取出来,整理成 Markdown 格式保存好,就这么简单。

登录后的页面也能抓

有些网页需要登录才能看到内容,比如后台管理系统、会员专属页面之类的。

OpenClaw 的 browser 功能打开的是一个带界面的浏览器窗口,你可以在这个窗口里先手动登录你的账号。登录之后,OpenClaw 会保存你的登录状态,后续再让它去访问同一个网站的其他页面,就不用重复登录了。

这个体验其实跟你平时用浏览器一样——登录一次,后面就一直是登录状态。OpenClaw 只是在这个基础上帮你自动提取页面内容而已。

适合什么场景

说实话,这个功能最适合的就是那种「不值得写脚本、但手动又嫌麻烦」的小需求。

比如你想把一篇公众号文章的内容存下来,或者想看看某个网页上写了什么但不想手动复制粘贴。一句提示词搞定,省事。

但如果你要批量抓几千个页面,那还是老老实实用 Selenium 或 Playwright 写脚本更合适。毕竟 OpenClaw 每次都要打开浏览器窗口来访问,速度上跟专门的爬虫脚本没法比。

工具嘛,合适的场景用合适的方案。

安全注意事项

最后聊几个用这个功能时需要注意的事情,这部分挺重要的。

抓取内容要合规。 不是所有网页的内容都可以随便抓的。抓取之前最好看看目标网站有没有 robots.txt 的限制,以及网站的使用条款里有没有禁止自动化访问。特别是涉及到他人个人信息的内容,根据《个人信息保护法》,未经授权收集个人信息是违法的。简单来说:公开的、非个人隐私的信息,合理使用一般没问题;但涉及个人隐私、需要登录才能看的数据,就要特别谨慎了。

注意你的账号安全。 因为 OpenClaw 的浏览器会保存你的登录状态,这意味着你的 Cookie、Session 信息都在本地。如果你的电脑被其他人访问到,这些登录状态就可能被利用。所以建议用完之后,如果是敏感账号,手动退出登录。

不要抓取敏感信息。 不要用这个功能去抓取银行页面、支付信息、或者其他人的隐私数据。OpenClaw 的操作日志和记忆功能可能会保存你处理过的内容,如果里面包含敏感信息,存在泄露风险。

控制访问频率。 就算是用浏览器访问,如果你短时间内对同一个网站发起大量请求,也可能触发对方的风控机制,甚至被认定为恶意访问。合理使用,别给别人的服务器造成负担。

遵循最小权限原则。 OpenClaw 运行时不要给它多余的系统权限。它需要什么权限就给什么权限,不需要的一律不开。工信部此前已经针对 OpenClaw 发布过安全提示,建议用户关闭不必要的公网访问,做好访问控制。

工具是好工具,合规合理地使用才是正解。

有在用 OpenClaw browser 功能的朋友,评论区聊聊你们都拿它干了什么 👇