OpenClaw龙虾�� 一键检索:专利和论文,免费额度够用吗?
OPENCLAW
OpenClaw 一键检索
专利和论文,从关键词到本地文件全自动
为什么不用浏览器直接抓?
用浏览器批量抓取专利和论文,你会遇到这些问题
反爬频繁触发
Google Patents、Google Scholar 都有严格的反爬机制。批量请求会触发验证码、IP 封禁、账号风控,搜着搜着就被拦截了。
检索不稳定
今天能抓的页面,明天可能就换了结构或者加了新的防护。脚本三天两头要改,维护成本高。
耗时长、效率低
浏览器自动化速度慢,逐页加载等待渲染,一个关键词跑完可能要几十分钟,换一批关键词又得重来。
错误位置未知
批量运行中某个页面报错了,很难定位是哪一步出了问题——是反爬触发了?页面结构变了?还是网络超时?排查困难。
一、使用的工具
OpenClaw 龙虾调用以下 5 个插件解决上述问题
| 工具 | 作用 | 免费额度 |
| SerpApi | 检索 Google Patents 和 Google Scholar | 250 次/月 |
| Firecrawl | 抓取网页,转为 Markdown | 10万积分+每月赠1千 |
| ScraperAPI | 从网页提取 PDF 原文 | 1,000 次/月 |
| Apify | 学术搜索备选 | $5/月 |
| Cloudflare | 规避反爬,下载 PDF | 10万次/天 |
Firecrawl 通过 n8n 注册即赠 10万积分,后续每月赠送 1,000 积分
这些免费额度够用吗?
完全够用。以上所有工具的免费额度叠加起来,对于日常轻量化使用绰绰有余:
SerpApi 每月 250 次搜索,按每次检索 5 组关键词计算,可以完成约 25 次完整的专利加论文检索。对于律师、研究人员做课题调研、竞品分析来说,一个月用不到 25 次。
Firecrawl 10万积分可以抓取约 250 篇完整文档,ScraperAPI 1,000 次/月作为反爬攻坚的备用通道也绑绑有余。Cloudflare 每天 10万次更是几乎不用担心用完。
换句话说,注册几个免费账号,配置一次,日常检索完全不用花钱。
SerpApi
搜索引擎 API 服务,对接 Google Patents 检索全球专利,对接 Google Scholar 检索学术论文。返回标题、编号、摘要、全文链接,部分结果附带 PDF 下载链接。每月 250 次免费额度。
Firecrawl
网页抓取服务,能处理 JS 渲染页面,将网页内容转换为 Markdown 格式。负责打开专利和论文的详情页面,抓取完整文本。通过 n8n 注册即赠 10万积分,每月赠送 1,000 积分。
ScraperAPI
专业反爬代理服务,支持 JS 渲染和住宅 IP。能够从网页中提取并下载 PDF 原文文件。当 Firecrawl 抓取失败时自动切换重试。每月 1,000 次免费额度。
Apify
自动化平台,内置 Google Scholar Actor,可按年份、引用数、PDF 可用性过滤搜索结果。作为学术搜索的备选通道。每月 $5 免费额度。
Cloudflare
提供全球 IP 跳转的代理服务。Google Patents 有反爬机制,直接请求会被拦截。通过 Cloudflare Workers 切换不同地区 IP 规避反爬,从而下载专利 PDF 原文。每天 10万次免费额度。
二、操作流程
你只需要输入一句话
“帮我检索关于 [关键词] 的专利和论文,保存到本地。”
检索流程图
1. AI 拆分关键词
OpenClaw 自动扩展检索组合
2. SerpApi 搜索
Google Patents 搜专利 + Google Scholar 搜论文
3. Firecrawl 抓全文
打开详情页,抓取文本转为 Markdown
4. 下载 PDF 原文
ScraperAPI 提取 PDF + Cloudflare 规避反爬下载
5. 保存到本地
PDF 原文 + Markdown 全文 + 检索汇总
专利 PDF:Cloudflare 规避反爬 + 下载
Google Patents 页面提供 PDF 下载,但有反爬机制,直接请求会被拦截。Cloudflare Workers 通过全球 IP 跳转规避反爬,模拟浏览器访问下载专利 PDF 原文。
论文 PDF:ScraperAPI 从网页提取
Google Scholar 结果中标注 [PDF] 的论文,链接指向 arXiv、大学机构仓库等。ScraperAPI 通过 JS 渲染和住宅 IP 代理访问这些页面,提取并下载 PDF 原文文件。付费期刊论文无公开 PDF,保存抓取的文本内容。
最终交付
专利 PDF 原文 + 论文 PDF 原文 + 全文 Markdown + 检索结果汇总
夜雨聆风