Jina 是组合中最 “体面” 的工具。它具备强大的内容清洗能力,能自动过滤网页中的导航栏、广告、侧边栏和版权声明,只保留核心正文,并以干净的 Markdown 格式输出。对于阅读体验来说,Jina 无疑是最佳选择👍。局限:有免费额度限制(每日 200 次),且对部分反爬机制严格的平台无能为力。
Scrapling:野性的 “破城锤”
如果说 Jina 是白手套,Scrapling 就是能撬开任何门缝的扳手。它采用更底层的技术手段,可绕过许多复杂的反爬虫机制。优势:无调用次数限制、完全免费、无需 API Key。对于Jina 无法处理的平台,Scrapling 能轻松突破。代价:需要用户手动配置运行环境,并非开箱即用。
web_fetch:最后的 “保底”
这是 Claude 等模型原生支持的网页访问工具,它直接返回网页的原始 HTML 代码,包含所有噪音信息(导航、广告、推荐等)。角色:在 Jina 额度用尽且 Scrapling 也失败的极端情况下,web_fetch 作为最后的保底手段,确保至少能获取到原始数据,尽管这些数据需要后续进一步清洗。调度逻辑的精妙之处在于,它并非简单随机选择工具,而是遵循一套优先级算法:优先使用 Jina 获取最干净的内容;一旦 Jina 额度耗尽或遇到无法处理的域名,立即无缝切换至 Scrapling;只有当前两者都失效时,才启用 web_fetch 作为最后的退路。此外,工具还将单次抓取的最大字符数统一设为 30000,在节省 Token 消耗与保留完整正文之间找到了平衡点。