引言
一份来自 Cloudflare 的 2025 年度互联网回顾报告,撕开了互联网表面平静下的一道裂缝:ChatGPT 的爬虫 GPTBot,已成为全球被封锁次数最多的网络机器人。
不是黑客攻击,不是 DDoS,而是 AI 公司光明正大地派人来"免费读书",然后告诉网站主:"你不乐意?忍着。"
忍不了了。网站主们开始动手了。
事件背景
GPTBot 成为众矢之的
2025 年 7 月 1 日,互联网安全和 CDN 服务巨头 Cloudflare 宣布了一系列新措施,专门针对 AI 爬虫的无限制抓取。根据 Cloudflare 披露的政策,每一个新签约托管域名都会被询问:是否允许 AI 爬虫访问你的网站?
答案只有两个:允许,或者默认拒绝。
深度分析
为什么传统 IP 封锁开始失效
过去,网站对付爬虫的套路很成熟:封 IP、拉入黑名单、控制请求频率。但 AI 爬虫把这套玩法逼到了极限。
原因一:IP 池规模超出常规认知
AI 公司,特别是资金充裕的大厂,可以轻松部署数千甚至数万个 IP 地址轮换访问。传统的"封一个 IP 就少一个"策略,在这种体量面前相当于用茶杯舀大海。
原因二:AI 爬虫会"伪装身份"
传统爬虫通常使用固定 User-Agent 或少量变种,容易被识别。但 AI 爬虫会主动模拟真实浏览器的请求特征,包括完整的请求头序列、鼠标移动轨迹(通过无头浏览器)、TLS 指纹等。它们不是在"假装是人",而是在技术上越来越接近人。
原因三:绕过 robots.txt 的灰色地带
robots.txt 协议本质上是一份"君子协定",没有任何技术强制力。一个爬虫完全可以无视 robots.txt 的声明——法律上这是否构成侵权,至今仍存在争议。这给了 AI 公司"选择性遵守"的空间,也给了网站主不信任的理由。
封锁大战的三层演进
网站对 AI 爬虫的防御正在从单一维度走向多层次:
第一层:IP 封锁(最原始)
基于 IP 地址的访问频率、地理来源、ASN 信息进行封禁。这是所有防护的基础,但面对大厂级别的 IP 池,效果有限。
第二层:行为分析(主流趋势)
不再只看 IP,而是分析访问行为模式。同一 IP 段在极短时间内大量访问、请求之间缺乏自然时间间隔、总是访问文章列表但从不滚动页面——这些行为特征会被机器学习模型捕捉。
第三层:AI 对抗 AI
这是最新的战场。一些网站开始部署专门的 AI 模型,用于实时判断来访者是否为 AI 爬虫,并根据判断结果返回差异化内容(真内容、假内容,或直接拦截)。用魔法对抗魔法。

技术延伸
爬虫被封后的常见"越狱"手段
技术层面,AI 爬虫运营方也有自己的应对之道:
手段一:代理 IP 池轮换
通过数以万计的住宅代理或数据中心代理轮换访问来源,分散请求压力,降低单一 IP 被封的概率。这也是为什么IP 地理位置和 IP 类型识别(是否为代理、是否为数据中心 IP)变得前所未有的重要——而这正是 IP 数据服务发挥作用的地方。
手段二:无头浏览器模拟
使用 Puppeteer、Playwright 等工具模拟完整浏览器环境,让爬虫在 JavaScript 执行层看起来和真实用户无异。传统的 IP + 请求头检测对此完全失效。
手段三:伪造客户端指纹
主动伪造 TLS 指纹、Canvas 指纹、WebGL 渲染特征,使网站无法通过设备指纹技术识别爬虫。

IP数据云解决方案
在 AI 爬虫与网站封禁的攻防中,IP 数据能力是容易被忽视但极其关键的一环:
• 街道级 IP 定位:当一个被标记为高风险的 IP 同时出现在多个不同地理位置的访问记录中,这是典型的代理或 VPN 行为。 • IP 类型识别:区分数据中心 IP、住宅 IP、移动网络 IP、CDN 节点 IP。AI 爬虫大量使用数据中心 IP,抓取效率高但特征明显。 • 离线 IP 数据库:对于不方便实时调 API 的场景,可以接入离线 IP 数据库,在本地完成 IP 属性的快速查询。
这些能力可以独立使用,也可以与 Cloudflare、Akamai 等 CDN 服务商的机器人管理方案结合,形成多层次的 AI 爬虫识别体系。
总结
AI 爬虫与网站封禁的战争,本质上是一场关于互联网内容所有权的定义权之争。
robots.txt 老了,IP 封锁不够用了,AI 爬虫让网站主意识到:过去三十年维持互联网内容流通的"君子协定",在 AI 时代已经失效了。
新的规则正在生长:法律层面,版权诉讼和新型协议(RSL)正在被提上日程;技术层面,AI 对抗 AI 的攻防将持续升级;而在数据层面,IP 维度的判断力——识别代理、验证地理位置、交叉验证访问行为——将成为网站主手里越来越重要的牌。
谁赢?这场战争还远没有到终点。但有一点可以确定:AI 爬虫躺着"免费读书"的时代,正在走向终结。
参考资料:
• Cloudflare 2025 年度互联网回顾报告(2025 年 7 月) • IT之家:Cloudflare 推出新举措助力网站抵御 AI 爬虫(2025 年 7 月 1 日) • 腾讯网:ChatGPT 成为互联网最受阻止的爬虫机器人(2025 年 12 月 17 日) • 凤凰网:为训大模型不择手段的 AI 公司打破古老互联网协议(2024 年 2 月 20 日) • 企鹅号:在线媒体品牌希望新协议能阻止未授权 AI 爬虫(2025 年 9 月 12 日)
引用链接
[1] IP数据云: https://www.ipdatacloud.com/
夜雨聆风