乐于分享
好东西不私藏

90%的企业正在“自断“AI流量!快检查你的 robots.txt

90%的企业正在“自断“AI流量!快检查你的 robots.txt

概述

你有没有想过:你辛辛苦苦写了几十篇干货文章,结果 ChatGPT、Kimi、豆包在回答用户提问时,提都没提你一句?

别急着怪内容写得不够好——问题可能出在一个被你完全忽略的角落:robots.txt。

2026 年的一项数据显示,超过六成的企业网站无意中阻止了 AI 爬虫访问。相当于你在自家门口挂了块”AI 免进”的牌子,然后抱怨为什么 AI 搜索不搭理你。

今天就来聊聊这个 GEO 领域最基础、也最致命的操作——AI 爬虫权限管理


一、AI 是怎么”看到”你的网站的?

在理解 robots.txt 之前,先搞清楚一个关键前提:

AI 搜索引擎的”知识”有两个来源:训练数据和实时检索(RAG)。

  • 训练数据
    :模型在训练阶段摄入的网络快照。这部分你改不了,错过了就是错过了。
  • 实时检索(RAG)
    :用户提问时,AI 实时抓取你网站的内容,现场生成答案。这是 GEO 能立竿见影的地方。

但问题来了——AI 的实时抓取依赖爬虫程序(Bot)。如果爬虫被你的 robots.txt 挡在门外,你的网站再精彩,AI 也看不到。


二、你的 robots.txt 可能正在说”No”

看看你的网站根目录下的 robots.txt 文件,有没有类似这样的内容:

User-agent: *Disallow: /

或者更隐蔽的:

User-agent: GPTBotDisallow: /

如果你是网站运营者,却不知道自己有没有屏蔽 AI 爬虫——大概率你已经是”受害者”了。

很多网站为了防爬虫滥用、保护内容版权,会一股脑把所有爬虫都禁了。在 SEO 时代这问题不大(Googlebot 是主流),但在 GEO 时代——

禁止 AI 爬虫 = 主动从 AI 搜索结果中消失。


三、必须放行的 AI 爬虫清单

2026 年,以下这些 AI 爬虫必须允许访问你的网站:

爬虫名称
所属平台
说明
GPTBot
OpenAI / ChatGPT
OpenAI 官方爬虫
ClaudeBot
Anthropic / Claude
Claude 知识来源
PerplexityBot
Perplexity AI
Perplexity 检索来源
Google-Extended
Google AI Overviews
Google AI 摘要功能
cohere-ai
Cohere
企业级 AI 平台
anthropic-ai
Anthropic
Claude 备用爬虫
Grok / xAI
Grok / X
Grok 实时联网检索

添加方式很简单:

User-agent: GPTBotAllow: /User-agent: ClaudeBotAllow: /User-agent: PerplexityBotAllow: /User-agent: Google-ExtendedAllow: /User-agent: cohere-aiAllow: /User-agent: anthropic-aiAllow: /User-agent: GrokAllow: /

把这段加到你的 robots.txt 尾部即可。


四、检查三步走(5分钟搞定)

第一步:打开你的 robots.txt 在浏览器地址栏输入:https://你的域名/robots.txt

第二步:搜索”GPTBot”或”Allow” 有没有针对 AI 爬虫的 Disallow 规则?有的话,立刻改。

第三步:确认全局规则不冲突 如果底部有 User-agent: * Disallow: /,那所有爬虫都被禁了,需要改为只禁止非 AI 爬虫,或者单独为 AI 爬虫设置 Allow:

User-agent: *Disallow: /admin/Disallow: /private/User-agent: GPTBotAllow: /

注意: robots.txt 是建议性协议,不强制执行,但主流 AI 厂商都会遵守。不信可以观察一周——改完之后,在 ChatGPT 里搜你的品牌名,看看效果。


五、不止 robots.txt:还有两个技术盲区

1. 内容是否在原始 HTML 中?

有些网站的主要内容是通过 JavaScript 动态渲染的。AI 爬虫通常不会执行 JS,它们只看原始 HTML。

判断方法: 在浏览器中禁用 JS(Chrome DevTools → Settings → Disable JavaScript),刷新页面,内容还在吗?

如果内容消失了,你的网站对 AI 爬虫来说就是一个”空壳”。

2. XML Sitemap 提交了吗?

主动告诉 AI 爬虫你的网站有什么内容,比等它自己发现快得多。把 sitemap 提交到 Bing Webmaster Tools(ChatGPT 用的就是 Bing 索引),以及 Google Search Console(AI Overviews 的索引来源)。


总结

GEO 不是玄学,它是一套系统工程。而 robots.txt 权限设置,是这个系统工程最便宜、最快见效的一步——零成本,5 分钟,改完第二天可能就看到 AI 搜索结果里出现了你的品牌。

在很多企业还在纠结”要不要做 GEO”的时候,先检查一下自己的 AI 大门有没有打开,可能是你今天能做的最划算的投资。


本简报由 英辰朗迪GEO 整理,了解更多欢迎访问 https://www.aibridge.cn