AI 时代 robots.txt 怎么配？3 套模板 + GEO 可见度完整指南

一个做户外装备的品牌，去年因为 Cloudflare 默认屏蔽规则把所有 AI 爬虫挡在门外，整整 8 个月在 ChatGPT 答案里完全消失。等他们发现的时候，三个主要竞品已经吃下了“露营装备推荐”这个词的全部 AI 引用位。

AI 时代配置 robots.txt 的核心原则是按爬虫用途分别授权：检索类爬虫（OAI-SearchBot、Claude-SearchBot、PerplexityBot）放行，以获得 AI 答案引用；训练类爬虫（GPTBot、ClaudeBot、Google-Extended）是否放行，要看内容是不是你的产品；敏感内容不能依赖 robots.txt，要用登录和权限保护。

AI 爬虫三大类与处理原则速查图

robots.txt 配置模板：3 套可直接复制（按业务类型）

下面三套模板覆盖了常见网站类型，可以先选一套，再根据业务、版权和合规要求微调。

模板 A：B2B、SaaS、电商，最大化 AI 可见度

适合靠流量和品牌曝光赚钱的网站。放行所有主流 AI 爬虫，只屏蔽 admin、checkout、内部搜索这类噪音路径。

# 模板 A: 获客型网站基础配置

# 适用: B2B、SaaS、电商、品牌、本地服务

# 目标: 最大化 AI 可见度

User-agent: *

Allow: /

Disallow: /admin/

Disallow: /checkout/

Disallow: /cart/

Disallow: /search?

Disallow: /*?utm_

User-agent: Googlebot

Allow: /

# AI 检索类爬虫，全部放行

User-agent: OAI-SearchBot

Allow: /

User-agent: ChatGPT-User

Allow: /

User-agent: Claude-SearchBot

Allow: /

User-agent: Claude-User

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: Perplexity-User

Allow: /

# AI 训练类爬虫，也放行

User-agent: GPTBot

Allow: /

User-agent: ClaudeBot

Allow: /

User-agent: Google-Extended

Allow: /

User-agent: CCBot

Allow: /

Sitemap: https://www.example.com/sitemap.xml

模板 A 放行训练爬虫是有原因的。对获客型网站来说，训练数据是免费的长期品牌投资——产品名、服务范围、差异化卖点进入模型后，未来一两年里 AI 每次相关回答都可能提到你，不需要再付任何成本。

比如一家泳池清洁公司，希望用户问“附近哪家公司可以做泳池维护”时，AI 能读到它的服务页、区域页和 FAQ。屏蔽 AI 搜索类爬虫，等于减少被推荐的机会。

模板 A 的两种变体

你的目标	建议做法
最大化 AI 可见度	检索类和训练类都放行（如上）
只要 AI 搜索曝光，不想开放训练	放行检索类，把 GPTBot、ClaudeBot、Google-Extended 改成 Disallow
不确定怎么选	先放行检索类，观察品牌提及情况

放行检索类爬虫不等于一定会被引用。它只是让 AI 搜索系统有机会访问你的页面。最终是否被提及，还取决于页面内容、问题匹配度、品牌实体信息和外部信号。

模板 B：媒体、博客、教程站，放检索挡训练

适合内容本身就是产品的网站。放行检索类爬虫保留 AI 答案里的引用回链，屏蔽训练类爬虫不让 AI 白嫖。

# 模板 B: 区分搜索和训练

# 适用: 媒体、内容站、Publisher

# 目标: 保留 AI 引用引流，防止内容被白嫖训练

User-agent: *

Allow: /

Disallow: /admin/

Disallow: /wp-admin/

User-agent: Googlebot

Allow: /

# AI 检索类爬虫，放行

User-agent: OAI-SearchBot

Allow: /

User-agent: ChatGPT-User

Allow: /

User-agent: Claude-SearchBot

Allow: /

User-agent: Claude-User

Allow: /

User-agent: PerplexityBot

Allow: /

# AI 训练类爬虫，屏蔽

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Meta-ExternalAgent

Disallow: /

Sitemap: https://www.example.com/sitemap.xml

《纽约时报》、Reuters、《卫报》等头部媒体陆续采用了这个组合策略——既避免内容被白嫖训练，又保留在 ChatGPT 搜索答案里的引用位。

模板 C：付费墙、会员站，保守屏蔽

适合付费内容、内部资料、敏感数据、法律或医疗等高合规压力网站。

前置提醒：robots.txt 不是安全工具。它只能表达抓取偏好，不能真正保护私密内容。真正敏感的内容应使用登录权限、服务器鉴权、IP 限制或私有存储。

# 模板 C: 付费内容 / 会员资料 / 敏感信息

# 目标: 减少 AI 抓取和公开引用风险

User-agent: *

Disallow: /members/

Disallow: /private/

Disallow: /internal/

Disallow: /paid-content/

User-agent: Googlebot

Allow: /

Disallow: /members/

Disallow: /private/

Disallow: /internal/

Disallow: /paid-content/

# 屏蔽主要 AI 检索类爬虫

User-agent: OAI-SearchBot

Disallow: /

User-agent: PerplexityBot

Disallow: /

User-agent: Claude-SearchBot

Disallow: /

# 屏蔽主要 AI 训练类爬虫

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: CCBot

Disallow: /

Sitemap: https://www.example.com/sitemap.xml

选模板 C 要接受一个结果：网站在部分 AI 搜索答案中的可见度会下降。

如果你只想保护部分付费内容，不要全站屏蔽。更稳妥的做法是只屏蔽会员目录、下载目录、内部资料目录，保留公开服务页、品牌页、产品页和博客页。这样既能保护敏感内容，也不会完全切断 AI 搜索入口。

怎么判断我的网站该用哪套 robots.txt 模板？

一个简单的判断：如果明天你的网站完全停掉博客和文章，但产品还能卖、业务还能跑——选模板 A。如果停了博客就没饭吃，内容本身就是产品——选模板 B。

混合型情况，比如做家居用品的 Shopify 站，博客是为了带流量到产品页——这种情况内容是营销资产，不是商品本身，选模板 A。

有付费内容或敏感资料的，单独看模板 C，但要配合权限控制使用。

你的情况	建议模板
企业官网、B2B、SaaS、电商、品牌、本地服务	A
媒体、内容站、专业博客、教程站	B
付费内容、会员站、内部资料	C + 权限控制
只有部分内容敏感	A 或 B，只屏蔽敏感目录
不确定是否被 AI 提及	先做 prompts 追踪，再决定

三套 robots.txt 模板选择决策树

用 robots.txt 模板前必看的 4 条提醒

1、文件必须放在根域名下

访问路径是 https://yoursite.com/robots.txt，子目录不算数。规则从上到下读取，越具体的优先级越高。

2、不要再用 Claude-Web 和 anthropic-ai 这两个 user-agent

它们已经在 2024 年废弃。2026 年 Anthropic 的活跃爬虫是 ClaudeBot（训练）、Claude-SearchBot（检索）、Claude-User（用户触发）。很多老 SEO 教程和 CMS 默认配置还在用旧字符串，需要主动检查。

3、规则要和 sitemap 配合

重要页面应出现在 sitemap 中，并确保没有被 robots.txt 误屏蔽。

4、用户触发类 bot 不要作为核心控制对象

ChatGPT-User、Claude-User、Perplexity-User 接近用户主动请求触发的访问，配置重点应放在检索类爬虫和训练类爬虫两类上。

不同平台修改 robots.txt 的方法

平台	方法
Shopify	后台无法直接编辑，需要新建 robots.txt.liquid 模板覆盖默认
WordPress	用 Yoast SEO 或 Rank Math 插件编辑，或 FTP 上传静态文件到根目录
Webflow	Project Settings → SEO → Robots.txt 直接粘贴
Wix	SEO 工具 → Robots.txt 编辑器
Ghost	自托管版本直接修改根目录文件；Ghost（Pro）需联系支持团队
Substack	平台不开放编辑权限，建议把核心内容同步到独立域名
Medium	不支持自定义，平台统一控制
自建站	直接在 web 服务器根目录放 robots.txt 文件

robots.txt 配置完成后怎么验证生效？

第一步：直接打开 robots.txt 文件

在浏览器打开 https://www.example.com/robots.txt，确认看到的是最新版本。如果不是，大概率被 CDN 或 CMS 覆盖了，需要检查 CDN 缓存、CMS 默认规则和服务器路径。

第二步：检查核心页面是否被误屏蔽

页面类型	是否应开放
首页	通常应开放
服务页、产品页、行业方案页	通常应开放
案例页、FAQ、博客	通常应开放
后台、wp-admin	应屏蔽
购物车、结账页	通常应屏蔽
内部搜索结果页	通常应屏蔽

不要让 /blog/、/products/、/services/ 这类高价值目录被误写进 Disallow。

第三步：看服务器日志，过滤 AI bot 访问

日志比感觉可靠。重点过滤这些 user-agent：Googlebot、OAI-SearchBot、GPTBot、PerplexityBot、Claude-SearchBot、ClaudeBot、Google-Extended。观察它们是否访问了核心页面，是否出现 403、429、5xx 等异常状态码。如果 robots.txt 允许但日志显示大量拒绝，要检查 WAF、CDN 和速率限制。

没有服务器日志权限怎么办（比如 Shopify 用户）？

可以用下面这些方式补充判断：

Cloudflare Analytics 的 Bot 报告功能，能看到分爬虫的流量统计。
Shopify 用户可以装第三方 Bot Analytics 应用追踪。
Google Search Console 的“覆盖率报告”看抓取状态。
第三方 AI 可见度监测工具。

第四步：用 prompts 测 AI 可见度

技术检查只能证明“能不能访问”，GEO 更关心“有没有被提及”。测试高购买意图 prompts，比如“适合养宠家庭的扫地机器人推荐”、“小型企业适合用哪种 CRM”、“洛杉矶儿童牙科诊所怎么选”、“树叶多的泳池适合哪种泳池清洁机器人”，看 AI 回答中有没有出现品牌、是否正向提及、竞对是否被更多推荐。这一步才真正连接到获客结果。

时间预期：检索类爬虫放行后立即生效，下次 AI 用户提问就能引用到你；训练类爬虫要等下一轮模型训练，通常 3 到 12 个月才反映在模型输出里。

robots.txt 配置的 5 个常见错误

下面这 5 个坑，做技术审计时几乎每个客户都中过至少一个。

错误 1：Cloudflare 在你不知情下托管了 robots.txt

Cloudflare 有个叫 Managed robots.txt 的功能，会自动给常见 AI 爬虫加上 Disallow 规则。约 27% 的 B2B SaaS 和电商站在 CDN 层被默默屏蔽却完全不知道（数据来源：Cloudflare 2025 年 AI 爬虫流量报告）。

自查方法：登录 Cloudflare 后台，进入 Security → Bots，确认“Instruct AI bot traffic with robots.txt”是关闭状态。如果你的 robots.txt 是 Cloudflare 帮你生成的，先关掉这个开关，让源站的文件生效。

错误 2：WAF 规则覆盖了 robots.txt

Cloudflare、Fastly、AWS WAF 都内置了“AI Scraper”或“AI Bot”屏蔽规则集。即使你 robots.txt 写了 Allow，WAF 也会在请求层直接 block，AI 爬虫连 robots.txt 都读不到。

自查方法：在 CDN 后台搜索这些关键词：AI Bot、AI Scraper、Crawler、Bot Protection、Verified Bot，找出现有规则集，确认它和你的策略一致。如果边缘层拦截规则和 robots.txt 不一致，实际结果以拦截规则为准。

错误 3：客户端渲染让 AI 看到一片空白

约 69% 的 AI 爬虫不执行 JavaScript（数据来源：Vercel 和 MERJ 联合工程研究，2024 年）。如果你的网站是 React、Vue、Next.js 的纯客户端渲染（CSR），AI 爬虫看到的就是一个空 div，robots.txt 怎么配都救不回来。

解决方法：上 SSR（服务端渲染）、SSG（静态生成）或预渲染，或确保核心文本内容在初始 HTML 中可见。

错误 4：用废弃的 user-agent 屏蔽 Anthropic

如果你的 robots.txt 里还在写 Claude-Web 或 anthropic-ai，等于没屏蔽。这两个 user-agent 已经废弃，Anthropic 现在用的是 ClaudeBot、Claude-SearchBot、Claude-User。很多老的 SEO 教程、CMS 默认配置、WordPress 插件还在用旧字符串，需要主动检查。

错误 5：把所有 AI 爬虫当成训练爬虫一刀切屏蔽

最常见的策略错误。出于“防止内容被白嫖”的本能，一刀切屏蔽所有带 GPT、Claude 字样的爬虫，结果连给你带流量的 OAI-SearchBot、Claude-SearchBot 也屏蔽了。

后果是品牌从 ChatGPT 搜索答案里完全消失。等几个月后发现 AI 流量为零，回头查才发现是当初一刀切的锅。

正确思路是分层：

目标	策略
想要 AI 搜索曝光	放行检索类爬虫
想限制训练用途	屏蔽训练类爬虫
想保护隐私内容	使用权限控制，不是 robots.txt
想降低噪音抓取	屏蔽后台、购物车、搜索页等低价值路径

图示展示了robots.txt文件的五个常见错误，包括Cloudflare、WAF配置和爬虫规则等内容。

robots.txt 配置 5 个常见错误自查清单

AI 爬虫分几类？训练、检索、用户触发爬虫的区别

很多人看到 GPTBot、OAI-SearchBot、ClaudeBot 会以为它们是一类爬虫，这是 AI 时代 robots.txt 最容易配错的地方。

训练类爬虫

用于收集公开网页内容支持模型训练。

爬虫	用途
GPTBot	OpenAI 模型训练
ClaudeBot	Anthropic 模型训练
Google-Extended	Google AI 训练用途控制，不是 Googlebot
CCBot	Common Crawl，被大量开源 LLM 用作训练集，如 LLaMA 早期、Mistral、各类学术模型
Meta-ExternalAgent	Meta AI 和 LLaMA 系列训练；Cloudflare 2025 年统计中流量第二大的 AI 训练爬虫
Bytespider	字节跳动，部分用于 AI 训练，部分用于今日头条、TikTok 内容索引

特别注意 Google-Extended：它不是 Googlebot。不要因为想限制 AI 训练，就误伤 Googlebot，影响正常搜索抓取。

检索类爬虫

更接近 AI 搜索和答案引用场景。

爬虫	用途
OAI-SearchBot	ChatGPT Search 发现和展示
PerplexityBot	Perplexity 搜索结果展示和链接
Claude-SearchBot	Claude 搜索发现和索引

想做 AI 搜索可见度的网站，通常不建议屏蔽检索类爬虫。

用户触发类访问

用户在 AI 工具里粘贴链接、要求总结时触发的访问，更像“用户通过 AI 工具浏览网页”，不是自动爬虫。

名称	用途
ChatGPT-User	ChatGPT 用户请求触发
Claude-User	Claude 用户请求触发
Perplexity-User	Perplexity 用户请求触发

屏蔽用户触发类访问，意味着用户在 AI 工具里粘贴你的链接要求总结时读不到内容。这种访问通常带高意图，屏蔽往往得不偿失。

常见 AI 爬虫处理建议速查表

爬虫	类型	处理建议
Googlebot	传统搜索	必须放行，AI 时代仍是基础
GPTBot	OpenAI 训练	看内容是否需要保护版权
OAI-SearchBot	ChatGPT 检索	想要 AI 答案引用就放行
ChatGPT-User	用户触发	建议放行，屏蔽影响用户体验
ClaudeBot	Anthropic 训练	看内容是否需要保护版权
Claude-SearchBot	Claude 检索	想要 AI 答案引用就放行
Claude-User	用户触发	建议放行
Google-Extended	Google AI 训练	屏蔽不影响 Google Search 和 AI Overview
PerplexityBot	Perplexity 检索	想要 Perplexity 引用就放行
CCBot	Common Crawl	屏蔽等于切断大批开源模型对你内容的训练访问
Meta-ExternalAgent	Meta AI 训练	看是否在意 Meta AI / LLaMA 引用
Bytespider	字节跳动	取决于是否在意中国市场

为什么不能一刀切屏蔽所有 AI 爬虫？

如果把所有 AI bot 都屏蔽，确实能减少内容被抓取的机会。但同时，你也会让网站更难进入 AI 搜索答案、品牌推荐、产品对比和供应商列表。

对企业网站来说，这个代价很高。AI 引荐来的访客转化率比常规自然搜索高约 4.4 倍（指访客进站后最终完成购买或留资的比例，数据来源：Superlines 2025 年 AI 流量分析）。原因是这些访客在进站前已经被 AI 预筛选过意图，离决策更近。

尤其是 B2B 和高客单价行业，用户不会只搜“某某产品多少钱”，还会问“哪种方案适合我”、“哪家公司靠谱”、“某某品牌和竞品有什么区别”。这些问题正在被 AI 搜索重写。

一个常见误解：屏蔽 GPTBot、ClaudeBot、Google-Extended 不会影响 Google 排名。这些爬虫和 Googlebot、Bingbot 是独立系统。屏蔽 Google-Extended 也不影响 Google AI Overview 的可见度。“我屏蔽了 AI 训练会不会掉排名”这个担心可以放下。

另一个要面对的现实：已经被训练过的内容无法通过 robots.txt 撤回。2023 年发布的文章如果已经进入 GPT-4 的训练集，现在屏蔽 GPTBot 只能阻止未来的训练轮次，无法让模型“忘记”已学习的内容。目前 OpenAI、Anthropic、Google 都不接受按内容粒度的撤回请求。所以越早配置 robots.txt 越好，等于在为下一个模型版本止血。

robots.txt 之外还要做什么：llms.txt、ai.txt、sitemap

robots.txt 是地基，2026 年还有几个补充协议和工作要配合做。

llms.txt 是放在根目录的 markdown 文件，主动给 AI 一份“网站知识地图”，告诉它哪些页面最值得读、内容结构是什么。还不是强制标准，但越来越多 AI 引擎在测试性使用。制作成本低，建议做。但它不是 robots.txt 的替代品。

ai.txt 按用途授权，也就是爬来做什么；robots.txt 按身份授权，也就是谁能爬。ai.txt 支持 No-Training、No-Inference、Allow-RAG 等标签，让你能放行 AI 用于搜索引用但禁止训练。版权敏感行业优先做。

TDMRep 是欧盟业务的补充工具。它把许可声明嵌入 HTTP header，根据 EU AI Act 第 53 条，对 GPAI（通用人工智能）提供商具备法律约束力。在欧盟有用户的网站建议了解。

sitemap 仍然重要。它能帮助搜索引擎和部分抓取系统更清楚地发现重要页面。服务页、产品页、行业方案页、FAQ 和博客文章都应该进入 sitemap。

页面内容要能回答真实问题。AI 搜索更常处理完整问题，比如“哪种泳池机器人适合树叶多的泳池？”“小企业选 CRM 应该看哪些功能？”如果页面只写产品卖点不回答这些问题，就算能被抓取也不一定会被引用。

实操优先级是 robots.txt 和 sitemap 必做，核心页面内容能回答真实购买问题必做，llms.txt 建议做，ai.txt 看业务，TDMRep 看是否涉及欧盟。

配好 robots.txt 后，怎么让 AI 真正推荐你的品牌？

AI 能访问页面不代表会推荐你。它还要能理解品牌、业务范围、服务地区、目标客户和核心优势。更重要的是，品牌要出现在高购买意图问题中。

在西品东来的 GEO 服务中，我们不会一上来就只改 robots.txt。我们先选取行业相关、商业意图强、接近购买决策阶段的 prompts，放进自研 GEO 追踪平台测试，重点看两个指标：品牌是否被提及，以及是否为正向提及。

正向提及不是简单出现品牌名，而是指 AI 在合适语境里推荐或认可品牌，比如“适合某类需求”、“可以作为某类方案参考”、“在某个细分场景中有相关经验”。

比如一家家用清洁机器人品牌，我们不会只看“扫地机器人”这种大词，而会测试“适合养宠家庭的扫地机器人”、“可以拖地的机器人吸尘器推荐”、“哪款扫地机器人适合木地板”这些更接近购买决策的问题。

为什么需要自定义追踪 prompts？很多第三方平台只能追踪固定词库，但真实用户不会按固定词库提问。比如牙科诊所的用户可能会问“种植牙疼不疼”、“洛杉矶哪家牙科适合儿童”、“牙齿矫正前要注意什么”——这些问题比“牙科诊所”更接近决策。

西品东来自研的 GEO 追踪平台支持自定义追踪自己的 prompts，也能监控竞对在相关问题中的引荐率变化。你不只是知道品牌有没有曝光，还能看到品牌在哪些问题里被提及、在哪些问题里输给竞对，以及这些提及是否正向。

GEO 追踪平台核心监测指标示例

AI 时代 robots.txt 配置总结

如果网站目标是获客，默认不要屏蔽所有 AI 爬虫。开放搜索和引用类爬虫，按内容类型决定训练类爬虫，保护隐私内容时使用真正的访问控制。

配置前先问三个问题：

核心页面是否应该被 AI 看到？
原创内容是否需要限制训练用途？
隐私内容是否已经用权限保护？

如果已经开放了核心页面，但品牌仍然很少出现在 AI 答案里，问题可能不只在 robots.txt。更常见的原因是页面内容、实体信息和高意图问题覆盖不足。

如果你不确定当前 robots.txt 是在帮你争取 AI 可见度，还是正在悄悄挡住高意图用户入口，可以让西品东来帮你做一次 AI 抓取与 GEO 可见度检查。我们会从 robots.txt、CDN/WAF 拦截、sitemap、核心页面可抓取性、高意图 prompts 提及情况几个层面一起看，找出品牌没有进入 AI 答案的真正原因。

技术配置只是第一步。更重要的是，让 AI 能读懂你、信任你，并在用户接近决策时正确提到你。把这条链路跑通，robots.txt 才不是一份静态文件，而是 GEO 增长系统的入口。

FAQ

AI 时代还需要 robots.txt 吗？

需要。它仍然是管理爬虫访问的基础文件，只是现在要同时考虑传统搜索爬虫和 AI 爬虫。它决定了 AI 是否能读到你的页面，进而影响品牌在 ChatGPT、Claude、Perplexity 答案里的可见度。

屏蔽 GPTBot 会影响 Google 搜索排名吗？

不会。GPTBot 和 Googlebot 是完全独立的系统，OpenAI 和 Google 的爬虫不互通。屏蔽 GPTBot 只是阻止 OpenAI 用你的内容训练模型，对 Google 搜索和 Google AI Overview 都没有影响。这是 2026 年最常见的误解之一。

屏蔽 GPTBot 会影响 ChatGPT Search 吗？

不一定。GPTBot 和 OAI-SearchBot 作用不同，前者是训练爬虫，后者是检索爬虫。如果你关心 ChatGPT Search 可见度，更应关注 OAI-SearchBot 是否能访问，而不是只看 GPTBot。

屏蔽 ClaudeBot 之后 Claude 还会引用我的内容吗？

取决于你有没有同时屏蔽 Claude-SearchBot。ClaudeBot 是训练爬虫，Claude-SearchBot 是检索爬虫，是两个独立的爬虫。如果只屏蔽前者，Claude 仍然会在用户提问时实时取你的页面并引用。

已经被训练过的内容，现在屏蔽 GPTBot 还有用吗？

有用，但只能止血，不能撤回。已经进入模型训练集的内容，目前没有标准化的删除请求机制，OpenAI、Anthropic、Google 都不接受按内容粒度的撤回请求。现在屏蔽 GPTBot 只能阻止未来训练轮次，所以越早配置越好。

Google-Extended 和 Googlebot 是一回事吗？

不是。Googlebot 主要关系到 Google Search 抓取和收录，Google-Extended 更偏向控制部分 Google AI 相关用途。屏蔽 Google-Extended 不影响 Google Search 排名，也不影响 Google AI Overview 的可见度。

想被 AI 推荐应该开放哪些页面？

首页、服务页、产品页、行业方案页、案例页、FAQ、博客文章、关于我们和联系页面。这些页面能帮助 AI 理解品牌定位、服务范围和差异化优势，是 AI 判断“该不该推荐你”的基础。

robots.txt 能保护隐私内容吗？

不能。robots.txt 不是安全工具，它本身是公开文件，且不能强制所有爬虫遵守。隐私内容、会员内容和内部资料应使用登录、权限或服务器访问控制。

Shopify、WordPress 自带的 robots.txt 够用吗？

不够。它们默认配置不区分 AI 爬虫的类型，也不针对 2026 年的 AI 生态做优化。Shopify 用户需要新建 robots.txt.liquid 模板覆盖默认行为；WordPress 用户可以通过 Yoast、Rank Math 插件或直接编辑根目录文件实现。

所有 AI 爬虫都会遵守 robots.txt 吗？

不一定。正规爬虫通常会声明 user-agent 并提供规则说明，但 robots.txt 不是强制安全机制。部分新型 AI 智能体，如 ChatGPT Operator，开始忽略 robots.txt，因为它们的请求被视为“用户主动触发”，需要配合 WAF 一起做防护。

配置 robots.txt 后多久能看到 AI 可见度变化？

检索类爬虫立即生效，下次 AI 用户提问就能引用到你；训练类爬虫要等下一轮模型训练，通常 3 到 12 个月。但是否被 AI 提及还取决于页面内容、实体信息、外部信号和用户问题匹配度。

没有 robots.txt 文件会怎样？

通常表示默认允许抓取。但如果网站使用 CDN、CMS 或安全插件，最终访问到的 robots.txt 可能由系统自动生成。应直接打开 /robots.txt 检查实际结果。

robots.txt 配好了，为什么 AI 还是不提我的品牌？

常见原因有三个：页面内容没有覆盖高购买意图问题、品牌实体信息不清晰、外部信号不足。此时应结合 prompts 追踪结果继续优化，从技术抓取、内容结构和外部信号三个维度找原因。

llms.txt 必须做吗？

不必须。它是值得关注的补充方案，但不是 robots.txt 的替代品。建议先把 robots.txt、sitemap、核心页面内容和技术抓取问题处理好，再考虑 llms.txt。

robots.txt 配置模板：3 套可直接复制（按业务类型）

模板 A：B2B、SaaS、电商，最大化 AI 可见度

模板 A 的两种变体

模板 B：媒体、博客、教程站，放检索挡训练

模板 C：付费墙、会员站，保守屏蔽

怎么判断我的网站该用哪套 robots.txt 模板？

用 robots.txt 模板前必看的 4 条提醒

1、文件必须放在根域名下

2、不要再用 Claude-Web 和 anthropic-ai 这两个 user-agent

3、规则要和 sitemap 配合

4、用户触发类 bot 不要作为核心控制对象

不同平台修改 robots.txt 的方法

robots.txt 配置完成后怎么验证生效？

第一步：直接打开 robots.txt 文件

第二步：检查核心页面是否被误屏蔽

第三步：看服务器日志，过滤 AI bot 访问

没有服务器日志权限怎么办（比如 Shopify 用户）？

第四步：用 prompts 测 AI 可见度

robots.txt 配置的 5 个常见错误

错误 1：Cloudflare 在你不知情下托管了 robots.txt

错误 2：WAF 规则覆盖了 robots.txt

错误 3：客户端渲染让 AI 看到一片空白

错误 4：用废弃的 user-agent 屏蔽 Anthropic

错误 5：把所有 AI 爬虫当成训练爬虫一刀切屏蔽

AI 爬虫分几类？训练、检索、用户触发爬虫的区别

训练类爬虫

检索类爬虫

用户触发类访问

常见 AI 爬虫处理建议速查表

为什么不能一刀切屏蔽所有 AI 爬虫？

robots.txt 之外还要做什么：llms.txt、ai.txt、sitemap

配好 robots.txt 后，怎么让 AI 真正推荐你的品牌？

AI 时代 robots.txt 配置总结

FAQ

AI 时代还需要 robots.txt 吗？

屏蔽 GPTBot 会影响 Google 搜索排名吗？

屏蔽 GPTBot 会影响 ChatGPT Search 吗？

屏蔽 ClaudeBot 之后 Claude 还会引用我的内容吗？

已经被训练过的内容，现在屏蔽 GPTBot 还有用吗？

Google-Extended 和 Googlebot 是一回事吗？

想被 AI 推荐应该开放哪些页面？

robots.txt 能保护隐私内容吗？

Shopify、WordPress 自带的 robots.txt 够用吗？

所有 AI 爬虫都会遵守 robots.txt 吗？

配置 robots.txt 后多久能看到 AI 可见度变化？

没有 robots.txt 文件会怎样？

robots.txt 配好了，为什么 AI 还是不提我的品牌？

llms.txt 必须做吗？

Generate more leads and boost your income