一个做户外装备的品牌,去年因为 Cloudflare 默认屏蔽规则把所有 AI 爬虫挡在门外,整整 8 个月在 ChatGPT 答案里完全消失。等他们发现的时候,三个主要竞品已经吃下了“露营装备推荐”这个词的全部 AI 引用位。

AI 时代配置 robots.txt 的核心原则是按爬虫用途分别授权:检索类爬虫(OAI-SearchBot、Claude-SearchBot、PerplexityBot)放行,以获得 AI 答案引用;训练类爬虫(GPTBot、ClaudeBot、Google-Extended)是否放行,要看内容是不是你的产品;敏感内容不能依赖 robots.txt,要用登录和权限保护。

AI爬虫的三大类与处理原则,展示了搜索类、训练类和用户触发类爬虫的具体示例。

AI 爬虫三大类与处理原则速查图

robots.txt 配置模板:3 套可直接复制(按业务类型)

下面三套模板覆盖了常见网站类型,可以先选一套,再根据业务、版权和合规要求微调。

模板 A:B2B、SaaS、电商,最大化 AI 可见度

适合靠流量和品牌曝光赚钱的网站。放行所有主流 AI 爬虫,只屏蔽 admin、checkout、内部搜索这类噪音路径。

# 模板 A: 获客型网站基础配置

# 适用: B2B、SaaS、电商、品牌、本地服务

# 目标: 最大化 AI 可见度

User-agent: *

Allow: /

Disallow: /admin/

Disallow: /checkout/

Disallow: /cart/

Disallow: /search?

Disallow: /*?utm_

User-agent: Googlebot

Allow: /

# AI 检索类爬虫,全部放行

User-agent: OAI-SearchBot

Allow: /

User-agent: ChatGPT-User

Allow: /

User-agent: Claude-SearchBot

Allow: /

User-agent: Claude-User

Allow: /

User-agent: PerplexityBot

Allow: /

User-agent: Perplexity-User

Allow: /

# AI 训练类爬虫,也放行

User-agent: GPTBot

Allow: /

User-agent: ClaudeBot

Allow: /

User-agent: Google-Extended

Allow: /

User-agent: CCBot

Allow: /

Sitemap: https://www.example.com/sitemap.xml

模板 A 放行训练爬虫是有原因的。对获客型网站来说,训练数据是免费的长期品牌投资——产品名、服务范围、差异化卖点进入模型后,未来一两年里 AI 每次相关回答都可能提到你,不需要再付任何成本。

比如一家泳池清洁公司,希望用户问“附近哪家公司可以做泳池维护”时,AI 能读到它的服务页、区域页和 FAQ。屏蔽 AI 搜索类爬虫,等于减少被推荐的机会。

模板 A 的两种变体

你的目标

建议做法

最大化 AI 可见度

检索类和训练类都放行(如上)

只要 AI 搜索曝光,不想开放训练

放行检索类,把 GPTBot、ClaudeBot、Google-Extended 改成 Disallow

不确定怎么选

先放行检索类,观察品牌提及情况

放行检索类爬虫不等于一定会被引用。它只是让 AI 搜索系统有机会访问你的页面。最终是否被提及,还取决于页面内容、问题匹配度、品牌实体信息和外部信号。

模板 B:媒体、博客、教程站,放检索挡训练

适合内容本身就是产品的网站。放行检索类爬虫保留 AI 答案里的引用回链,屏蔽训练类爬虫不让 AI 白嫖。

# 模板 B: 区分搜索和训练

# 适用: 媒体、内容站、Publisher

# 目标: 保留 AI 引用引流,防止内容被白嫖训练

User-agent: *

Allow: /

Disallow: /admin/

Disallow: /wp-admin/

User-agent: Googlebot

Allow: /

# AI 检索类爬虫,放行

User-agent: OAI-SearchBot

Allow: /

User-agent: ChatGPT-User

Allow: /

User-agent: Claude-SearchBot

Allow: /

User-agent: Claude-User

Allow: /

User-agent: PerplexityBot

Allow: /

# AI 训练类爬虫,屏蔽

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: Meta-ExternalAgent

Disallow: /

Sitemap: https://www.example.com/sitemap.xml

《纽约时报》、Reuters、《卫报》等头部媒体陆续采用了这个组合策略——既避免内容被白嫖训练,又保留在 ChatGPT 搜索答案里的引用位。

模板 C:付费墙、会员站,保守屏蔽

适合付费内容、内部资料、敏感数据、法律或医疗等高合规压力网站。

前置提醒:robots.txt 不是安全工具。它只能表达抓取偏好,不能真正保护私密内容。真正敏感的内容应使用登录权限、服务器鉴权、IP 限制或私有存储。

# 模板 C: 付费内容 / 会员资料 / 敏感信息

# 目标: 减少 AI 抓取和公开引用风险

User-agent: *

Disallow: /members/

Disallow: /private/

Disallow: /internal/

Disallow: /paid-content/

User-agent: Googlebot

Allow: /

Disallow: /members/

Disallow: /private/

Disallow: /internal/

Disallow: /paid-content/

# 屏蔽主要 AI 检索类爬虫

User-agent: OAI-SearchBot

Disallow: /

User-agent: PerplexityBot

Disallow: /

User-agent: Claude-SearchBot

Disallow: /

# 屏蔽主要 AI 训练类爬虫

User-agent: GPTBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: Google-Extended

Disallow: /

User-agent: CCBot

Disallow: /

Sitemap: https://www.example.com/sitemap.xml

选模板 C 要接受一个结果:网站在部分 AI 搜索答案中的可见度会下降。

如果你只想保护部分付费内容,不要全站屏蔽。更稳妥的做法是只屏蔽会员目录、下载目录、内部资料目录,保留公开服务页、品牌页、产品页和博客页。这样既能保护敏感内容,也不会完全切断 AI 搜索入口。

怎么判断我的网站该用哪套 robots.txt 模板?

一个简单的判断:如果明天你的网站完全停掉博客和文章,但产品还能卖、业务还能跑——选模板 A。如果停了博客就没饭吃,内容本身就是产品——选模板 B。

混合型情况,比如做家居用品的 Shopify 站,博客是为了带流量到产品页——这种情况内容是营销资产,不是商品本身,选模板 A。

有付费内容或敏感资料的,单独看模板 C,但要配合权限控制使用。

你的情况

建议模板

企业官网、B2B、SaaS、电商、品牌、本地服务

A

媒体、内容站、专业博客、教程站

B

付费内容、会员站、内部资料

C + 权限控制

只有部分内容敏感

A 或 B,只屏蔽敏感目录

不确定是否被 AI 提及

先做 prompts 追踪,再决定

一个关于网站使用robots.txt模板的决策流程图,包含不同选择和路径。

三套 robots.txt 模板选择决策树

用 robots.txt 模板前必看的 4 条提醒

1、文件必须放在根域名下

访问路径是 https://yoursite.com/robots.txt,子目录不算数。规则从上到下读取,越具体的优先级越高。

2、不要再用 Claude-Web 和 anthropic-ai 这两个 user-agent

它们已经在 2024 年废弃。2026 年 Anthropic 的活跃爬虫是 ClaudeBot(训练)、Claude-SearchBot(检索)、Claude-User(用户触发)。很多老 SEO 教程和 CMS 默认配置还在用旧字符串,需要主动检查。

3、规则要和 sitemap 配合

重要页面应出现在 sitemap 中,并确保没有被 robots.txt 误屏蔽。

4、用户触发类 bot 不要作为核心控制对象

ChatGPT-User、Claude-User、Perplexity-User 接近用户主动请求触发的访问,配置重点应放在检索类爬虫和训练类爬虫两类上。

不同平台修改 robots.txt 的方法

平台

方法

Shopify

后台无法直接编辑,需要新建 robots.txt.liquid 模板覆盖默认

WordPress

用 Yoast SEO 或 Rank Math 插件编辑,或 FTP 上传静态文件到根目录

Webflow

Project Settings → SEO → Robots.txt 直接粘贴

Wix

SEO 工具 → Robots.txt 编辑器

Ghost

自托管版本直接修改根目录文件;Ghost(Pro)需联系支持团队

Substack

平台不开放编辑权限,建议把核心内容同步到独立域名

Medium

不支持自定义,平台统一控制

自建站

直接在 web 服务器根目录放 robots.txt 文件

robots.txt 配置完成后怎么验证生效?

第一步:直接打开 robots.txt 文件

在浏览器打开 https://www.example.com/robots.txt,确认看到的是最新版本。如果不是,大概率被 CDN 或 CMS 覆盖了,需要检查 CDN 缓存、CMS 默认规则和服务器路径。

第二步:检查核心页面是否被误屏蔽

页面类型

是否应开放

首页

通常应开放

服务页、产品页、行业方案页

通常应开放

案例页、FAQ、博客

通常应开放

后台、wp-admin

应屏蔽

购物车、结账页

通常应屏蔽

内部搜索结果页

通常应屏蔽

不要让 /blog/、/products/、/services/ 这类高价值目录被误写进 Disallow。

第三步:看服务器日志,过滤 AI bot 访问

日志比感觉可靠。重点过滤这些 user-agent:Googlebot、OAI-SearchBot、GPTBot、PerplexityBot、Claude-SearchBot、ClaudeBot、Google-Extended。观察它们是否访问了核心页面,是否出现 403、429、5xx 等异常状态码。如果 robots.txt 允许但日志显示大量拒绝,要检查 WAF、CDN 和速率限制。

没有服务器日志权限怎么办(比如 Shopify 用户)?

可以用下面这些方式补充判断:

  • Cloudflare Analytics 的 Bot 报告功能,能看到分爬虫的流量统计。
  • Shopify 用户可以装第三方 Bot Analytics 应用追踪。
  • Google Search Console 的“覆盖率报告”看抓取状态。
  • 第三方 AI 可见度监测工具。

第四步:用 prompts 测 AI 可见度

技术检查只能证明“能不能访问”,GEO 更关心“有没有被提及”。测试高购买意图 prompts,比如“适合养宠家庭的扫地机器人推荐”、“小型企业适合用哪种 CRM”、“洛杉矶儿童牙科诊所怎么选”、“树叶多的泳池适合哪种泳池清洁机器人”,看 AI 回答中有没有出现品牌、是否正向提及、竞对是否被更多推荐。这一步才真正连接到获客结果。

时间预期:检索类爬虫放行后立即生效,下次 AI 用户提问就能引用到你;训练类爬虫要等下一轮模型训练,通常 3 到 12 个月才反映在模型输出里。

robots.txt 配置的 5 个常见错误

下面这 5 个坑,做技术审计时几乎每个客户都中过至少一个。

错误 1:Cloudflare 在你不知情下托管了 robots.txt

Cloudflare 有个叫 Managed robots.txt 的功能,会自动给常见 AI 爬虫加上 Disallow 规则。约 27% 的 B2B SaaS 和电商站在 CDN 层被默默屏蔽却完全不知道(数据来源:Cloudflare 2025 年 AI 爬虫流量报告)。

自查方法:登录 Cloudflare 后台,进入 Security → Bots,确认“Instruct AI bot traffic with robots.txt”是关闭状态。如果你的 robots.txt 是 Cloudflare 帮你生成的,先关掉这个开关,让源站的文件生效。

错误 2:WAF 规则覆盖了 robots.txt

Cloudflare、Fastly、AWS WAF 都内置了“AI Scraper”或“AI Bot”屏蔽规则集。即使你 robots.txt 写了 Allow,WAF 也会在请求层直接 block,AI 爬虫连 robots.txt 都读不到。

自查方法:在 CDN 后台搜索这些关键词:AI Bot、AI Scraper、Crawler、Bot Protection、Verified Bot,找出现有规则集,确认它和你的策略一致。如果边缘层拦截规则和 robots.txt 不一致,实际结果以拦截规则为准。

错误 3:客户端渲染让 AI 看到一片空白

约 69% 的 AI 爬虫不执行 JavaScript(数据来源:Vercel 和 MERJ 联合工程研究,2024 年)。如果你的网站是 React、Vue、Next.js 的纯客户端渲染(CSR),AI 爬虫看到的就是一个空 div,robots.txt 怎么配都救不回来。

解决方法:上 SSR(服务端渲染)、SSG(静态生成)或预渲染,或确保核心文本内容在初始 HTML 中可见。

错误 4:用废弃的 user-agent 屏蔽 Anthropic

如果你的 robots.txt 里还在写 Claude-Web 或 anthropic-ai,等于没屏蔽。这两个 user-agent 已经废弃,Anthropic 现在用的是 ClaudeBot、Claude-SearchBot、Claude-User。很多老的 SEO 教程、CMS 默认配置、WordPress 插件还在用旧字符串,需要主动检查。

错误 5:把所有 AI 爬虫当成训练爬虫一刀切屏蔽

最常见的策略错误。出于“防止内容被白嫖”的本能,一刀切屏蔽所有带 GPT、Claude 字样的爬虫,结果连给你带流量的 OAI-SearchBot、Claude-SearchBot 也屏蔽了。

后果是品牌从 ChatGPT 搜索答案里完全消失。等几个月后发现 AI 流量为零,回头查才发现是当初一刀切的锅。

正确思路是分层:

目标

策略

想要 AI 搜索曝光

放行检索类爬虫

想限制训练用途

屏蔽训练类爬虫

想保护隐私内容

使用权限控制,不是 robots.txt

想降低噪音抓取

屏蔽后台、购物车、搜索页等低价值路径

图示展示了robots.txt文件的五个常见错误,包括Cloudflare、WAF配置和爬虫规则等内容。

robots.txt 配置 5 个常见错误自查清单

AI 爬虫分几类?训练、检索、用户触发爬虫的区别

很多人看到 GPTBot、OAI-SearchBot、ClaudeBot 会以为它们是一类爬虫,这是 AI 时代 robots.txt 最容易配错的地方。

训练类爬虫

用于收集公开网页内容支持模型训练。

爬虫

用途

GPTBot

OpenAI 模型训练

ClaudeBot

Anthropic 模型训练

Google-Extended

Google AI 训练用途控制,不是 Googlebot

CCBot

Common Crawl,被大量开源 LLM 用作训练集,如 LLaMA 早期、Mistral、各类学术模型

Meta-ExternalAgent

Meta AI 和 LLaMA 系列训练;Cloudflare 2025 年统计中流量第二大的 AI 训练爬虫

Bytespider

字节跳动,部分用于 AI 训练,部分用于今日头条、TikTok 内容索引

特别注意 Google-Extended:它不是 Googlebot。不要因为想限制 AI 训练,就误伤 Googlebot,影响正常搜索抓取。

检索类爬虫

更接近 AI 搜索和答案引用场景。

爬虫

用途

OAI-SearchBot

ChatGPT Search 发现和展示

PerplexityBot

Perplexity 搜索结果展示和链接

Claude-SearchBot

Claude 搜索发现和索引

想做 AI 搜索可见度的网站,通常不建议屏蔽检索类爬虫。

用户触发类访问

用户在 AI 工具里粘贴链接、要求总结时触发的访问,更像“用户通过 AI 工具浏览网页”,不是自动爬虫。

名称

用途

ChatGPT-User

ChatGPT 用户请求触发

Claude-User

Claude 用户请求触发

Perplexity-User

Perplexity 用户请求触发

屏蔽用户触发类访问,意味着用户在 AI 工具里粘贴你的链接要求总结时读不到内容。这种访问通常带高意图,屏蔽往往得不偿失。

常见 AI 爬虫处理建议速查表

爬虫

类型

处理建议

Googlebot

传统搜索

必须放行,AI 时代仍是基础

GPTBot

OpenAI 训练

看内容是否需要保护版权

OAI-SearchBot

ChatGPT 检索

想要 AI 答案引用就放行

ChatGPT-User

用户触发

建议放行,屏蔽影响用户体验

ClaudeBot

Anthropic 训练

看内容是否需要保护版权

Claude-SearchBot

Claude 检索

想要 AI 答案引用就放行

Claude-User

用户触发

建议放行

Google-Extended

Google AI 训练

屏蔽不影响 Google Search 和 AI Overview

PerplexityBot

Perplexity 检索

想要 Perplexity 引用就放行

CCBot

Common Crawl

屏蔽等于切断大批开源模型对你内容的训练访问

Meta-ExternalAgent

Meta AI 训练

看是否在意 Meta AI / LLaMA 引用

Bytespider

字节跳动

取决于是否在意中国市场

为什么不能一刀切屏蔽所有 AI 爬虫?

如果把所有 AI bot 都屏蔽,确实能减少内容被抓取的机会。但同时,你也会让网站更难进入 AI 搜索答案、品牌推荐、产品对比和供应商列表。

对企业网站来说,这个代价很高。AI 引荐来的访客转化率比常规自然搜索高约 4.4 倍(指访客进站后最终完成购买或留资的比例,数据来源:Superlines 2025 年 AI 流量分析)。原因是这些访客在进站前已经被 AI 预筛选过意图,离决策更近。

尤其是 B2B 和高客单价行业,用户不会只搜“某某产品多少钱”,还会问“哪种方案适合我”、“哪家公司靠谱”、“某某品牌和竞品有什么区别”。这些问题正在被 AI 搜索重写。

一个常见误解:屏蔽 GPTBot、ClaudeBot、Google-Extended 不会影响 Google 排名。这些爬虫和 Googlebot、Bingbot 是独立系统。屏蔽 Google-Extended 也不影响 Google AI Overview 的可见度。“我屏蔽了 AI 训练会不会掉排名”这个担心可以放下。

另一个要面对的现实:已经被训练过的内容无法通过 robots.txt 撤回。2023 年发布的文章如果已经进入 GPT-4 的训练集,现在屏蔽 GPTBot 只能阻止未来的训练轮次,无法让模型“忘记”已学习的内容。目前 OpenAI、Anthropic、Google 都不接受按内容粒度的撤回请求。所以越早配置 robots.txt 越好,等于在为下一个模型版本止血。

robots.txt 之外还要做什么:llms.txt、ai.txt、sitemap

robots.txt 是地基,2026 年还有几个补充协议和工作要配合做。

llms.txt 是放在根目录的 markdown 文件,主动给 AI 一份“网站知识地图”,告诉它哪些页面最值得读、内容结构是什么。还不是强制标准,但越来越多 AI 引擎在测试性使用。制作成本低,建议做。但它不是 robots.txt 的替代品。

ai.txt 按用途授权,也就是爬来做什么;robots.txt 按身份授权,也就是谁能爬。ai.txt 支持 No-Training、No-Inference、Allow-RAG 等标签,让你能放行 AI 用于搜索引用但禁止训练。版权敏感行业优先做。

TDMRep 是欧盟业务的补充工具。它把许可声明嵌入 HTTP header,根据 EU AI Act 第 53 条,对 GPAI(通用人工智能)提供商具备法律约束力。在欧盟有用户的网站建议了解。

sitemap 仍然重要。它能帮助搜索引擎和部分抓取系统更清楚地发现重要页面。服务页、产品页、行业方案页、FAQ 和博客文章都应该进入 sitemap。

页面内容要能回答真实问题。AI 搜索更常处理完整问题,比如“哪种泳池机器人适合树叶多的泳池?”“小企业选 CRM 应该看哪些功能?”如果页面只写产品卖点不回答这些问题,就算能被抓取也不一定会被引用。

实操优先级是 robots.txt 和 sitemap 必做,核心页面内容能回答真实购买问题必做,llms.txt 建议做,ai.txt 看业务,TDMRep 看是否涉及欧盟。

配好 robots.txt 后,怎么让 AI 真正推荐你的品牌?

AI 能访问页面不代表会推荐你。它还要能理解品牌、业务范围、服务地区、目标客户和核心优势。更重要的是,品牌要出现在高购买意图问题中。

在西品东来的 GEO 服务中,我们不会一上来就只改 robots.txt。我们先选取行业相关、商业意图强、接近购买决策阶段的 prompts,放进自研 GEO 追踪平台测试,重点看两个指标:品牌是否被提及,以及是否为正向提及。

正向提及不是简单出现品牌名,而是指 AI 在合适语境里推荐或认可品牌,比如“适合某类需求”、“可以作为某类方案参考”、“在某个细分场景中有相关经验”。

比如一家家用清洁机器人品牌,我们不会只看“扫地机器人”这种大词,而会测试“适合养宠家庭的扫地机器人”、“可以拖地的机器人吸尘器推荐”、“哪款扫地机器人适合木地板”这些更接近购买决策的问题。

为什么需要自定义追踪 prompts?很多第三方平台只能追踪固定词库,但真实用户不会按固定词库提问。比如牙科诊所的用户可能会问“种植牙疼不疼”、“洛杉矶哪家牙科适合儿童”、“牙齿矫正前要注意什么”——这些问题比“牙科诊所”更接近决策。

西品东来自研的 GEO 追踪平台支持自定义追踪自己的 prompts,也能监控竞对在相关问题中的引荐率变化。你不只是知道品牌有没有曝光,还能看到品牌在哪些问题里被提及、在哪些问题里输给竞对,以及这些提及是否正向。

图表展示了提及概率、位置评分、推荐率和比较胜率随时间变化的趋势。

GEO 追踪平台核心监测指标示例

AI 时代 robots.txt 配置总结

如果网站目标是获客,默认不要屏蔽所有 AI 爬虫。开放搜索和引用类爬虫,按内容类型决定训练类爬虫,保护隐私内容时使用真正的访问控制。

配置前先问三个问题:

  • 核心页面是否应该被 AI 看到?
  • 原创内容是否需要限制训练用途?
  • 隐私内容是否已经用权限保护?

如果已经开放了核心页面,但品牌仍然很少出现在 AI 答案里,问题可能不只在 robots.txt。更常见的原因是页面内容、实体信息和高意图问题覆盖不足。

如果你不确定当前 robots.txt 是在帮你争取 AI 可见度,还是正在悄悄挡住高意图用户入口,可以让西品东来帮你做一次 AI 抓取与 GEO 可见度检查。我们会从 robots.txt、CDN/WAF 拦截、sitemap、核心页面可抓取性、高意图 prompts 提及情况几个层面一起看,找出品牌没有进入 AI 答案的真正原因。

技术配置只是第一步。更重要的是,让 AI 能读懂你、信任你,并在用户接近决策时正确提到你。把这条链路跑通,robots.txt 才不是一份静态文件,而是 GEO 增长系统的入口。

FAQ

AI 时代还需要 robots.txt 吗?

需要。它仍然是管理爬虫访问的基础文件,只是现在要同时考虑传统搜索爬虫和 AI 爬虫。它决定了 AI 是否能读到你的页面,进而影响品牌在 ChatGPT、Claude、Perplexity 答案里的可见度。

屏蔽 GPTBot 会影响 Google 搜索排名吗?

不会。GPTBot 和 Googlebot 是完全独立的系统,OpenAI 和 Google 的爬虫不互通。屏蔽 GPTBot 只是阻止 OpenAI 用你的内容训练模型,对 Google 搜索和 Google AI Overview 都没有影响。这是 2026 年最常见的误解之一。

屏蔽 GPTBot 会影响 ChatGPT Search 吗?

不一定。GPTBot 和 OAI-SearchBot 作用不同,前者是训练爬虫,后者是检索爬虫。如果你关心 ChatGPT Search 可见度,更应关注 OAI-SearchBot 是否能访问,而不是只看 GPTBot。

屏蔽 ClaudeBot 之后 Claude 还会引用我的内容吗?

取决于你有没有同时屏蔽 Claude-SearchBot。ClaudeBot 是训练爬虫,Claude-SearchBot 是检索爬虫,是两个独立的爬虫。如果只屏蔽前者,Claude 仍然会在用户提问时实时取你的页面并引用。

已经被训练过的内容,现在屏蔽 GPTBot 还有用吗?

有用,但只能止血,不能撤回。已经进入模型训练集的内容,目前没有标准化的删除请求机制,OpenAI、Anthropic、Google 都不接受按内容粒度的撤回请求。现在屏蔽 GPTBot 只能阻止未来训练轮次,所以越早配置越好。

Google-Extended 和 Googlebot 是一回事吗?

不是。Googlebot 主要关系到 Google Search 抓取和收录,Google-Extended 更偏向控制部分 Google AI 相关用途。屏蔽 Google-Extended 不影响 Google Search 排名,也不影响 Google AI Overview 的可见度。

想被 AI 推荐应该开放哪些页面?

首页、服务页、产品页、行业方案页、案例页、FAQ、博客文章、关于我们和联系页面。这些页面能帮助 AI 理解品牌定位、服务范围和差异化优势,是 AI 判断“该不该推荐你”的基础。

robots.txt 能保护隐私内容吗?

不能。robots.txt 不是安全工具,它本身是公开文件,且不能强制所有爬虫遵守。隐私内容、会员内容和内部资料应使用登录、权限或服务器访问控制。

Shopify、WordPress 自带的 robots.txt 够用吗?

不够。它们默认配置不区分 AI 爬虫的类型,也不针对 2026 年的 AI 生态做优化。Shopify 用户需要新建 robots.txt.liquid 模板覆盖默认行为;WordPress 用户可以通过 Yoast、Rank Math 插件或直接编辑根目录文件实现。

所有 AI 爬虫都会遵守 robots.txt 吗?

不一定。正规爬虫通常会声明 user-agent 并提供规则说明,但 robots.txt 不是强制安全机制。部分新型 AI 智能体,如 ChatGPT Operator,开始忽略 robots.txt,因为它们的请求被视为“用户主动触发”,需要配合 WAF 一起做防护。

配置 robots.txt 后多久能看到 AI 可见度变化?

检索类爬虫立即生效,下次 AI 用户提问就能引用到你;训练类爬虫要等下一轮模型训练,通常 3 到 12 个月。但是否被 AI 提及还取决于页面内容、实体信息、外部信号和用户问题匹配度。

没有 robots.txt 文件会怎样?

通常表示默认允许抓取。但如果网站使用 CDN、CMS 或安全插件,最终访问到的 robots.txt 可能由系统自动生成。应直接打开 /robots.txt 检查实际结果。

robots.txt 配好了,为什么 AI 还是不提我的品牌?

常见原因有三个:页面内容没有覆盖高购买意图问题、品牌实体信息不清晰、外部信号不足。此时应结合 prompts 追踪结果继续优化,从技术抓取、内容结构和外部信号三个维度找原因。

llms.txt 必须做吗?

不必须。它是值得关注的补充方案,但不是 robots.txt 的替代品。建议先把 robots.txt、sitemap、核心页面内容和技术抓取问题处理好,再考虑 llms.txt。

微信二维码