很多外贸站主理人现在会问一个很现实的问题:我希望 AI 在回答问题时可以引用我的网页(带来品牌曝光和潜在询盘),但我不希望我的内容被拿去训练模型。能不能同时做到?

答案是:你可以用 robots.txt 做到“尽量控制”。最常见的做法是允许某些用于搜索/引用的抓取器,同时禁止用于训练的抓取器。这篇文章用最小化的例子把思路讲清楚,并附一个常见 AI 爬虫清单,方便你对照。

先说明一个边界:
robots.txt 是行业通用的“爬虫访问规则”。主流搜索引擎通常会遵守,但它并不是法律协议,也不是强制的安全机制。真正敏感的内容,仍然应该用登录、权限、或服务器层面的访问控制来保护。

一、先搞懂:GPTBot 和 OAI-SearchBot 分别是什么?

你可以把它们理解成两种不同目的的“访客”。GPTBot 更偏向“模型训练/改进”的抓取用途;OAI-SearchBot 更偏向“搜索/引用/回答”这类场景的抓取用途(具体细节会随时间调整)。你想要“允许搜索引用、禁止训练抓取”,就是把两类访客区别对待。

注意:不同公司会有不同的抓取器名字,甚至同一家公司也可能有多个 User-agent。你要做的是建立一个思路:按目的分组管理,并定期复查。

二、最小可用 robots.txt 示例:允许引用,禁止训练

下面是一段示例配置。它表达的意思是:禁止 GPTBot 抓取全站,但允许 OAI-SearchBot 抓取全站。同时,别忘了把 sitemap 写进去,方便发现页面。

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: *
Allow: /

Sitemap: https://你的域名.com/sitemap.xml

这段写法的核心不是“抄代码”,而是理解规则:robots.txt 是按 User-agent 分组匹配的。你把不同抓取器分开写,就能表达不同策略。

三、常见AI爬虫清单(你可以先从这几个开始)

不同站点面对的爬虫不一样,你不需要一次性写全世界的清单。先把最常见的几类写进去,后续再根据服务器日志补齐即可。常见的包括:

  • OpenAI:GPTBot、OAI-SearchBot(有时还会出现其他相关UA)。
  • Google:Googlebot(搜索抓取)、Google-Extended(用于AI相关用途的控制项)。
  • Anthropic:ClaudeBot(不同版本可能有不同UA)。
  • Perplexity:PerplexityBot(以及可能的相关UA)。
  • 其他:一些第三方数据集/聚合抓取器也可能出现(例如 CCBot 等)。

提醒:清单不是越长越好。写太多、写错名字,反而容易误伤正常搜索。更稳的做法是:先管住你真正关心的几家,再用日志验证。

四、最容易踩的 4 个坑

  1. 把自己也禁掉:写了 Disallow: / 却忘了为正常搜索引擎保留规则,导致收录下降。
  2. 只写了“User-agent: *”:结果你想禁止的抓取器被“*”的规则放行了,或者相反误伤了。
  3. 以为 robots.txt 等于不被引用:就算禁止抓取,你的网站内容也可能通过别处的引用被总结。真正敏感内容不要公开。
  4. 改完不验证:改完一定要访问 /robots.txt 看是否生效,并在服务器日志里观察特定 UA 是否还在访问。

五、建议的“可持续维护方式”:一次设置 + 每月复查

最实用的维护方式是:第一次把 robots.txt 按“搜索抓取 / AI训练抓取”两类写清;之后每月看一次服务器日志,看看是否出现新的 AI 抓取 UA,再决定要不要加规则。这样你不会被各种新名词带节奏,也不会因为担心 AI 就把 SEO 一刀切禁掉。