很多外贸站主理人现在会问一个很现实的问题:我希望 AI 在回答问题时可以引用我的网页(带来品牌曝光和潜在询盘),但我不希望我的内容被拿去训练模型。能不能同时做到?
答案是:你可以用 robots.txt 做到“尽量控制”。最常见的做法是允许某些用于搜索/引用的抓取器,同时禁止用于训练的抓取器。这篇文章用最小化的例子把思路讲清楚,并附一个常见 AI 爬虫清单,方便你对照。
先说明一个边界:
robots.txt 是行业通用的“爬虫访问规则”。主流搜索引擎通常会遵守,但它并不是法律协议,也不是强制的安全机制。真正敏感的内容,仍然应该用登录、权限、或服务器层面的访问控制来保护。
一、先搞懂:GPTBot 和 OAI-SearchBot 分别是什么?
你可以把它们理解成两种不同目的的“访客”。GPTBot 更偏向“模型训练/改进”的抓取用途;OAI-SearchBot 更偏向“搜索/引用/回答”这类场景的抓取用途(具体细节会随时间调整)。你想要“允许搜索引用、禁止训练抓取”,就是把两类访客区别对待。
注意:不同公司会有不同的抓取器名字,甚至同一家公司也可能有多个 User-agent。你要做的是建立一个思路:按目的分组管理,并定期复查。
二、最小可用 robots.txt 示例:允许引用,禁止训练
下面是一段示例配置。它表达的意思是:禁止 GPTBot 抓取全站,但允许 OAI-SearchBot 抓取全站。同时,别忘了把 sitemap 写进去,方便发现页面。
User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Allow: / User-agent: * Allow: / Sitemap: https://你的域名.com/sitemap.xml
这段写法的核心不是“抄代码”,而是理解规则:robots.txt 是按 User-agent 分组匹配的。你把不同抓取器分开写,就能表达不同策略。
三、常见AI爬虫清单(你可以先从这几个开始)
不同站点面对的爬虫不一样,你不需要一次性写全世界的清单。先把最常见的几类写进去,后续再根据服务器日志补齐即可。常见的包括:
- OpenAI:GPTBot、OAI-SearchBot(有时还会出现其他相关UA)。
- Google:Googlebot(搜索抓取)、Google-Extended(用于AI相关用途的控制项)。
- Anthropic:ClaudeBot(不同版本可能有不同UA)。
- Perplexity:PerplexityBot(以及可能的相关UA)。
- 其他:一些第三方数据集/聚合抓取器也可能出现(例如 CCBot 等)。
提醒:清单不是越长越好。写太多、写错名字,反而容易误伤正常搜索。更稳的做法是:先管住你真正关心的几家,再用日志验证。
四、最容易踩的 4 个坑
- 把自己也禁掉:写了
Disallow: /却忘了为正常搜索引擎保留规则,导致收录下降。 - 只写了“User-agent: *”:结果你想禁止的抓取器被“*”的规则放行了,或者相反误伤了。
- 以为 robots.txt 等于不被引用:就算禁止抓取,你的网站内容也可能通过别处的引用被总结。真正敏感内容不要公开。
- 改完不验证:改完一定要访问
/robots.txt看是否生效,并在服务器日志里观察特定 UA 是否还在访问。
五、建议的“可持续维护方式”:一次设置 + 每月复查
最实用的维护方式是:第一次把 robots.txt 按“搜索抓取 / AI训练抓取”两类写清;之后每月看一次服务器日志,看看是否出现新的 AI 抓取 UA,再决定要不要加规则。这样你不会被各种新名词带节奏,也不会因为担心 AI 就把 SEO 一刀切禁掉。
延伸阅读
- ChatGPT 搜索收录怎么做:OAI-SearchBot 会抓什么?站点要准备哪些页面 · 2025-12-30 · 10分钟
- robots.txt 怎么写才不误伤收录:外贸站常见规则与检查清单 · 2025-10-16 · 9分钟
- WordPress 6.9 更新速读:外贸站最值得用的 8 个变化(含升级前检查) · 2026-01-09 · 12分钟
- WordPress 6.8 的 bcrypt 密码升级意味着什么?对安全/登录的影响 · 2026-01-09 · 10分钟
- Speculative Loading 是啥:6.8 的“提前加载”能帮哪些页面 · 2026-01-09 · 11分钟
- Interactivity API 初体验:纯前端交互能做到什么程度(6.8) · 2026-01-09 · 10分钟