很多外貿站主理人現在會問一個很現實的問題:我希望 AI 在回答問題時可以引用我的網頁(帶來品牌曝光和潛在詢盤),但我不希望我的內容被拿去訓練模型。能不能同時做到?

答案是:你可以用 robots.txt 做到“儘量控制”。最常見的做法是允許某些用於搜索/引用的抓取器,同時禁止用於訓練的抓取器。這篇文章用最小化的例子把思路講清楚,並附一個常見 AI 爬蟲清單,方便你對照。

先說明一個邊界:
robots.txt 是行業通用的“爬蟲訪問規則”。主流搜索引擎通常會遵守,但它並不是法律協議,也不是強制的安全機制。真正敏感的內容,仍然應該用登錄、權限、或服務器層面的訪問控制來保護。

一、先搞懂:GPTBot 和 OAI-SearchBot 分別是什麼?

你可以把它們理解成兩種不同目的的“訪客”。GPTBot 更偏向“模型訓練/改進”的抓取用途;OAI-SearchBot 更偏向“搜索/引用/回答”這類場景的抓取用途(具體細節會隨時間調整)。你想要“允許搜索引用、禁止訓練抓取”,就是把兩類訪客區別對待。

注意:不同公司會有不同的抓取器名字,甚至同一家公司也可能有多個 User-agent。你要做的是建立一個思路:按目的分組管理,並定期複查。

二、最小可用 robots.txt 示例:允許引用,禁止訓練

下面是一段示例配置。它表達的意思是:禁止 GPTBot 抓取全站,但允許 OAI-SearchBot 抓取全站。同時,別忘了把 sitemap 寫進去,方便發現頁面。

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: *
Allow: /

Sitemap: https://你的域名.com/sitemap.xml

這段寫法的核心不是“抄代碼”,而是理解規則:robots.txt 是按 User-agent 分組匹配的。你把不同抓取器分開寫,就能表達不同策略。

三、常見AI爬蟲清單(你可以先從這幾個開始)

不同站點面對的爬蟲不一樣,你不需要一次性寫全世界的清單。先把最常見的幾類寫進去,後續再根據服務器日誌補齊即可。常見的包括:

  • OpenAI:GPTBot、OAI-SearchBot(有時還會出現其他相關UA)。
  • Google:Googlebot(搜索抓取)、Google-Extended(用於AI相關用途的控制項)。
  • Anthropic:ClaudeBot(不同版本可能有不同UA)。
  • Perplexity:PerplexityBot(以及可能的相關UA)。
  • 其他:一些第三方數據集/聚合抓取器也可能出現(例如 CCBot 等)。

提醒:清單不是越長越好。寫太多、寫錯名字,反而容易誤傷正常搜索。更穩的做法是:先管住你真正關心的幾家,再用日誌驗證。

四、最容易踩的 4 個坑

  1. 把自己也禁掉:寫了 Disallow: / 卻忘了爲正常搜索引擎保留規則,導致收錄下降。
  2. 只寫了“User-agent: *”:結果你想禁止的抓取器被“*”的規則放行了,或者相反誤傷了。
  3. 以爲 robots.txt 等於不被引用:就算禁止抓取,你的網站內容也可能通過別處的引用被總結。真正敏感內容不要公開。
  4. 改完不驗證:改完一定要訪問 /robots.txt 看是否生效,並在服務器日誌裏觀察特定 UA 是否還在訪問。

五、建議的“可持續維護方式”:一次設置 + 每月複查

最實用的維護方式是:第一次把 robots.txt 按“搜索抓取 / AI訓練抓取”兩類寫清;之後每月看一次服務器日誌,看看是否出現新的 AI 抓取 UA,再決定要不要加規則。這樣你不會被各種新名詞帶節奏,也不會因爲擔心 AI 就把 SEO 一刀切禁掉。