很多外貿站主理人現在會問一個很現實的問題:我希望 AI 在回答問題時可以引用我的網頁(帶來品牌曝光和潛在詢盤),但我不希望我的內容被拿去訓練模型。能不能同時做到?
答案是:你可以用 robots.txt 做到“儘量控制”。最常見的做法是允許某些用於搜索/引用的抓取器,同時禁止用於訓練的抓取器。這篇文章用最小化的例子把思路講清楚,並附一個常見 AI 爬蟲清單,方便你對照。
先說明一個邊界:
robots.txt 是行業通用的“爬蟲訪問規則”。主流搜索引擎通常會遵守,但它並不是法律協議,也不是強制的安全機制。真正敏感的內容,仍然應該用登錄、權限、或服務器層面的訪問控制來保護。
一、先搞懂:GPTBot 和 OAI-SearchBot 分別是什麼?
你可以把它們理解成兩種不同目的的“訪客”。GPTBot 更偏向“模型訓練/改進”的抓取用途;OAI-SearchBot 更偏向“搜索/引用/回答”這類場景的抓取用途(具體細節會隨時間調整)。你想要“允許搜索引用、禁止訓練抓取”,就是把兩類訪客區別對待。
注意:不同公司會有不同的抓取器名字,甚至同一家公司也可能有多個 User-agent。你要做的是建立一個思路:按目的分組管理,並定期複查。
二、最小可用 robots.txt 示例:允許引用,禁止訓練
下面是一段示例配置。它表達的意思是:禁止 GPTBot 抓取全站,但允許 OAI-SearchBot 抓取全站。同時,別忘了把 sitemap 寫進去,方便發現頁面。
User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Allow: / User-agent: * Allow: / Sitemap: https://你的域名.com/sitemap.xml
這段寫法的核心不是“抄代碼”,而是理解規則:robots.txt 是按 User-agent 分組匹配的。你把不同抓取器分開寫,就能表達不同策略。
三、常見AI爬蟲清單(你可以先從這幾個開始)
不同站點面對的爬蟲不一樣,你不需要一次性寫全世界的清單。先把最常見的幾類寫進去,後續再根據服務器日誌補齊即可。常見的包括:
- OpenAI:GPTBot、OAI-SearchBot(有時還會出現其他相關UA)。
- Google:Googlebot(搜索抓取)、Google-Extended(用於AI相關用途的控制項)。
- Anthropic:ClaudeBot(不同版本可能有不同UA)。
- Perplexity:PerplexityBot(以及可能的相關UA)。
- 其他:一些第三方數據集/聚合抓取器也可能出現(例如 CCBot 等)。
提醒:清單不是越長越好。寫太多、寫錯名字,反而容易誤傷正常搜索。更穩的做法是:先管住你真正關心的幾家,再用日誌驗證。
四、最容易踩的 4 個坑
- 把自己也禁掉:寫了
Disallow: /卻忘了爲正常搜索引擎保留規則,導致收錄下降。 - 只寫了“User-agent: *”:結果你想禁止的抓取器被“*”的規則放行了,或者相反誤傷了。
- 以爲 robots.txt 等於不被引用:就算禁止抓取,你的網站內容也可能通過別處的引用被總結。真正敏感內容不要公開。
- 改完不驗證:改完一定要訪問
/robots.txt看是否生效,並在服務器日誌裏觀察特定 UA 是否還在訪問。
五、建議的“可持續維護方式”:一次設置 + 每月複查
最實用的維護方式是:第一次把 robots.txt 按“搜索抓取 / AI訓練抓取”兩類寫清;之後每月看一次服務器日誌,看看是否出現新的 AI 抓取 UA,再決定要不要加規則。這樣你不會被各種新名詞帶節奏,也不會因爲擔心 AI 就把 SEO 一刀切禁掉。
延伸閱讀
- ChatGPT 搜索收錄怎麼做:OAI-SearchBot 會抓什麼?站點要準備哪些頁面 · 2025-12-30 · 10分鐘
- robots.txt 怎麼寫纔不誤傷收錄:外貿站常見規則與檢查清單 · 2025-10-16 · 9分鐘
- WordPress 6.9 更新速讀:外貿站最值得用的 8 個變化(含升級前檢查) · 2026-01-09 · 12分鐘
- WordPress 6.8 的 bcrypt 密碼升級意味着什麼?對安全/登錄的影響 · 2026-01-09 · 10分鐘
- Speculative Loading 是啥:6.8 的“提前加載”能幫哪些頁面 · 2026-01-09 · 11分鐘
- Interactivity API 初體驗:純前端交互能做到什麼程度(6.8) · 2026-01-09 · 10分鐘