如何保護您的網站免受人工智慧抓取

如何保護您的網站免受人工智慧抓取
防止人工智慧抓取

現在,您的網站可能是飢餓的 AI 爬蟲的自助餐,其任務是收集資料以訓練 ChatGPT 等大型語言模型。如果您不希望您的有價值的內容成為下一個人工智慧生成的答案,那麼您需要保護您的網站免受這種新的智慧財產權威脅。

如何防止人工智慧抓取

保護您的網站免受人工智慧抓取並不像看起來那麼具有挑戰性。事實上,許多用於對抗傳統網路抓取的經過驗證的方法對於人工智慧驅動的對手同樣有效。

1.配置robots.txt以阻止特定的AI機器人

robots.txt 檔案是您網站針對不需要的爬蟲(包括那些屬於 OpenAI 和 Anthropic 的爬蟲)的第一道防線。該文件用於實施機器人排除協議,並告知行為良好的機器人它們可以訪問您網站的哪些部分。

Reddit 機器人 TXT
Reddit 的 robots.txt 文件

您應該能夠在網站的根目錄中找到 robots.txt 檔案。如果它不存在,那麼您可以使用任何文字編輯器來建立它。要阻止特定的人工智慧機器人,您只需編寫兩行:

第一行標識機器人,第二行告訴它不要訪問任何頁面。在上面的範例中,我們阻止了 OpenAI 的爬蟲。以下是您應該考慮阻止的其他一些人工智慧機器人的名稱:Google-Extended、Claude-Web、FacebookBot 和 anthropic-ai。

2. 實施限速和IP封堵

Cloudflare DNS 保護
Cloudflare DNS 保護

速率限制和 IP 阻止透過監視和控制網站流量來實現:

  • 速率限制設定了使用者(或機器人)在特定時間範圍內可以發出的請求數量的上限。如果訪客超過此限制,他們會被暫時封鎖或他們的請求會減慢。
  • 另一方面,IP 封鎖可讓您徹底禁止您確定為抓取活動來源的特定 IP 位址或範圍。

實施這些技術最簡單的方法之一是使用 Cloudflare,這是一種流行的內容交付網路 (CDN) 和安全服務。

Cloudflare 位於您的伺服器和整個網際網路之間,可作為您網站的保護盾。將網站置於 Cloudflare 後,您可以從使用者友好的儀表板配置速率限制規則管理 IP 區塊。

3. 使用驗證碼和其他手動驗證方法

驗證碼(區分電腦和人類的完全自動化公共圖靈測試)是一種經過驗證的區分人類使用者和機器人的方法。

驗證碼演示
Google reCAPTCHA 演示

最受歡迎且同時也是最有效的驗證碼之一是 Google 的 reCAPTCHA。要使用它,您需要存取reCAPTCHA 管理控制台並註冊 API 金鑰對。然後您可以使用 WordPress 外掛程式(例如Advanced Google reCAPTCHA)或根據官方文件建立自訂實作。

4.採用動態內容渲染技術

保護網站免受人工智慧抓取的另一種巧妙方法是使用動態內容渲染技術。這個想法很簡單但有效:當人工智慧抓取機器人訪問您的網站時,它會收到無價值的內容或根本沒有任何內容,而普通訪客會看到正確的完整內容。

網站原始碼範例
網站原始碼範例

以下是它在實踐中的運作方式:

  • 您的伺服器識別造訪該網站的代理,區分普通用戶和潛在的人工智慧機器人。
  • 根據此標識,您的伺服器決定使用 JavaScript 邏輯提供哪些內容。
  • 對於人類訪客,伺服器會提供網站的完整版本。對於機器人來說,它提供一組不同的內容。

由於人工智慧抓取工具通常不處理任何 JavaScript 程式碼(僅處理基本的 HTML 內容),因此他們無法意識到自己被愚弄了。

5. 設定內容身份驗證和門控訪問

保護您的內容免受人工智慧抓取的最萬無一失的方法之一就是簡單地將其放在數位門後面。畢竟,這些機器人只能取得可公開存取的內容。

這種保護的最簡單形式是要求使用者登入才能存取您網站的某些部分。僅此一點就可以阻止人工智慧抓取機器人,因為它們通常沒有能力創建帳戶或驗證自己的身份。

Memberpress 外掛網站
會員新聞插件

對於那些希望更進一步的人來說,將部分或全部內容置於付費專區可以提供更強大的保護。例如,WordPress 使用者可以使用MemberPress等外掛程式輕鬆實現這一點。

當然,您需要在保護和可訪問性之間取得平衡。並非所有訪客都願意建立帳戶只是為了存取您的內容,更不用說付費了。這種方法的可行性完全取決於內容的性質和受眾的期望。

6.給你的圖像加浮水印或毒害

數位浮水印是保護智慧財產權的經典技術,但它正在不斷發展以應對人工智慧時代的挑戰。該領域的一項新興技術是數據中毒,它涉及對內容進行微妙的更改,這些更改人類無法察覺,但可能會混淆或破壞試圖抓取或分析內容的人工智慧系統。

像Glaze這樣的工具可以改變圖像,使人工智慧模型難以準確處理圖像,同時在人類觀眾看來仍然正常。還有Nightshade,它透過主動幹擾人工智慧訓練,使資料中毒更進一步。

茄屬植物圖像中毒
茄屬圖像中毒範例

透過對影像進行微小的修改,Nightshare 可以「打破」人工智慧模型在訓練過程中做出的假設。如果人工智慧系統試圖從這些有毒圖像中學習,它可能很難產生準確的表示。

理論上,如果你的內容帶有很好的水印或中毒,它仍然可能會被刪除,但人工智慧公司不太可能將其包含在他們的訓練資料中。他們甚至可能會主動避免將來從您的網站上抓取數據,以防止污染他們的數據集。

雖然先前的方法著重於使用技術措施來防止人工智慧抓取,但有時最好利用數位千禧年版權法 (DMCA) 通知和版權法來採取不同的方法。

如果您發現您的內容已被抓取並未經許可而被使用,您可以發出 DMCA 刪除通知。這是一份正式請求,要求從網站或平台上刪除您受版權保護的資料。

Dmca 刪除通知範​​例
DMCA 刪除通知函樣本

如果您的 DMCA 刪除通知未履行(您最好做好準備,他們不會這樣做),您可以透過提起訴訟來升級,而您不會是第一個這樣做的人。

OpenAI 和微軟目前因侵犯版權而被調查報道中心以及其他幾家新聞機構起訴。這些訴訟指控人工智慧公司在未經許可或無補償的情況下使用受版權保護的內容來訓練他們的模型。雖然這些案件的結果尚未確定,但它們為其他案件鋪平了道路。

使用 DALL-E 建立的封面圖像。所有螢幕截圖均由 David Morelo 製作。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *