Jak chronić swoją witrynę przed scrapingiem AI

2024/08/08

Obecnie Twoja witryna internetowa może być bufetem all-you-can-eat dla głodnych scraperów AI, których zadaniem jest zbieranie danych do szkolenia dużych modeli językowych, takich jak ChatGPT. Jeśli nie chcesz, aby Twoja cenna treść stała się kolejną odpowiedzią generowaną przez AI, musisz chronić swoją witrynę przed tym nowym zagrożeniem dla własności intelektualnej.

Jak zapobiegać scrapowaniu z AI

Ochrona witryny przed scrapingiem AI nie jest tak trudna, jak mogłoby się wydawać. W rzeczywistości wiele sprawdzonych metod walki z tradycyjnym scrapingiem internetowym jest równie skutecznych przeciwko ich odpowiednikom opartym na AI.

1. Skonfiguruj plik robots.txt, aby zablokować określone boty AI

Plik robots.txt jest pierwszą linią obrony Twojej witryny przed niechcianymi crawlerami, w tym tymi należącymi do OpenAI i Anthropic. Ten plik jest używany do implementacji protokołu Robots Exclusion Protocol i informowania grzecznych botów o tym, do których części Twojej witryny mają dostęp.

Tekst robotów Reddit — Plik robots.txt serwisu Reddit

Powinieneś być w stanie znaleźć plik robots.txt w katalogu głównym witryny. Jeśli go tam nie ma, możesz go utworzyć za pomocą dowolnego edytora tekstu. Aby zablokować określonego bota AI, musisz napisać tylko dwa wiersze:

Pierwszy wiersz identyfikuje bota, a drugi wiersz mówi mu, aby nie uzyskiwał dostępu do żadnych stron. W powyższym przykładzie blokujemy crawlera OpenAI. Oto nazwy niektórych innych botów AI, które powinieneś rozważyć zablokowanie: Google-Extended, Claude-Web, FacebookBot i anthropic-ai.

2. Wprowadź ograniczenie przepustowości i blokowanie IP

Ograniczanie przepustowości i blokowanie adresów IP polega na monitorowaniu i kontrolowaniu przepływu ruchu do Twojej witryny:

Ograniczenie szybkości ustala limit liczby żądań, jakie użytkownik (lub bot) może wysłać w określonym przedziale czasowym. Jeśli odwiedzający przekroczy ten limit, zostanie tymczasowo zablokowany lub jego żądania zostaną spowolnione.
Blokowanie adresów IP pozwala natomiast na całkowite zablokowanie konkretnych adresów IP lub zakresów, które zidentyfikowałeś jako źródła aktywności scrapującej.

Jednym z najprostszych sposobów wdrożenia tych technik jest wykorzystanie Cloudflare, popularnej sieci dostarczania treści (CDN) i usługi zabezpieczającej.

Cloudflare znajduje się pomiędzy Twoim serwerem a Internetem jako całością, gdzie działa jako tarcza ochronna dla Twojej witryny. Po umieszczeniu witryny za Cloudflare możesz skonfigurować reguły ograniczania przepustowości i zarządzać blokadami IP z przyjaznego dla użytkownika pulpitu.

3. Używaj CAPTCHA i innych metod weryfikacji wykonywanych przez człowieka

CAPTCHA (Completely Automated Public Turing test to Tell Computers and Humans Apart) to sprawdzona metoda odróżniania użytkowników od botów.

Demonstracja Captcha — Demonstracja reCAPTCHA firmy Google

Jedną z najpopularniejszych i jednocześnie skutecznych CAPTCHA jest reCAPTCHA firmy Google. Aby jej użyć, musisz odwiedzić konsolę administratora reCAPTCHA i zarejestrować się, aby uzyskać parę kluczy API. Następnie możesz użyć wtyczki WordPress, takiej jak Advanced Google reCAPTCHA lub utworzyć niestandardową implementację opartą na oficjalnej dokumentacji .

4. Zastosuj techniki dynamicznego renderowania treści

Innym sprytnym sposobem na ochronę witryny przed scrapingiem AI jest wykorzystanie technik dynamicznego renderowania treści. Pomysł jest prosty, ale skuteczny: gdy bot scrapingowy AI odwiedza Twoją witrynę, otrzymuje bezwartościową treść lub nic, podczas gdy zwykli użytkownicy widzą poprawną, pełną treść.

Przykład kodu źródłowego witryny internetowej

Oto jak to działa w praktyce:

Twój serwer identyfikuje agenta uzyskującego dostęp do witryny, rozróżniając zwykłych użytkowników od potencjalnych botów AI.
Na podstawie tej identyfikacji serwer decyduje, jaką treść dostarczyć, korzystając z logiki JavaScript.
Dla odwiedzających ludzi serwer dostarcza pełną wersję Twojej witryny. Dla botów serwuje inny zestaw treści.

Ponieważ narzędzia do scrapowania oparte na sztucznej inteligencji zazwyczaj nie przetwarzają żadnego kodu JavaScript (jedynie podstawową treść HTML), nie mają możliwości zorientowania się, że zostały oszukane.

5. Skonfiguruj uwierzytelnianie treści i dostęp z bramką

Jednym z najbardziej niezawodnych sposobów ochrony treści przed scraperami AI jest po prostu umieszczenie ich za bramą cyfrową. W końcu te boty mogą zbierać tylko to, co jest publicznie dostępne.

Najprostszą formą tej ochrony jest wymaganie od użytkowników logowania się w celu uzyskania dostępu do określonych części witryny. Samo to może odstraszyć boty AI scraper, ponieważ zazwyczaj nie mają możliwości tworzenia kont ani uwierzytelniania się.

Witryna wtyczki Memberpress — Wtyczka MemberPress

Dla tych, którzy chcą pójść o krok dalej, umieszczenie części lub całości treści za paywallem może zapewnić jeszcze silniejszą ochronę. Użytkownicy WordPressa, na przykład, mogą łatwo wdrożyć to za pomocą wtyczek takich jak MemberPress .

Oczywiście, musisz znaleźć równowagę między ochroną a dostępnością. Nie wszyscy odwiedzający mogą być skłonni założyć konto tylko po to, aby uzyskać dostęp do Twoich treści, nie mówiąc już o płaceniu za nie. Wykonalność tego podejścia zależy całkowicie od charakteru Twoich treści i oczekiwań odbiorców.

6. Oznacz zdjęcia znakiem wodnym lub zatruj je

Cyfrowe znakowanie wodne to klasyczna technika ochrony własności intelektualnej, ale ewoluuje, aby sprostać wyzwaniom ery AI. Jedną z pojawiających się w tej przestrzeni technik jest zatruwanie danych, które polega na wprowadzaniu subtelnych zmian w treści, które są niezauważalne dla ludzi, ale mogą dezorientować lub zakłócać działanie systemów AI próbujących je zeskrobać lub przeanalizować.

Narzędzia takie jak Glaze mogą zmieniać obrazy w sposób utrudniający modelom AI dokładne przetwarzanie, a jednocześnie wyglądający normalnie dla ludzkich widzów. Istnieje również Nightshade , który idzie o krok dalej w zatruwaniu danych, aktywnie ingerując w szkolenie AI.

Zatrucie obrazowe psiankowatych — Przykłady zatrucia obrazem Nightshade

Wprowadzając drobne zmiany do obrazów, Nightshare może „złamać” założenia, jakie modele AI przyjmują podczas treningu. Jeśli system AI próbuje uczyć się z tych zatrutych obrazów, może mieć trudności z generowaniem dokładnych reprezentacji.

Teoretycznie, jeśli Twoja treść jest dobrze oznaczona znakiem wodnym lub zatruta, nadal może zostać zeskrobana, ale firmy AI będą mniej skłonne do uwzględnienia jej w swoich danych treningowych. Mogą nawet aktywnie unikać zeskrobania Twojej witryny w przyszłości, aby zapobiec zanieczyszczeniu swoich zestawów danych.

7. Skorzystaj z powiadomień DMCA o usunięciu treści i praw autorskich

Podczas gdy poprzednie metody skupiały się na zapobieganiu scrapowaniu danych przez sztuczną inteligencję za pomocą środków technicznych, czasami lepiej jest zastosować inne podejście i skorzystać z powiadomień na mocy ustawy Digital Millennium Copyright Act (DMCA) oraz przepisów dotyczących praw autorskich.

Jeśli odkryjesz, że Twoja treść została zeskrobana i jest używana bez pozwolenia, możesz wysłać zawiadomienie DMCA o usunięciu. Jest to formalne żądanie usunięcia Twojego materiału chronionego prawem autorskim ze strony internetowej lub platformy.

Przykładowy komunikat o usunięciu naruszenia przepisów DMCA — Przykładowy list z powiadomieniem o usunięciu DMCA

Jeśli Twoje zawiadomienia o usunięciu treści na mocy ustawy DMCA nie zostaną uwzględnione (a lepiej bądź przygotowany na to, że tak się nie stanie), możesz zaostrzyć sytuację, składając pozew. Nie będziesz pierwszą osobą, która to zrobi.

OpenAI i Microsoft są obecnie pozywane za naruszenia praw autorskich przez Center for Investigative Reporting, wraz z kilkoma innymi organizacjami informacyjnymi. Te pozwy twierdzą, że firmy AI wykorzystują treści chronione prawem autorskim bez pozwolenia lub wynagrodzenia w celu trenowania swoich modeli. Chociaż wynik tych spraw nie został jeszcze ustalony, torują one drogę innym.

Obraz na okładce stworzony przy użyciu DALL-E. Wszystkie zrzuty ekranu autorstwa Davida Morelo.