AI 스크래핑으로부터 웹사이트를 보호하는 방법
지금 당장, 귀하의 웹사이트는 ChatGPT와 같은 대규모 언어 모델을 훈련하기 위한 데이터 수집을 담당하는 배고픈 AI 스크래퍼를 위한 뷔페일 수 있습니다. 귀중한 콘텐츠가 다음 AI 생성 답변이 되는 것을 원하지 않는다면, 귀하의 웹사이트를 지적 재산에 대한 이 새로운 위협으로부터 보호해야 합니다.
AI 스크래핑을 방지하는 방법
웹사이트를 AI 스크래핑으로부터 보호하는 것은 생각보다 어렵지 않습니다. 사실, 기존 웹 스크래핑을 퇴치하는 데 사용되는 검증된 방법 중 다수는 AI 기반 대응책에도 똑같이 효과적입니다.
1. 특정 AI 봇을 차단하도록 robots.txt를 구성합니다.
robots.txt 파일은 OpenAI와 Anthropic에 속하는 크롤러를 포함하여 원치 않는 크롤러에 대한 웹사이트의 첫 번째 방어선입니다. 이 파일은 로봇 배제 프로토콜을 구현하고, 잘 행동하는 봇에게 사이트의 어떤 부분에 액세스할 수 있는지 알리는 데 사용됩니다.
웹사이트의 루트 디렉토리에서 robots.txt 파일을 찾을 수 있을 것입니다. 거기에 없다면, 어떤 텍스트 편집기를 사용해서든 만들 수 있습니다. 특정 AI 봇을 차단하려면 두 줄만 쓰면 됩니다.
첫 번째 줄은 봇을 식별하고 두 번째 줄은 어떤 페이지에도 접근하지 말라고 알려줍니다. 위의 예에서 우리는 OpenAI의 크롤러를 차단하고 있습니다. 차단을 고려해야 할 다른 AI 봇의 이름은 다음과 같습니다: Google-Extended, Claude-Web, FacebookBot, anthropic-ai.
2. 속도 제한 및 IP 차단 구현
속도 제한 및 IP 차단은 웹사이트로의 트래픽 흐름을 모니터링하고 제어하여 작동합니다.
- 속도 제한은 사용자(또는 봇)가 특정 시간 프레임 내에 할 수 있는 요청 수에 대한 상한을 설정합니다. 방문자가 이 제한을 초과하면 일시적으로 차단되거나 요청 속도가 느려집니다.
- 반면, IP 차단을 사용하면 스크래핑 활동의 소스로 식별된 특정 IP 주소나 범위를 완전히 차단할 수 있습니다.
이러한 기술을 구현하는 가장 쉬운 방법 중 하나는 인기 있는 콘텐츠 전송 네트워크(CDN) 및 보안 서비스인 Cloudflare를 사용하는 것입니다.
Cloudflare는 서버와 인터넷 사이에 위치하여 웹사이트를 보호하는 방패 역할을 합니다. 웹사이트를 Cloudflare 뒤에 배치하면 사용자 친화적인 대시보드에서 속도 제한 규칙을 구성 하고 IP 차단을 관리 할 수 있습니다.
3. CAPTCHA 및 기타 인간 확인 방법 사용
CAPTCHA(컴퓨터와 인간을 구분하기 위한 완전 자동화된 공개 튜링 테스트)는 인간 사용자와 봇을 구분하는 입증된 방법입니다.
가장 인기 있고 동시에 효과적인 CAPTCHA 중 하나는 Google의 reCAPTCHA입니다. 사용하려면 reCAPTCHA 관리 콘솔을 방문하여 API 키 쌍에 가입해야 합니다. 그런 다음 Advanced Google reCAPTCHA 와 같은 WordPress 플러그인을 사용하거나 공식 문서를 기반으로 사용자 정의 구현을 만들 수 있습니다 .
4. 동적 콘텐츠 렌더링 기술 활용
웹사이트를 AI 스크래핑으로부터 보호하는 또 다른 영리한 방법은 동적 콘텐츠 렌더링 기술을 사용하는 것입니다. 아이디어는 간단하지만 효과적입니다. AI 스크래핑 봇이 귀하의 사이트를 방문하면 가치 없는 콘텐츠나 아무것도 받지 못하는 반면, 일반 방문자는 정확하고 완전한 콘텐츠를 봅니다.
실제로는 다음과 같이 작동합니다.
- 귀하의 서버는 사이트에 액세스하는 에이전트를 식별하여 일반 사용자와 잠재적인 AI 봇을 구별합니다.
- 이러한 식별을 기반으로 서버는 JavaScript 로직을 사용하여 어떤 콘텐츠를 제공할지 결정합니다.
- 인간 방문자의 경우, 서버는 사이트의 전체 버전을 제공합니다. 봇의 경우, 다른 콘텐츠 세트를 제공합니다.
AI 스크래퍼는 일반적으로 JavaScript 코드를 처리하지 않고 기본 HTML 콘텐츠만 처리하므로 속았다는 사실을 알 수 있는 방법이 없습니다.
5. 콘텐츠 인증 및 게이트 액세스 설정
AI 스크래퍼로부터 콘텐츠를 보호하는 가장 확실한 방법 중 하나는 간단히 디지털 게이트 뒤에 두는 것입니다. 결국, 이러한 봇은 공개적으로 접근 가능한 것만 수집할 수 있습니다.
이러한 보호의 가장 간단한 형태는 사용자가 웹사이트의 특정 부분에 액세스하기 위해 로그인하도록 요구하는 것입니다. 이것만으로도 AI 스크래퍼 봇을 막을 수 있습니다. 일반적으로 AI 스크래퍼 봇은 계정을 만들거나 자신을 인증할 수 있는 기능이 없기 때문입니다.
한 단계 더 나아가고자 하는 사람들에게는 콘텐츠 일부 또는 전부를 유료 방화벽 뒤에 두는 것이 더욱 강력한 보호를 제공할 수 있습니다. 예를 들어 WordPress 사용자는 MemberPress 와 같은 플러그인을 사용하여 이를 쉽게 구현할 수 있습니다 .
물론, 보호와 접근성 사이에서 균형을 맞춰야 합니다. 모든 방문자가 귀하의 콘텐츠에 액세스하기 위해 계정을 만들 의향이 있는 것은 아니며, 비용을 지불할 의향이 있는 것도 아닙니다. 이 접근 방식의 실행 가능성은 전적으로 귀하의 콘텐츠의 특성과 대상 고객의 기대에 달려 있습니다.
6. 이미지에 워터마크를 넣거나 오염시키세요
디지털 워터마킹은 지적 재산을 보호하는 고전적인 기술이지만 AI 시대의 과제에 부응하기 위해 진화하고 있습니다. 이 분야에서 떠오르는 기술 중 하나는 데이터 포이즈닝으로, 사람이 알아차리지 못할 정도로 미묘한 콘텐츠 변경을 하는 것을 포함하지만, AI 시스템이 이를 스크래핑하거나 분석하려고 할 때 혼란을 주거나 방해할 수 있습니다.
Glaze 와 같은 도구는 AI 모델이 정확하게 처리하기 어려운 방식으로 이미지를 변경할 수 있지만, 인간 시청자에게는 정상적으로 보입니다. 또한 AI 훈련을 적극적으로 방해하여 데이터 포이즈닝을 한 단계 더 발전시킨 Nightshade 도 있습니다.
Nightshare는 이미지에 작은 변경을 도입함으로써 AI 모델이 훈련 중에 내리는 가정을 “깨뜨릴” 수 있습니다. AI 시스템이 이러한 오염된 이미지에서 학습하려고 하면 정확한 표현을 생성하는 데 어려움을 겪을 수 있습니다.
이론적으로, 귀하의 콘텐츠에 워터마크가 잘 찍혀 있거나 오염된 경우 여전히 스크래핑될 수 있지만 AI 회사는 이를 훈련 데이터에 포함할 가능성이 낮습니다. 그들은 심지어 미래에 데이터 세트를 오염시키지 않기 위해 귀하의 사이트에서 스크래핑하는 것을 적극적으로 피할 수도 있습니다.
7. DMCA 삭제 통지 및 저작권법 활용
이전 방법들은 기술적 조치를 사용하여 AI 스크래핑을 방지하는 데 중점을 두고 있지만, 때로는 디지털 밀레니엄 저작권법(DMCA) 고지 및 저작권법을 활용하여 다른 접근 방식을 취하는 것이 가장 좋습니다.
귀하의 콘텐츠가 스크래핑되어 허가 없이 사용되고 있다는 사실을 발견하면 DMCA 삭제 통지를 발행할 수 있습니다. 이는 귀하의 저작권이 있는 자료를 웹사이트나 플랫폼에서 삭제해 달라는 공식 요청입니다.
귀하의 DMCA 삭제 통지가 받아들여지지 않을 경우(그리고 받아들여지지 않을 것이라는 점에 대비하는 게 좋습니다) 소송을 제기하여 상황을 확대할 수 있으며, 이런 일을 하는 사람은 귀하가 처음은 아닐 것입니다.
OpenAI와 Microsoft는 현재 Center for Investigative Reporting과 다른 여러 뉴스 기관으로부터 저작권 침해로 소송을 당하고 있습니다. 이 소송은 AI 회사가 저작권이 있는 콘텐츠를 허가나 보상 없이 사용하여 모델을 훈련시키고 있다고 주장합니다. 이러한 소송의 결과는 아직 결정되지 않았지만 다른 사람들이 따라야 할 길을 열어줍니다.
DALL-E를 사용하여 만든 표지 이미지. 모든 스크린샷은 David Morelo가 촬영했습니다.
답글 남기기