Cómo proteger su sitio web del scraping de la IA

2024/08/08

En este momento, su sitio web puede ser un bufé libre para los hambrientos scrapers de IA encargados de la recopilación de datos para el entrenamiento de grandes modelos de lenguaje como ChatGPT. Si no quiere que su valioso contenido se convierta en la próxima respuesta generada por IA, entonces necesita proteger su sitio web de esta nueva amenaza a la propiedad intelectual.

Cómo evitar el scraping por parte de la IA

Proteger su sitio web del scraping de la IA no es tan difícil como parece. De hecho, muchos de los métodos probados y comprobados que se utilizan para combatir el scraping web tradicional son igualmente efectivos contra sus contrapartes impulsadas por IA.

1. Configure robots.txt para bloquear bots de IA específicos

El archivo robots.txt es la primera línea de defensa de su sitio web contra rastreadores no deseados, incluidos los que pertenecen a OpenAI y Anthropic. Este archivo se utiliza para implementar el Protocolo de exclusión de robots e informar a los robots que se comportan correctamente sobre las partes de su sitio a las que pueden acceder.

Mensajes de texto de robots de Reddit — Archivo robots.txt de Reddit

Deberías poder encontrar el archivo robots.txt en el directorio raíz de un sitio web. Si no está ahí, puedes crearlo con cualquier editor de texto. Para bloquear un bot de IA específico, solo necesitas escribir dos líneas:

La primera línea identifica al bot y la segunda le indica que no acceda a ninguna página. En el ejemplo anterior, estamos bloqueando el rastreador de OpenAI. Estos son los nombres de otros bots de IA que debería considerar bloquear: Google-Extended, Claude-Web, FacebookBot y anthropic-ai.

2. Implementar limitación de velocidad y bloqueo de IP

Protección de DNS de Cloudflare — Protección DNS de Cloudflare

La limitación de velocidad y el bloqueo de IP funcionan monitoreando y controlando el flujo de tráfico a su sitio web:

La limitación de velocidad establece un límite en la cantidad de solicitudes que un usuario (o bot) puede realizar dentro de un período de tiempo específico. Si un visitante excede este límite, se lo bloquea temporalmente o se reducen sus solicitudes.
El bloqueo de IP, por otro lado, te permite prohibir por completo direcciones IP o rangos específicos que hayas identificado como fuentes de actividad de raspado.

Una de las formas más sencillas de implementar estas técnicas es utilizando Cloudflare, una popular red de distribución de contenido (CDN) y servicio de seguridad.

Cloudflare se ubica entre su servidor e Internet en general, donde actúa como un escudo protector para su sitio web. Una vez que haya colocado su sitio web detrás de Cloudflare, puede configurar reglas de limitación de velocidad y administrar bloqueos de IP desde un panel de control fácil de usar.

3. Utilice CAPTCHA y otros métodos de verificación humana

Los CAPTCHA (prueba de Turing pública completamente automatizada para distinguir computadoras de humanos) son un método probado y verdadero para separar a los usuarios humanos de los bots.

Demostración de Captcha — Demostración del reCAPTCHA de Google

Uno de los CAPTCHA más populares y, al mismo tiempo, efectivos es el reCAPTCHA de Google. Para usarlo, debes visitar la consola de administración de reCAPTCHA y registrarte para obtener un par de claves API. Luego, puedes usar un complemento de WordPress como Advanced Google reCAPTCHA o crear una implementación personalizada basada en la documentación oficial .

4. Emplee técnicas de representación de contenido dinámico

Otra forma inteligente de proteger su sitio web del scraping de la IA es utilizar técnicas de renderizado de contenido dinámico. La idea es simple pero efectiva: cuando un robot de scraping de IA visita su sitio, recibe contenido sin valor o nada en absoluto, mientras que los visitantes habituales ven el contenido correcto y completo.

Ejemplo de código fuente de un sitio web

Así es como funciona en la práctica:

Su servidor identifica al agente que accede al sitio, distinguiendo entre usuarios habituales y posibles bots de IA.
En función de esta identificación, su servidor decide qué contenido servir utilizando la lógica de JavaScript.
Para los visitantes humanos, el servidor ofrece la versión completa de su sitio. Para los robots, ofrece un conjunto de contenido diferente.

Dado que los raspadores de IA generalmente no procesan ningún código JavaScript (solo contenido HTML básico), no tienen forma de darse cuenta de que han sido engañados.

5. Configurar la autenticación de contenido y el acceso restringido

Una de las formas más infalibles de proteger su contenido de los robots de inteligencia artificial es simplemente colocarlo detrás de una puerta digital. Después de todo, estos robots solo pueden recopilar lo que es de acceso público.

La forma más sencilla de esta protección es exigir a los usuarios que inicien sesión para acceder a determinadas partes de su sitio web. Esto por sí solo puede disuadir a los robots de extracción de datos de IA, ya que normalmente no tienen la capacidad de crear cuentas ni autenticarse.

Sitio web del complemento Memberpress — Complemento MemberPress

Para aquellos que quieran ir un paso más allá, poner parte o la totalidad de su contenido detrás de un muro de pago puede brindar una protección aún más fuerte. Los usuarios de WordPress, por ejemplo, pueden implementar esto fácilmente usando complementos como MemberPress .

Por supuesto, es necesario encontrar un equilibrio entre la protección y la accesibilidad. Es posible que no todos los visitantes estén dispuestos a crear una cuenta solo para acceder a su contenido, y mucho menos a pagar por ello. La viabilidad de este enfoque depende completamente de la naturaleza de su contenido y de las expectativas de su audiencia.

6. Pon marcas de agua o envenena tus imágenes

La marca de agua digital es una técnica clásica para proteger la propiedad intelectual, pero está evolucionando para afrontar los desafíos de la era de la inteligencia artificial. Una técnica emergente en este ámbito es el envenenamiento de datos, que consiste en realizar cambios sutiles en el contenido que son imperceptibles para los humanos, pero que pueden confundir o interrumpir los sistemas de inteligencia artificial que intentan extraer información o analizarla.

Herramientas como Glaze pueden alterar imágenes de manera que los modelos de IA no puedan procesarlas con precisión, pero que sigan luciendo normales para los espectadores humanos. También existe Nightshade , que lleva el envenenamiento de datos un paso más allá al interferir activamente con el entrenamiento de la IA.

Envenenamiento por imagen de belladona — Ejemplos de envenenamiento de imágenes por Nightshade

Al introducir pequeñas alteraciones en las imágenes, Nightshare puede “romper” las suposiciones que hacen los modelos de IA durante el entrenamiento. Si un sistema de IA intenta aprender de estas imágenes envenenadas, puede tener dificultades para generar representaciones precisas.

En teoría, si su contenido tiene una marca de agua o está envenenado, es posible que lo rastree, pero las empresas de IA tendrán menos probabilidades de incluirlo en sus datos de entrenamiento. Incluso pueden evitar activamente el raspado de su sitio en el futuro para evitar contaminar sus conjuntos de datos.

7. Aprovecha los avisos de eliminación de la DMCA y las leyes de derechos de autor

Si bien los métodos anteriores se centran en evitar el scraping de IA mediante medidas técnicas, a veces es mejor adoptar un enfoque diferente aprovechando los avisos de la Ley de Derechos de Autor de la Era Digital (DMCA) y las leyes de derechos de autor.

Si descubre que su contenido ha sido extraído y utilizado sin permiso, puede emitir un aviso de eliminación de DMCA. Se trata de una solicitud formal para que su material protegido por derechos de autor sea eliminado de un sitio web o plataforma.

Ejemplo de aviso de eliminación de DMCA — Ejemplo de carta de aviso de eliminación de DMCA

En caso de que sus avisos de eliminación de DMCA no se respeten (y es mejor que esté preparado para que no sea así), puede escalar el problema presentando una demanda, y no sería el primero en hacerlo.

Actualmente, el Centro de Periodismo de Investigación y otras organizaciones de noticias están demandando a OpenAI y Microsoft por violaciones de derechos de autor. Estas demandas alegan que las empresas de inteligencia artificial están utilizando contenido protegido por derechos de autor sin permiso ni compensación para entrenar a sus modelos. Si bien el resultado de estos casos aún está por determinarse, allanan el camino para que otros los sigan.

Imagen de portada creada con DALL-E. Todas las capturas de pantalla son de David Morelo.