Reddit impide que Bing y otros motores de búsqueda recopilen sus datos, pero no Google

Reddit impide que Bing y otros motores de búsqueda recopilen sus datos, pero no Google

Qué saber

  • Reddit ha actualizado su archivo robots.txt en un esfuerzo por evitar que Bing y otros motores de búsqueda rastreen el sitio.
  • Reddit afirma que la ofensiva es resultado de acuerdos fallidos con motores de búsqueda y empresas que no están dispuestas a hacer promesas ejecutables respecto de su uso del contenido de Reddit.
  • Google es el único motor de búsqueda importante que puede mostrar contenido reciente de Reddit en sus resultados de búsqueda, supuestamente gracias a su acuerdo de 60 millones de dólares.

Reddit está intensificando sus esfuerzos para evitar que los rastreadores web utilicen sus datos. Como resultado de sus medidas, actualmente ningún motor de búsqueda importante, ya sea Bing o DuckDuckGo, puede proporcionar publicaciones y comentarios recientes de Reddit en sus resultados de búsqueda. Ninguno, excepto Google.

Por lo tanto, si intentas buscar resultados recientes de Reddit en tu motor de búsqueda, lamentablemente no encontrarás ninguno. Compara los resultados de búsqueda en Bing y Google para la misma consulta sobre una discusión de noticias reciente:

En los últimos tiempos, Reddit ha ido protegiendo cada vez más sus datos, y es comprensible. Al ser un foro comunitario popular donde la gente se reúne para debatir y hablar sobre sus intereses, Reddit es una auténtica mina de oro para la formación en inteligencia artificial. Pero Reddit entiende, al igual que las empresas de inteligencia artificial, lo valioso que es el recurso del sitio web en un momento en el que los chatbots de inteligencia artificial están conquistando la web.

Para proteger sus intereses, Reddit ha actualizado su archivo robots.txt para evitar que los rastreadores web accedan al sitio web. Esta medida se produce después de varios intentos fallidos de llegar a un acuerdo con los diferentes motores de búsqueda sobre el uso que hacen del contenido de Reddit. Tomar medidas enérgicas contra los motores de búsqueda y evitar que extraigan datos es una clara señal de que quienes no tienen un acuerdo no deberían acceder al contenido de Reddit.

En este momento, Google es el único motor de búsqueda importante que puede mostrar publicaciones y comentarios de Reddit en los resultados de búsqueda. Y no es una coincidencia. Aunque un portavoz de Reddit mencionó en una declaración que «esto no está relacionado en absoluto con nuestra reciente asociación con Google», no es fácil mirar más allá del acuerdo de 60 millones de dólares que permitió a Google entrenar su modelo de inteligencia artificial con los datos de Reddit. Supuestamente, el acuerdo también cubría el acceso en tiempo real al contenido de Reddit.

El mensaje de Reddit es bastante claro: paga o te quedas sin nada. La mayoría de las empresas, incluida Microsoft, han cedido. En una declaración, Microsoft dijo:

“Respetamos el estándar robots.txt. Bing dejó de rastrear Reddit después de implementar su archivo robots.txt actualizado el 1 de julio, que prohíbe todo rastreo de su sitio”.

Quienes utilizan buscadores distintos de Google se encuentran en clara desventaja, principalmente porque la función de búsqueda de Reddit no funciona tan bien como los buscadores a la hora de encontrar contenido relevante. Por el momento, si quieres obtener resultados recientes de Reddit utilizando el truco “site:reddit.com” o añadiendo la palabra “Reddit” a la consulta, tendrás que abrir primero Google.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *