Reddit empêche Bing et d’autres moteurs de recherche de récupérer ses données – mais pas Google

Reddit empêche Bing et d’autres moteurs de recherche de récupérer ses données – mais pas Google

Ce qu’il faut savoir

  • Reddit a mis à jour son fichier robots.txt afin d’empêcher Bing et d’autres moteurs de recherche d’explorer le site.
  • Reddit affirme que cette répression est le résultat d’accords ratés avec les moteurs de recherche et d’entreprises peu disposées à faire des promesses exécutoires concernant leur utilisation du contenu Reddit.
  • Google est le seul moteur de recherche majeur capable de faire apparaître le contenu récent de Reddit dans ses résultats de recherche, apparemment en raison de son accord de 60 millions de dollars.

Reddit intensifie ses efforts pour empêcher les robots d’indexation d’utiliser ses données. En raison de cette répression, aucun moteur de recherche majeur, que ce soit Bing ou DuckDuckGo, ne peut actuellement fournir les publications et commentaires récents de Reddit dans ses résultats de recherche. Aucun, à l’exception de Google.

Si vous avez essayé de rechercher des résultats récents sur Reddit dans votre moteur de recherche, vous n’aurez malheureusement pas de résultats satisfaisants. Comparez les résultats de recherche sur Bing et Google pour la même requête concernant une discussion d’actualité récente :

Reddit se montre de plus en plus protecteur de ses données ces derniers temps, et c’est compréhensible. En tant que forum communautaire populaire où les gens se réunissent pour discuter et parler de leurs intérêts, Reddit est une véritable mine d’or pour la formation en IA. Mais Reddit comprend, tout comme les entreprises d’IA, à quel point le site Web est une ressource inestimable à l’heure où les chatbots IA envahissent le Web.

Pour protéger ses intérêts, Reddit a mis à jour son fichier robots.txt pour empêcher les robots d’indexation d’accéder au site. Cette mesure fait suite à plusieurs tentatives infructueuses de parvenir à un accord avec les différents moteurs de recherche concernant leur utilisation du contenu de Reddit. Le fait de réprimer les moteurs de recherche et de les empêcher de récupérer des données est un signal clair que ceux qui n’ont pas d’accord ne devraient pas accéder au contenu de Reddit.

À l’heure actuelle, Google est le seul moteur de recherche majeur capable de faire apparaître les publications et commentaires de Reddit dans les résultats de recherche. Et ce n’est pas une coïncidence. Bien qu’un porte-parole de Reddit ait mentionné dans un communiqué que « cela n’a aucun rapport avec notre récent partenariat avec Google », il n’est pas facile de faire abstraction de l’accord de 60 millions de dollars qui a permis à Google d’entraîner son modèle d’IA sur les données de Reddit. L’accord aurait également couvert l’accès en temps réel au contenu de Reddit.

Le message de Reddit est assez clair : payez, sinon vous n’aurez rien à perdre. La plupart des entreprises, y compris Microsoft, ont concédé leur dette. Dans un communiqué, Microsoft a déclaré :

« Nous respectons la norme robots.txt. Bing a arrêté d’explorer Reddit après la mise en œuvre de son fichier robots.txt mis à jour le 1er juillet, qui interdit toute exploration de son site. »

Ceux qui utilisent des moteurs de recherche autres que Google sont clairement désavantagés, principalement parce que la fonction de recherche de Reddit ne fonctionne pas aussi bien que les moteurs de recherche pour trouver du contenu pertinent. Pour le moment, si vous souhaitez obtenir des résultats récents de Reddit en utilisant l’astuce « site:reddit.com » ou en ajoutant le mot « Reddit » à la requête, vous devez d’abord ouvrir Google.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *