Reddit impedisce a Bing e ad altri motori di ricerca di estrarre i suoi dati, ma non a Google

Reddit impedisce a Bing e ad altri motori di ricerca di estrarre i suoi dati, ma non a Google

Cosa sapere

  • Reddit ha aggiornato il suo file robots.txt nel tentativo di impedire a Bing e ad altri motori di ricerca di esplorare il sito.
  • Reddit sostiene che la repressione sia il risultato del fallimento di accordi con motori di ricerca e aziende che non sono disposte a fare promesse vincolanti in merito all’utilizzo dei contenuti di Reddit.
  • Google è l’unico grande motore di ricerca in grado di far comparire nei suoi risultati di ricerca i contenuti recenti di Reddit, presumibilmente grazie al loro accordo da 60 milioni di dollari.

Reddit sta intensificando gli sforzi per impedire ai web crawler di utilizzare i suoi dati. Come risultato della sua repressione, attualmente nessun motore di ricerca importante, che sia Bing o DuckDuckGo, può fornire post e commenti recenti di Reddit nei propri risultati di ricerca. Nessuno, tranne Google.

Quindi se hai provato a cercare i risultati recenti di Reddit nella query del tuo motore di ricerca, sfortunatamente non troverai nulla. Confronta i risultati di ricerca su Bing e Google per la stessa query su una discussione di notizie recente:

Reddit è diventato sempre più protettivo nei confronti dei suoi dati negli ultimi tempi, e comprensibilmente. Essendo un popolare forum della comunità in cui le persone si riuniscono per discutere e parlare dei propri interessi, Reddit è una vera e propria miniera d’oro per la formazione AI. Ma Reddit capisce, così come le aziende AI, che il sito web è una risorsa inestimabile in un momento in cui i chatbot AI stanno prendendo il sopravvento sul web.

Per proteggere i propri interessi, Reddit ha aggiornato il suo file robots.txt per impedire ai web crawler di accedere al sito web. Questa mossa arriva dopo diversi tentativi falliti di raggiungere un accordo con i diversi motori di ricerca in merito al loro utilizzo dei contenuti di Reddit. Reprimere i motori di ricerca e impedire loro di raschiare i dati è un chiaro segnale che chi non ha un accordo non dovrebbe accedere ai contenuti di Reddit.

Al momento, Google è l’unico grande motore di ricerca che può far emergere post e commenti di Reddit nei risultati di ricerca. E non è una coincidenza. Sebbene un portavoce di Reddit abbia affermato in una dichiarazione che “[q]uesto non è affatto correlato alla nostra recente partnership con Google”, non è facile guardare oltre l’accordo da 60 milioni di dollari che ha permesso a Google di addestrare il suo modello di intelligenza artificiale sui dati di Reddit. Presumibilmente l’accordo copriva anche l’accesso in tempo reale ai contenuti di Reddit.

Il messaggio di Reddit è abbastanza chiaro: paga, o perdi. La maggior parte delle aziende, inclusa Microsoft, ha ceduto. In una dichiarazione, Microsoft ha affermato:

“Rispettiamo lo standard robots.txt. Bing ha smesso di scansionare Reddit dopo aver implementato il suo file robots.txt aggiornato il 1° luglio, che proibisce ogni scansione del suo sito.”

Coloro che usano motori di ricerca diversi da Google sono chiaramente svantaggiati, principalmente perché la funzione di ricerca di Reddit non funziona bene come i motori di ricerca nel trovare contenuti pertinenti. Per il momento, se vuoi ottenere risultati recenti da Reddit usando il trucco “site:reddit.com” o aggiungendo alla query la parola “Reddit”, dovrai prima aprire Google.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *