Reddit blockiert das Scraping seiner Daten durch Bing und andere Suchmaschinen – aber nicht durch Google

Reddit blockiert das Scraping seiner Daten durch Bing und andere Suchmaschinen – aber nicht durch Google

Was Sie wissen sollten

  • Reddit hat seine robots.txt-Datei aktualisiert, um zu verhindern, dass Bing und andere Suchmaschinen die Site crawlen.
  • Reddit behauptet, das harte Vorgehen sei das Ergebnis gescheiterter Vereinbarungen mit Suchmaschinen und Unternehmen, die keine durchsetzbaren Zusagen hinsichtlich ihrer Nutzung von Reddit-Inhalten machen wollten.
  • Google ist die einzige große Suchmaschine, die aktuelle Inhalte von Reddit in ihren Suchergebnissen anzeigen kann, angeblich aufgrund des 60-Millionen-Dollar-Deals.

Reddit verstärkt seine Bemühungen, Webcrawler daran zu hindern, seine Daten zu verwenden. Als Folge dieses harten Durchgreifens kann derzeit keine große Suchmaschine, sei es Bing oder DuckDuckGo, aktuelle Reddit-Posts und -Kommentare in ihren Suchergebnissen anzeigen. Außer Google gibt es keine.

Wenn Sie also in Ihrer Suchmaschinenabfrage nach aktuellen Reddit-Ergebnissen suchen, werden Sie leider nicht fündig. Vergleichen Sie die Suchergebnisse bei Bing und Google für dieselbe Abfrage zu einer aktuellen Nachrichtendiskussion:

Reddit schützt seine Daten in letzter Zeit immer stärker, und das ist verständlich. Als beliebtes Community-Forum, in dem Menschen zusammenkommen, um über ihre Interessen zu diskutieren, ist Reddit eine wahre Goldgrube für KI-Training. Aber Reddit und die KI-Unternehmen wissen, was für eine unschätzbare Ressource die Website in einer Zeit ist, in der KI-Chatbots das Internet erobern.

Um seine Interessen zu schützen, hat Reddit seine robots.txt-Datei aktualisiert , um Webcrawlern den Zugriff auf die Website zu verwehren. Dieser Schritt erfolgte nach mehreren gescheiterten Versuchen, mit den verschiedenen Suchmaschinen eine Einigung über deren Verwendung der Reddit-Inhalte zu erzielen. Das Vorgehen gegen Suchmaschinen und das Verhindern des Datensammelns ist ein klares Zeichen dafür, dass diejenigen, die keine Einigung haben, nicht auf Reddit-Inhalte zugreifen sollten.

Derzeit ist Google die einzige große Suchmaschine, die Reddit-Beiträge und -Kommentare in den Suchergebnissen anzeigen kann. Und das ist auch kein Zufall. Obwohl ein Reddit-Sprecher in einer Erklärung erwähnte, dass „dies überhaupt nichts mit unserer jüngsten Partnerschaft mit Google zu tun hat“, ist es nicht leicht, über den 60-Millionen-Dollar-Deal hinwegzusehen, der es Google ermöglichte, sein KI-Modell mit Reddit-Daten zu trainieren. Angeblich umfasste der Deal auch den Echtzeitzugriff auf Reddit-Inhalte.

Die Botschaft von Reddit ist eindeutig: Zahlen Sie, oder verpassen Sie etwas. Die meisten Unternehmen, darunter auch Microsoft, haben nachgegeben. In einer Erklärung sagte Microsoft:

„Wir respektieren den robots.txt-Standard. Bing hat das Crawlen von Reddit eingestellt, nachdem sie am 1. Juli ihre aktualisierte robots.txt-Datei implementiert hatten, die das Crawlen ihrer Site untersagt.“

Wer Suchmaschinen anderer Anbieter als Google verwendet, ist klar im Nachteil, vor allem weil Reddits eigene Suchfunktion beim Auffinden relevanter Inhalte nicht so gut funktioniert wie die Suchmaschinen. Wer vorerst aktuelle Ergebnisse von Reddit mit dem Trick „site:reddit.com“ oder durch Anhängen des Wortes „Reddit“ an die Suchanfrage erhalten möchte, muss zunächst Google öffnen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert