Ist GPTZero genau? Kann es Chat GPT erkennen? Folgendes haben unsere Tests ergeben

2023/02/16

ChatGPT hat die Welt im Sturm erobert, seit es im November 2022 in die Nachrichten kam. Die Leute haben begonnen, es in ihrer täglichen Routine zu verwenden, da es eine große Hilfe sein kann, logische Antworten auf Ihre Fragen zu den Dingen um Sie herum zu erhalten. Mit seiner zunehmenden Popularität hat das Tool immer mehr große Sprachmodelle inspiriert, sogar von Google und Meta, die ebenso besorgniserregend wie aufregend sein können.

In den Monaten seit seiner Einführung gab es mehrere Fälle, in denen Studenten ChatGPT missbrauchten, um Aufsätze zu erstellen und Aufgaben einzureichen, da das Tool mit nur einer einfachen Eingabeaufforderung umfassende Inhalte generieren kann. Um dem Missbrauch von KI-generierten Inhalten entgegenzuwirken, gibt es jetzt ein neues Tool – GPTZero, mit dem Pädagogen und Journalisten überprüfen können, ob ein Text mit KI erstellt wurde oder nicht.

In diesem Beitrag erklären wir, was GPTZero ist, wie Sie es verwenden können und wie weit Sie darauf vertrauen können, dass es einen menschlichen Artikel zuverlässig von KI-generierten Inhalten erkennt und unterscheidet.

Was ist GPTZero?

GPTZero wurde vom Studenten der Princeton University, Edward Tian, entwickelt und ist eine Software, die anhand statistischer Analysen erkennt, ob ein Text von einem Menschen geschrieben oder von einem KI-Inhaltsgenerator wie ChatGPT kopiert wurde. Das Tool wurde entwickelt, um Menschen in Bildung, Journalismus und anderen Sektoren dabei zu helfen, KI-Plagiate zu bekämpfen und zu wissen, wann sie Texte anzeigen, die von großen Sprachmodellen (LLMs) generiert wurden, von denen eines ChatGPT ist.

Mit der ständig wachsenden Popularität von Tools wie ChatGPT haben viele Menschen die von KI-Diensten generierten schriftlichen Inhalte missbraucht und als ihre eigenen weitergegeben. GPTZero verspricht, die Nutzung von KI-Arbeit transparent zu machen, indem es die Komplexität von Texten anhand von zwei Hauptfaktoren erkennt – Perplexity und Burstiness.

Verwirrung – bezieht sich auf das Maß der Zufälligkeit des Eingabetextes, den GPTZero damit vergleicht, wie Text aus einem Sprachmodell aussehen würde. Je höher diese Punktzahl ist, desto wahrscheinlicher ist es, dass der Text von einem Menschen und nicht von einer Maschine geschrieben wurde.

Burstiness – bezieht sich auf die Verteilung von Texten in einem Text. Während von KI generierter Text überall gleich lang ist, können von Menschen geschriebene Texte sowohl lange als auch kurze Sätze mit glatten Mustern enthalten. Je höher der Burstiness-Score eines Textes ist, desto wahrscheinlicher ist es, dass er von einem Menschen geschrieben wurde.

Neben der Bestimmung, ob der Text, den Sie in das Tool kopiert haben, von KI oder Menschen geschrieben wurde, kann GPTZero auch Teile des Textes erkennen, die möglicherweise mit einem LLM generiert wurden. Wenn ein Artikel sowohl mit KI als auch mit menschlicher Arbeit geschrieben wurde, hebt das Tool Teile hervor, von denen es glaubt, dass sie mit künstlicher Intelligenz erstellt werden könnten. In einigen Fällen kann GPTZero auch feststellen, dass der Eingabetext „eher von Menschen geschrieben“ ist, aber „Sätze mit geringer Verblödung“ enthält, damit Sie sie verbessern können.

Wie können Sie GPTZero einsetzen?

Während Sie möglicherweise ein Konto benötigen, um ChatGPT zu verwenden, ist die Verwendung von GPTZero ziemlich einfach, da Sie kein Konto oder Abonnement benötigen, um zu überprüfen, ob ein Text von AI geschrieben wurde. Das bedeutet, dass Sie Ihre persönlichen Daten wie Ihre E-Mail-Adresse oder Telefonnummer nicht weitergeben müssen, um den Dienst nutzen zu können. Alles, was Sie brauchen, um GPTZero zu verwenden, sind:

Ein Gerät wie ein Computer oder ein Telefon, das eine Verbindung zum Internet herstellen kann
Eine aktive Internetverbindung
Ein Webbrowser zum Starten der GPTZero-Website

Sobald Sie diese Anforderungen geklärt haben, starten Sie GPTZero in einem Webbrowser auf einem Ihrer Geräte. Wir verwenden es in diesem Fall auf Firefox auf einem Mac, aber Sie können jeden Browser auf jedem Computer oder Telefon verwenden.

Wenn GPTZero geladen wird, scrollen Sie nach unten zum Abschnitt „Ausprobieren“ . Kopieren Sie in das darunter sichtbare Textfeld den Text, den Sie auf KI-Plagiate prüfen möchten, und fügen Sie ihn ein. Der Text, den Sie hier einfügen, sollte mindestens 250 Zeichen lang sein, damit der Detektor ihn analysieren kann.

Sie können auch Texte aus einem Dokument, das Sie auf Ihrem Gerät haben, auf KI-Beteiligung prüfen, indem Sie unter dem Textfeld auf Durchsuchen klicken . Von dort aus können Sie eine Datei in diesen unterstützten Formaten hochladen – PDF, DOCX und TXT, damit GPTZero sie analysieren kann.

Nachdem Sie einen Text eingegeben haben, den Sie überprüfen möchten, klicken Sie auf Ergebnisse abrufen .

GPTZero überprüft sofort den von Ihnen geteilten Text und bestimmt die Ergebnisse. Sie erhalten das folgende Ergebnis, das Ihnen mitteilt, ob der Text von einem Menschen geschrieben oder von der KI generiert wurde.

Basierend auf dem eingegebenen Text erhalten Sie möglicherweise eines der folgenden Ergebnisse:

Ihr Text wird wahrscheinlich vollständig von einem Menschen geschrieben.
Ihr Text wird wahrscheinlich vollständig von Al geschrieben.
Ihr Text ist höchstwahrscheinlich von Menschen geschrieben, aber es gibt einige Sätze mit geringer Verwirrung.
Ihr Text kann Teile enthalten, die von Al geschrieben wurden.

Wenn Sie nach unten scrollen, sehen Sie weitere Details zu den Ergebnissen. Wenn GPTZero eine KI-Beteiligung in Ihrem Text erkennt, wird der Teil, den das Tool als KI-geschrieben bestimmt hat, gelb hervorgehoben.

Wenn Sie weiter scrollen, sehen Sie unter dem Abschnitt „Statistiken“ eine detaillierte Analyse des eingegebenen Textes mit seinen Perplexity- und Burstiness-Messungen. Diese Messungen werden numerisch angezeigt und Sie sehen, wie es in einem Balkendiagramm abschneidet. Je niedriger ein Text sowohl beim Perplexity- als auch beim Burstiness-Wert abschneidet, desto höher ist die Chance, dass er mit Hilfe eines KI-Content-Generators geschrieben wurde.

Am Ende des Statistik-Bereichs zeigt GPTZero auch den Satz mit der höchsten Verwirrung sowie seine individuelle Punktzahl an. Dies bedeutet nicht unbedingt, dass dieser Teil des Textes von Menschen geschrieben wurde, aber es ist ein Indikator dafür, dass dieser Teil die geringste Möglichkeit hat, mit KI geschrieben zu werden.

Ist GPTZero genau?

TL;DR-Version : In unserer begrenzten Zeit zum Testen der Software konnten wir feststellen, dass GPTZero die von ChatGPT generierten Texte fast immer genau bestimmt. Und wenn es darum geht, von Menschen geschriebene Texte zu überprüfen, stößt es auf eine Hürde.

Während GPTZero von KI generierte Inhalte leicht erkennen kann, kennzeichnet es auch von Menschen geschriebene Inhalte als „von KI geschrieben“, selbst wenn dies nicht der Fall ist. Dies geht über den Zweck hinaus, dieses Tool zur Überprüfung auf KI-generierte Inhalte zu verwenden, da GPTZero auch falsch positive Ergebnisse markieren kann, wenn das tatsächliche Ergebnis negativ ist.

Vollversion : Um zu testen, ob GPTZero feststellen kann, ob ein Text KI-generiert oder von Menschen geschrieben ist, haben wir es selbst eingesetzt. Bevor wir verraten, wie genau das Tool ist, müssen Sie zunächst verstehen, wie wir es getestet haben, damit Sie eine allgemeine Vorstellung davon bekommen, wie der Dienst funktioniert.

Wie wir GPTZero getestet haben

Um GPTZero gründlich auf die Probe zu stellen, haben wir Texte aus unseren bestehenden Artikeln auf Nerdschalk.com verwendet und verschiedene Textabschnitte aus diesen Artikeln wie das Intro und die Anleitungen kopiert. Innerhalb von GPTZero haben wir die kopierten Auszüge aus diesen Artikeln eingefügt und sie auf KI-Beteiligung überprüft.

Neben von Menschen geschriebenen Texten (unserem Inhalt) wollten wir auch testen, ob GPTZero durch KI generierte Texte erkennt. Dafür haben wir ChatGPT genutzt und daraus Intros und Guides zu denselben Themen erstellt, die wir von Nerdschalk kopiert haben.

Um Ihnen ein Beispiel zu geben, haben wir ChatGPT gebeten, uns ein Intro für diesen Beitrag zu erstellen – How to Unmerge Cells in Google Docs.

Als der Dienst eine Antwort auf unsere Anfrage generierte, kopierten wir den von der KI geschriebenen Text und fügten ihn in das Textfeld von GPTZero ein, um seine Legitimität zu überprüfen.

In ähnlicher Weise haben wir das Intro aus unserem eigenen Beitrag kopiert und es auf GPTZero auf KI-Beteiligung überprüft.

Um sicherzustellen, dass wir die Konsistenz der Ergebnisse von GPTZero feststellen können, haben wir dies mit jeweils mindestens 10 Textauszügen aus unseren eigenen Posts und denjenigen getestet, die wir von ChatGPT zum gleichen Thema wie unsere Posts erstellen ließen. Das haben wir gefunden.

Erkennt GPTZero von ChatGPT geschriebene Texte?

Für ein Tool, das entwickelt wurde, um mit KI geschriebene Texte zu erkennen, leistet GPTZero wirklich gute Arbeit bei der Erkennung der mit ChatGPT erstellten Texte. Jedes Mal, wenn wir Inhalte kopierten, um deren Erstellung wir ChatGPT baten, konnte GPTZero genau feststellen, dass sie wahrscheinlich mit Hilfe von KI geschrieben wurden.

Für Text, der von ChatGPT erstellt wurde, würde GPTZero entweder feststellen, dass der gesamte Text von KI geschrieben wurde oder Teile des Textes enthält, an denen KI beteiligt war. Um Ihnen zu helfen, zu verstehen, wie es KI-geschriebene Texte gefunden hat, zeigt GPTZero Ihnen am Ende jedes Ergebnisses Ratlosigkeits- und Burstiness-Werte an.

Bei KI-generierten Texten zeigte die Software durchweg niedrige Perplexity-Werte, um anzuzeigen, dass sie leichter vorherzusagen waren, was im Fall eines Menschen schwierig wäre, da sich das lexikalische Wissen eines Menschen von dem anderer unterscheidet und Texte daher etwas zufälliger erscheinen können. Gleiches galt auch für die Ermittlung des Burstiness-Wertes, da per ChatGPT generierte Texte schlechter abschneiden, was auf eine gleichmäßigere Länge der verwendeten Sätze hindeutet.

Das Tool würde auch Teile des Textes isolieren, von denen es glaubt, dass sie die höchste Wahrscheinlichkeit haben, durch KI generiert zu werden. Sehen Sie sich zum Beispiel diesen Screenshot an:

Obwohl dies immer noch ein kleiner Stichprobenumfang ist, könnten wir den Schluss ziehen, dass GPTZero recht gut darin abgeschnitten hat, von ChatGPT generierte Inhalte als KI-geschrieben zu kennzeichnen.

Erkennt GPTZero von Menschen geschriebene Texte?

Nun, hier treffen wir auf eine Straßensperre. Während GPTZero leicht feststellen konnte, dass ChatGPT-Texte von KI geschrieben wurden, tat es dasselbe für sogar Texte, die wir aus unseren ursprünglichen Nerdschalk-Artikeln kopiert hatten. Da wir Texte aus demselben Thema verwendeten, um deren Erstellung wir ChatGPT gebeten hatten, konnte GPTZero nur korrekt erkennen, dass der spezifische Text von einem Menschen zweimal in zehn Versuchen geschrieben wurde.

In beiden „erfolgreichen“ Fällen erhielten wir unterschiedliche Ergebnisse darüber, wie viel des Textes GPTZero glaubt, von uns geschrieben worden zu sein. Als wir beispielsweise diesen Auszug aus unserem ursprünglichen Beitrag überprüften, zeigte die Software ein genaues Ergebnis, das besagte, dass dieser Text möglicherweise vollständig von einem Menschen geschrieben wurde.

Als wir jedoch scrollten, um die Perplexity- und Burstiness-Scores zu überprüfen, waren die angezeigten Werte (42,5 und 13,4) niedriger als die des von ChatGPT generierten Textes (der 46 und 20,8 betrug). Das bedeutet, dass selbst die Parameter, die zur Bestimmung der KI-Beteiligung eines Textes verwendet wurden, inkonsistent waren, obwohl das Ergebnis in diesem Fall korrekt war.

Ein weiterer Fall, in dem GPTZero richtig lag, war, als wir Textteile aus diesem Nerdschalk-Beitrag kopierten. Im Gegensatz zum vorherigen Fall konnte das Tool zwar schlussfolgern, dass es von einem Menschen geschrieben wurde, es fand jedoch Sätze innerhalb des Auszugs, die niedrigere Perplexitätswerte aufwiesen. Es hat sogar die Sätze hervorgehoben, von denen es dachte, dass sie von KI geschrieben wurden, obwohl der gesamte Text ursprünglich von uns geschrieben wurde.

Als wir die Statistiken dieses Textes mit dem vorherigen verglichen, zeigte GPTZero einen ähnlichen Perplexity-Wert von 40,2 mit einem etwas höheren Burstiness-Wert von 17,9.

Was die anderen Ergebnisse betrifft, hat die Software 8 von 10 Textteilen, die wir geschrieben haben, fälschlicherweise als von KI generiert gekennzeichnet. Zum Beispiel wurde ein Intro aus diesem ursprünglichen Beitrag als „wahrscheinlich vollständig von KI geschrieben“ angezeigt…

während ein anderer Teil desselben Beitrags ein etwas anderes Ergebnis wie dieses zeigte –

… was verwirrend ist, da derselbe Auszug die höchsten Perplexity- und Burstiness-Werte von 76,3 und 59,3 erzielte, höher als jeder andere Text, den wir auf GPTZero eingereicht haben.

Dies bedeutet, dass GPTZero, das sich in seiner frühen Phase befindet, nicht in der Lage ist, von Menschen geschriebene Texte mit der gleichen Genauigkeit zu erkennen, wie es durch KI generierte Inhalte erkennt.

Wie genau ist GPTZero?

Bei unseren gründlichen Tests der Software kamen wir zu dem Schluss, dass die Ergebnisse von GPTZero aufgrund der Inkonsistenz des Tools bei der Erkennung von Texten, die von Menschen geschrieben wurden, bestenfalls passabel waren. Trotz der Tatsache, dass ChatGPT-generierte Inhalte als KI-geschrieben gelesen und erkannt werden konnten, macht die Unfähigkeit der Software, kurze Sätze und von Menschen geschriebene Texte zu erkennen, sie zu einem unzuverlässigen Werkzeug für Pädagogen oder Journalisten, um nach KI-Plagiaten zu suchen.

Da der Zweck eines solchen Tools darin besteht, Menschen dabei zu helfen, gegen die unethische Nutzung der Generierung von KI-Inhalten vorzugehen, kann GPTZero nicht mit 100%iger Zuverlässigkeit verwendet werden. Das soll nicht heißen, dass es keinen Spielraum für Verbesserungen gibt – denn die Erkennung von Texten kann ein höheres Potenzial erreichen, wenn die Software mehr Daten aus anderen großen Sprachmodellen (LLMs) hinzufügt, um die Erkennungsgenauigkeit zu verbessern. Im Moment können Sie GPTZero jedoch mit einer Prise Salz und Ihrer eigenen Fähigkeit verwenden, Wörter zu unterscheiden, die von Menschen und einer Maschine geschrieben wurden.

Das ist alles, was Sie über die Genauigkeit von GPTZero wissen müssen.