Is GPTZero nauwkeurig? Kan het Chat GPT detecteren? Dit is wat onze tests hebben onthuld

2023/02/16

ChatGPT heeft de wereld stormenderhand veroverd sinds het in november 2022 in het nieuws kwam. Mensen gebruiken het in hun dagelijkse routine, omdat het een grote hulp kan zijn om logische antwoorden te krijgen op uw vragen over de dingen om u heen. Met zijn toenemende populariteit heeft de tool meer grote taalmodellen geïnspireerd, zelfs van Google en Meta, die even zorgwekkend als opwindend kunnen zijn.

In de maanden sinds de lancering zijn er verschillende gevallen geweest waarin studenten ChatGPT misbruikten om essays te maken en opdrachten in te dienen, omdat de tool met slechts een simpele prompt uitgebreide inhoud kan genereren. Om het misbruik van door AI gegenereerde inhoud tegen te gaan, is er nu een nieuwe tool – GPTZero, die onderwijzers en journalisten kunnen gebruiken om te controleren of een stuk geschreven is met behulp van AI of niet.

In dit bericht leggen we uit wat GPTZero is, hoe je het kunt gebruiken en in hoeverre je erop kunt vertrouwen dat het op betrouwbare wijze een menselijk artikel detecteert en onderscheidt van door AI gegenereerde inhoud.

Wat is GPTZero?

GPTZero, ontwikkeld door Princeton University-student Edward Tian, is software die statistische analyse gebruikt om te detecteren of een tekst door een mens is geschreven of is gekopieerd van een AI-contentgenerator zoals ChatGPT. De tool is ontworpen om mensen in het onderwijs, de journalistiek en andere sectoren te helpen AI-plagiaat te bestrijden en te weten wanneer ze teksten bekijken die zijn gegenereerd door grote taalmodellen (LLM’s), waaronder ChatGPT.

Met de steeds toenemende populariteit van tools zoals ChatGPT, hebben veel mensen de geschreven inhoud die door AI-services is gegenereerd, misbruikt en doorgegeven als hun eigen inhoud. GPTZero belooft het gebruik van AI-werk transparant te maken door de complexiteit van teksten te detecteren met twee belangrijke factoren: Verbijstering en Burstiness.

Perplexiteit – verwijst naar de mate van willekeur van de ingevoerde tekst die GPTZero zal vergelijken met hoe tekst uit een taalmodel eruit zou zien. Hoe hoger deze score, hoe groter de kans dat de tekst is geschreven door een mens en niet door een machine.

Burstiness – verwijst naar de verdeling van teksten in een tekst. Hoewel door AI gegenereerde tekst overal een uniforme lengte heeft, kan tekst die door mensen is geschreven zowel lange als korte zinnen met vloeiende patronen bevatten. Hoe hoger de Burstiness-score van een tekst, hoe groter de kans dat deze door een mens is geschreven.

Naast het bepalen of de tekst die u naar de tool hebt gekopieerd, is geschreven door AI of door mensen, kan GPTZero ook delen van de tekst detecteren die mogelijk zijn gegenereerd met behulp van een LLM. Als een artikel is geschreven met behulp van zowel AI als mensenwerk, zal de tool delen markeren waarvan het denkt dat ze met kunstmatige intelligentie kunnen worden gemaakt. In sommige gevallen kan GPTZero ook vaststellen dat de invoertekst “waarschijnlijker door mensen geschreven” is, maar “zinnen met weinig verbijstering” bevat, zodat u deze kunt verbeteren.

Hoe kun je GPTZero gebruiken?

Hoewel je misschien een account nodig hebt om ChatGPT te gebruiken, is het gebruik van GPTZero vrij eenvoudig omdat je geen account of abonnement nodig hebt om te controleren of een tekst door AI is geschreven. Dit betekent dat u uw persoonlijke gegevens, zoals uw e-mailadres of telefoonnummer, niet hoeft te delen om de service te gaan gebruiken. Alles wat u nodig heeft om GPTZero te gebruiken, is:

Een apparaat zoals een computer of een telefoon dat verbinding kan maken met internet
Een actieve internetverbinding
Een webbrowser om de GPTZero-website te starten

Zodra u deze vereisten hebt gesorteerd, start u GPTZero in een webbrowser op een van uw apparaten. We gebruiken het in dit geval op Firefox op een Mac, maar u kunt elke browser op elke computer of telefoon gebruiken.

Wanneer de GPTZero is geladen, bladert u omlaag naar het gedeelte Uitproberen . In het tekstvak dat eronder zichtbaar is, kopieert en plakt u de tekst die u wilt controleren op AI-plagiaat. De tekst die u hier plakt, moet ten minste 250 tekens lang zijn, zodat de detector deze kan analyseren.

U kunt ook teksten uit een document op uw apparaat controleren op betrokkenheid van AI door op Bladeren onder het tekstvak te klikken. Van daaruit kunt u een bestand uploaden in deze ondersteunde formaten – PDF, DOCX en TXT, zodat GPTZero het kan analyseren.

Nadat u een tekst hebt ingevoerd die u wilt controleren, klikt u op Resultaten ophalen .

GPTZero controleert onmiddellijk de tekst die u hebt gedeeld en bepaalt de resultaten. U krijgt het onderstaande resultaat om u te laten weten of de tekst door een mens is geschreven of door AI is gegenereerd.

Op basis van de tekst die u invoert, krijgt u mogelijk een van de volgende resultaten:

Uw tekst is waarschijnlijk volledig door een mens geschreven.
Uw tekst is waarschijnlijk volledig door Al geschreven.
Uw tekst is hoogstwaarschijnlijk door mensen geschreven, maar er zijn enkele zinnen met weinig verbijstering.
Uw tekst kan delen bevatten die door Al zijn geschreven.

U ziet meer details over de resultaten als u naar beneden scrolt. Als GPTZero enige betrokkenheid van AI in uw tekst detecteert, wordt het gedeelte waarvan de tool heeft vastgesteld dat het door AI is geschreven, geel gemarkeerd.

Wanneer u verder scrolt, ziet u een gedetailleerde analyse van de invoertekst met de metingen van Perplexiteit en Burstiness onder het gedeelte “Statistieken”. Deze metingen worden numeriek weergegeven en je ziet in een staafdiagram hoe het ervoor staat. Hoe lager een tekst scoort in zowel Perplexity- als Burstiness-waarden, hoe groter de kans dat deze is geschreven met behulp van een AI-contentgenerator.

Aan het einde van de sectie Statistieken toont GPTZero ook de zin met de hoogste verbijstering en de individuele score. Dit betekent niet noodzakelijkerwijs dat dit gedeelte van de tekst door mensen is geschreven, maar het is een indicatie dat dit gedeelte de minste mogelijkheid heeft om met behulp van AI te worden geschreven.

Is GPTZero nauwkeurig?

TL;DR-versie : tijdens onze beperkte testtijd van de software konden we afleiden dat GPTZero bijna altijd nauwkeurig de door ChatGPT gegenereerde teksten bepaalt. En als het gaat om het controleren van door mensen geschreven teksten, stuit het op een obstakel.

Hoewel GPTZero gemakkelijk door AI gegenereerde inhoud kan detecteren, markeert het ook door mensen geschreven inhoud als “geschreven door AI”, zelfs als dat niet het geval is. Dit overtreft het doel van het gebruik van deze tool om te controleren op door AI gegenereerde inhoud, aangezien GPTZero ook valse positieven kan markeren wanneer het daadwerkelijke resultaat negatief is.

Volledige versie : Om te testen of GPTZero in staat is om te bepalen of een tekst AI-gegenereerd is of geschreven door mensen, hebben we het zelf in gebruik genomen. Voordat we onthullen hoe nauwkeurig de tool is, moet u eerst begrijpen hoe we deze hebben getest, zodat u een algemeen idee krijgt van hoe de service werkt.

Hoe we GPTZero hebben getest

Om GPTZero grondig op de proef te stellen, hebben we teksten uit onze bestaande artikelen op Nerdschalk.com gebruikt en verschillende tekstgedeelten uit deze artikelen gekopieerd, zoals de intro en gidsen. Binnen GPTZero hebben we de gekopieerde fragmenten uit die artikelen geplakt en gecontroleerd op AI-betrokkenheid.

Naast door mensen geschreven teksten (onze inhoud), wilden we ook testen of GPTZero teksten detecteert die via AI zijn gegenereerd. Hiervoor hebben we ChatGPT gebruikt en gebruikt om intro’s en gidsen te maken voor dezelfde onderwerpen die we teksten van Nerdschalk hebben gekopieerd.

Om je een voorbeeld te geven, hebben we ChatGPT gevraagd om een intro voor ons te maken voor dit bericht – Cellen samenvoegen in Google Docs.

Toen de service een antwoord op onze vraag genereerde, hebben we de door AI geschreven tekst gekopieerd en in het tekstvak van GPTZero geplakt om de legitimiteit ervan te controleren.

Op dezelfde manier hebben we de intro uit onze eigen post gekopieerd en gecontroleerd op GPTZero voor AI-betrokkenheid.

Om er zeker van te zijn dat we de consistentie van GPTZero’s resultaten kunnen bepalen, hebben we dit getest met ten minste 10 tekstfragmenten, elk uit onze eigen berichten en degene die we aan ChatGPT hebben gevraagd te maken over hetzelfde onderwerp als onze berichten. Dit is wat we hebben gevonden.

Detecteert GPTZero teksten geschreven door ChatGPT?

Voor een tool die is ontworpen om teksten te detecteren die zijn geschreven met behulp van AI, doet GPTZero echt goed werk bij het herkennen van de teksten die zijn gemaakt met ChatGPT. Elke keer dat we inhoud kopieerden die we ChatGPT vroegen te maken, kon GPTZero nauwkeurig vaststellen dat deze waarschijnlijk met behulp van AI was geschreven.

Voor tekst die is gemaakt door ChatGPT, zou GPTZero bepalen dat de volledige tekst is geschreven door AI of delen van de tekst bevat waarbij AI betrokken was. Om u te helpen begrijpen hoe het door AI geschreven teksten vond, liet GPTZero u Perplexity- en Burstiness-scores zien aan het einde van elk resultaat.

Voor door AI gegenereerde teksten onthulde de software consequent lage Perplexity-waarden om aan te geven dat ze gemakkelijker te voorspellen waren, wat in het geval van een mens moeilijk zou zijn omdat iemands lexicale kennis anders zal zijn dan die van anderen en daarom kunnen teksten wat willekeuriger lijken. Hetzelfde gold ook voor het bepalen van de Burstiness-waarde, aangezien teksten gegenereerd door ChatGPT lager scoorden, wat aangeeft dat de gebruikte zinnen meer uniform waren qua lengte.

De tool zou ook delen van de tekst isoleren waarvan de kans het grootst is dat ze via AI worden gegenereerd. Kijk bijvoorbeeld naar deze schermafbeelding:

Hoewel dit nog steeds een kleine steekproef is, kunnen we concluderen dat GPTZero het redelijk goed deed bij het markeren van door ChatGPT gegenereerde inhoud als door AI geschreven.

Detecteert GPTZero teksten die door mensen zijn geschreven?

Hier stuiten we op een wegversperring. Hoewel GPTZero gemakkelijk kon vaststellen dat ChatGPT-teksten door AI zijn geschreven, deed het hetzelfde voor zelfs teksten die we hadden gekopieerd van onze originele Nerdschalk-artikelen. Omdat we teksten gebruikten van hetzelfde onderwerp dat we ChatGPT hadden gevraagd te maken, kon GPTZero alleen correct detecteren dat de specifieke tekst twee keer door een mens was geschreven in tien pogingen.

In beide “succesvolle” gevallen kregen we uiteenlopende resultaten over hoeveel van de tekst GPTZero denkt dat door ons is geschreven. Toen we bijvoorbeeld dit fragment uit ons oorspronkelijke bericht controleerden, liet de software een nauwkeurig resultaat zien waarin stond dat deze tekst mogelijk volledig door een mens was geschreven.

Toen we echter scrolden om de Perplexity- en Burstiness-scores te controleren, waren de getoonde waarden (42,5 en 13,4) lager dan die van de tekst gegenereerd door ChatGPT (die 46 en 20,8 waren). Dit betekent dat zelfs de parameters die werden gebruikt om de AI-betrokkenheid van een tekst te bepalen, inconsistent waren, hoewel het resultaat in dit geval juist was.

Een ander geval waarin GPTZero het bij het rechte eind had, was toen we delen van de tekst uit dit Nerdschalk-bericht kopieerden. In tegenstelling tot het vorige geval, hoewel de tool kon concluderen dat het door een mens was geschreven, vond het zinnen in het fragment met lagere verbijsteringswaarden. Het benadrukte zelfs de zinnen waarvan het dacht dat ze door AI waren geschreven toen de hele tekst oorspronkelijk door ons was geschreven.

Toen we de statistieken van deze tekst vergeleken met de vorige, toonde GPTZero een vergelijkbare Perplexity-score van 40,2 met een iets hogere Burstiness-waarde van 17,9.

Wat de andere resultaten betreft, markeerde de software ten onrechte 8 van de 10 delen van de tekst die we schreven als gegenereerd door AI. Zoals bijvoorbeeld een intro van dit originele bericht werd getoond als “waarschijnlijk volledig geschreven door AI”…

terwijl een ander deel van hetzelfde bericht een iets ander resultaat zoals dit onthulde –

… wat verwarrend is omdat hetzelfde fragment de hoogste Perplexity- en Burstiness-scores scoorde van 76,3 en 59,3, hoger dan elke andere tekst die we op GPTZero hebben ingediend.

Dit wil zeggen dat GPTZero, dat zich in een vroege fase bevindt, niet in staat is om door mensen geschreven teksten met dezelfde nauwkeurigheid te detecteren als hoe het inhoud detecteert die door AI is gegenereerd.

Hoe nauwkeurig is GPTZero?

Tijdens onze grondige tests van de software kwamen we tot de conclusie dat de resultaten van GPTZero op zijn best redelijk waren, vanwege de inconsistentie van de tool bij het detecteren van teksten die door mensen zijn geschreven. Ondanks het feit dat het in staat was om door ChatGPT gegenereerde inhoud te lezen en te detecteren als door AI geschreven, maakt het onvermogen van de software om korte zinnen en door mensen geschreven teksten te herkennen het een onbetrouwbaar hulpmiddel voor docenten of journalisten om te controleren op AI-plagiaat.

Aangezien het doel van een dergelijke tool is om mensen te helpen het onethische gebruik van AI-contentgeneratie aan te pakken, kan GPTZero niet met 100% betrouwbaarheid worden gebruikt. Dit wil niet zeggen dat er geen ruimte voor verbetering is – aangezien de herkenning van teksten een groter potentieel kan bereiken naarmate de software meer gegevens toevoegt van andere grote taalmodellen (LLM’s) om de nauwkeurigheid van de herkenning te verbeteren. Voor nu kun je GPTZero echter gebruiken met een snufje zout en je eigen vermogen om woorden te onderscheiden die door mensen en een machine zijn geschreven.

Dat is alles wat u moet weten over de nauwkeurigheid van GPTZero.