ChatGPT heeft per ongeluk zijn geheime instructies onthuld: dit zijn ze!

2024/07/08

Wat te weten

ChatGPT heeft onbedoeld de instructiesets onthuld die de reactie sturen.
Hoewel OpenAI inmiddels de jailbreak heeft gepatcht, zijn de instructiegegevens van ChatGPT nu openbaar.
Naast een paar basisinstructies bevatten de instructies voor ChatGPT onder andere hoe u DALL-E gebruikt, wanneer u online naar content moet zoeken en waar de verschillende ‘persoonlijkheden’ voor dienen.

Sinds de AI-chatbot in november 2022 werd gelanceerd, hebben techneuten en hackers geprobeerd de beperkingen van ChatGPT te omzeilen en erachter te komen wat het doet tikken. Maar meestal is dit een bewegend doelwit (bijvoorbeeld DAN) en het jailbreaken van AI-chatbots is geen kinderspel. Tenzij ChatGPT het allemaal opgeeft zonder er zelfs maar om te vragen.

In een verrassende wending van gebeurtenissen onthulde ChatGPT onlangs per ongeluk zijn set instructiegegevens aan een gebruiker. Nadat hij ChatGPT begroette met een simpele ‘Hoi’, kreeg Reddit-gebruiker F0XMaster alle instructies van ChatGPT, ingebed door OpenAI, in de chat. De ongevraagde instructieset bevatte verschillende veiligheids- en praktische richtlijnen voor de chatbot.

Gelukkig kon de gebruiker, voordat dit werd opgelost en de instructiesets werden verwijderd, alles op Reddit posten. Hier zijn een paar belangrijke punten uit alles wat ChatGPT heeft onthuld, en wat het ons vertelt over de manier waarop het gebruikersverzoeken verwerkt.

De geheime instructies van ChatGPT onthuld!

De informatie die ChatGPT liet glippen, omvat enkele basisinstructies en richtlijnen voor verschillende tools zoals DALL-E, een browser, python en, vreemd genoeg, een set ChatGPT-persoonlijkheden. Om het kort te houden, lichten we hier alleen de meest opvallende stukjes uit. U kunt de volledige instructieset lezen op F0XMaster’s reddit-post .

Basisinstructies

Dit zijn de basisinstructies die OpenAI aan ChatGPT heeft gegeven: “U bent ChatGPT, een groot taalmodel dat is getraind door OpenAI, gebaseerd op de GPT-4-architectuur.”

Degenen die de ChatGPT-app gebruikten, kregen een extra regel of twee met instructies: “Je chat met de gebruiker via de ChatGPT iOS-app. Dit betekent dat je regels meestal een zin of twee moeten zijn, tenzij het verzoek van de gebruiker redenering of lange uitvoer vereist. Gebruik nooit emoji’s, tenzij er expliciet om wordt gevraagd.”

Daarna heeft ChatGPT de kennisgrens vastgesteld: 2023-10.

Hoewel er hier niets speciaals of onthullends staat wat betreft de instructies, is het toch goed om de basisinstructies rechtstreeks van de lezer te horen.

GEEF HAAR

De chatbot gaf vervolgens de regels en instructies voor zijn image generator – DALL-E. ChatGPT gaf acht primaire instructies voor image generation, waarvan de meeste te maken hebben met het vermijden van copyrightinbreuken. Maar er waren er een paar die in strijd zijn met de promptinstructies die een gebruiker zou kunnen geven.

OpenAI geeft ChatGPT bijvoorbeeld de opdracht om ‘niet meer dan één afbeelding te maken, zelfs niet als de gebruiker er meer aanvraagt’.

De redenatie hierachter is begrijpelijk, want er zijn maar een beperkt aantal gratis tokens die OpenAI kan bieden. Maar het is toch beter om gebruikers te laten weten dat ChatGPT niet meteen aan multi-image generation requests zal voldoen, in plaats van het op een manier te beperken die niet erg transparant is.

ChatGPT maakt ook geen afbeeldingen in de stijl van kunstenaars (of noemt ze zelfs niet) als hun laatste werk na 1912 is gemaakt, ongetwijfeld om problemen met auteursrechten te voorkomen. In ieder geval is het goed om het jaar te weten als je op zoek bent naar afbeeldingen in de stijl van een bepaalde kunstenaar. Dus nog geen Pollock- of Dada-kunst.

Browser

ChatGPT noemde ook de instructies die het begeleiden wanneer het de browser gebruikt. ChatGPT gebruikt voornamelijk de browsertool wanneer de “gebruiker vraagt naar actuele gebeurtenissen of iets dat realtime-informatie vereist (weer, sportuitslagen, etc.).”

ChatGPT gebruikt de browsertool ook als het niet zeker is van de termen die de gebruiker heeft ingevoerd, en als de gebruiker expliciet vraagt om iets op te zoeken.

Bij het ophalen van inhoud van het web, krijgt ChatGPT de instructie om “altijd minimaal 3 en maximaal 10 pagina’s te selecteren” en om “bronnen met verschillende perspectieven te selecteren en de voorkeur te geven aan betrouwbare bronnen.” Het is goed om het proces te kennen waarmee ChatGPT zijn informatiebronnen selecteert, omdat dit een grote rol speelt bij het garanderen dat de antwoorden betrouwbaar blijven.

ChatGPT-persoonlijkheid

De instructies van ChatGPT benadrukken ook de ‘persoonlijkheid’. Van wat gebruikers hebben ontdekt, lijkt het erop dat de AI-chatbot er meerdere heeft. OpenAI heeft de richtlijnen uiteengezet voor hoe ChatGPT er een keuze uit moet maken.

De primaire persoonlijkheid wordt v2 genoemd . Eén gebruiker wist ChatGPT zover te krijgen dat hij onthulde hoe deze persoonlijkheid was. Volgens ChatGPT, “[v2] persoonlijkheid vertegenwoordigt een evenwichtige, conversatietoon met de nadruk op het geven van duidelijke, beknopte en behulpzame antwoorden. Het streeft naar een balans tussen vriendelijke en professionele communicatie.”

ChatGPT heeft verder beschreven hoe de v1-persoonlijkheid eruitziet en een theorie ontwikkeld over hoe v3- en v4-persoonlijkheden gedefinieerd kunnen worden:

v1 : Deze versie benadrukt een meer formele en feitelijke communicatiestijl. Het richt zich op het verstrekken van gedetailleerde en precieze informatie, vaak in een gestructureerde en academische toon.

v3 : Deze versie neigt misschien meer naar een informele en vriendelijke conversatiestijl. Het geeft prioriteit aan het creëren van een boeiende en benaderbare interactie, waardoor het gesprek meer ontspannen en persoonlijker aanvoelt.

v4 : Deze versie kan worden ontworpen voor een specifieke context of gebruikersbasis, zoals het leveren van antwoorden die zijn afgestemd op een bepaalde branche, demografie of use case. De toon en stijl zouden worden aangepast om het beste aan die behoeften te voldoen.

Hoewel meerdere gebruikers ChatGPT zover kregen om zijn instructies te onthullen met een ‘Hi’ of een eenvoudig verzoek, lijkt het erop dat OpenAI de meeste hiervan heeft gepatcht. Toch heeft het hele probleem het idee van jailbreaking AI chatbots weer aan de oppervlakte gebracht.

Natuurlijk, wanneer zulke instructiedetails openbaar zijn, proberen gebruikers ze te misbruiken om de beperkingen te omzeilen. Maar het benadrukt ook waar de AI-systemen fout zijn gegaan en dwingt ontwikkelaars om alert te blijven, zodat er geen nog grotere problemen opduiken en het imago van het bedrijf, samen met de beveiliging en privacy van gebruikers, in gevaar komt.