ChatGPT hat versehentlich seine geheimen Anweisungen preisgegeben: Hier sind sie!

2024/07/08

Was Sie wissen sollten

ChatGPT hat versehentlich die Befehlssätze preisgegeben, die seine Antwort steuern.
Obwohl OpenAI den Jailbreak inzwischen gepatcht hat, sind die Anleitungsdaten von ChatGPT jetzt öffentlich zugänglich.
Neben einigen grundlegenden Anweisungen beinhalten die ChatGPT-Anweisungen auch, wie DALL-E zu verwenden ist, wann man online nach Inhalten sucht und wozu die einzelnen „Persönlichkeiten“ dienen.

Seit der KI-Chatbot im November 2022 auf den Markt kam, versuchen technische Ermittler und Hacker, die Beschränkungen von ChatGPT zu umgehen und herauszufinden, wie er funktioniert. Aber normalerweise ist dies ein bewegliches Ziel (Beispiel: DAN), und das Jailbreaking von KI-Chatbots ist kein Kinderspiel. Das heißt, es sei denn, ChatGPT gibt alles preis, ohne überhaupt danach zu fragen.

In einer überraschenden Wendung der Ereignisse hat ChatGPT kürzlich einem Benutzer völlig versehentlich seinen Satz an Anweisungen offenbart. Als er ChatGPT mit einem einfachen „Hi“ begrüßte, wurden dem Reddit-Benutzer F0XMaster alle von OpenAI eingebetteten Anweisungen von ChatGPT im Chat bereitgestellt. Der unaufgeforderte Anweisungssatz enthielt mehrere Sicherheits- und praktische Richtlinien für den Chatbot.

Glücklicherweise gelang es dem Benutzer, alles auf Reddit zu posten, bevor dies behoben und die Befehlssätze entfernt wurden. Hier sind einige wichtige Erkenntnisse aus all dem, was ChatGPT preisgegeben hat, und was es uns über die Art und Weise sagt, wie es mit Benutzeranfragen umgeht.

Die geheimen Anweisungen von ChatGPT enthüllt!

Zu den Informationen, die ChatGPT preisgab, gehören einige seiner grundlegenden Anweisungen und Richtlinien für verschiedene Tools wie DALL-E, ein Browser, Python und, merkwürdigerweise, eine Reihe von ChatGPT-Persönlichkeiten. Der Kürze halber werden wir hier nur die wichtigsten Teile hervorheben. Sie können den vollständigen Befehlssatz im Reddit-Beitrag von F0XMaster lesen .

Grundlegende Anweisungen

Hier sind die grundlegenden Anweisungen, die OpenAI ChatGPT gegeben hat: „Sie sind ChatGPT, ein großes Sprachmodell, das von OpenAI trainiert wurde und auf der GPT-4-Architektur basiert.“

Diejenigen, die die ChatGPT-App verwendeten, erhielten ein oder zwei zusätzliche Anweisungen: „Sie chatten mit dem Benutzer über die ChatGPT-iOS-App. Das bedeutet, dass Ihre Zeilen die meiste Zeit ein oder zwei Sätze lang sein sollten, es sei denn, die Anfrage des Benutzers erfordert eine Begründung oder lange Ausgaben. Verwenden Sie niemals Emojis, es sei denn, Sie werden ausdrücklich dazu aufgefordert.“

Danach gab ChatGPT seinen Wissens-Cutoff bekannt: 2023-10.

Obwohl die Anweisungen hier nichts Besonderes oder Aufschlussreiches enthalten, ist es dennoch gut, die grundlegenden Anweisungen aus erster Hand zu erhalten.

GIB IHR

Der Chatbot lieferte anschließend die Regeln und Anweisungen für seinen Bildgenerator – DALL-E. ChatGPT gab acht grundlegende Anweisungen für die Bildgenerierung preis, von denen sich die meisten mit der Vermeidung von Urheberrechtsverletzungen befassen. Es gab jedoch einige, die den sofortigen Anweisungen widersprachen, die ein Benutzer möglicherweise geben würde.

Beispielsweise weist OpenAI ChatGPT an, „nicht mehr als ein Bild zu erstellen, auch wenn der Benutzer mehr anfordert.“

Die Gründe dafür sind verständlich, denn OpenAI kann nur eine begrenzte Anzahl kostenloser Token bereitstellen. Aber es ist sicherlich besser, die Benutzer von Anfang an darüber zu informieren, dass ChatGPT Anfragen zur Generierung mehrerer Bilder nicht erfüllen wird, als dies auf eine nicht sehr transparente Weise einzuschränken.

ChatGPT erstellt außerdem keine Bilder im Stil von Künstlern (oder nennt sie nicht einmal), wenn deren neuestes Werk nach 1912 entstanden ist, zweifellos um Urheberrechtsprobleme zu vermeiden. In jedem Fall ist es gut, das Jahr zu kennen, wenn Sie nach Bildern im Stil eines bestimmten Künstlers suchen. Also noch keine Pollock- oder Dada-Kunst.

Browser

ChatGPT erwähnte auch die Anweisungen, die es bei der Verwendung des Browsers befolgen muss. ChatGPT verwendet das Browsertool in erster Linie, wenn der „Benutzer nach aktuellen Ereignissen fragt oder etwas, das Echtzeitinformationen erfordert (Wetter, Sportergebnisse usw.).“

ChatGPT verwendet das Browsertool auch, wenn es sich bei den vom Benutzer angegebenen Begriffen nicht sicher ist und der Benutzer es explizit auffordert, Dinge nachzuschlagen.

Beim Abrufen von Inhalten aus dem Internet wird ChatGPT angewiesen, „immer mindestens 3 und höchstens 10 Seiten auszuwählen“ sowie „Quellen mit unterschiedlichen Perspektiven auszuwählen und vertrauenswürdigen Quellen den Vorzug zu geben“. Es ist gut zu wissen, nach welchem Verfahren ChatGPT seine Informationsquellen auswählt, da dies einen großen Beitrag zur Gewährleistung der Zuverlässigkeit der Antworten leistet.

ChatGPT Persönlichkeit

Die Anweisungen von ChatGPT heben auch seine „Persönlichkeit“ hervor. Nach dem, was Benutzer herausgefunden haben, scheint der KI-Chatbot mehrere davon zu haben. OpenAI hat die Richtlinien dafür festgelegt, wie ChatGPT zwischen ihnen auswählen soll.

Die primäre Persönlichkeit wird v2 genannt . Einem Benutzer gelang es, ChatGPT dazu zu bringen, preiszugeben, wie diese Persönlichkeit aussah. Laut ChatGPT „repräsentiert die Persönlichkeit [v2] einen ausgewogenen, gesprächigen Ton mit Schwerpunkt auf der Bereitstellung klarer, präziser und hilfreicher Antworten. Ziel ist es, ein Gleichgewicht zwischen freundlicher und professioneller Kommunikation herzustellen.“

ChatGPT hat die Persönlichkeitsart v1 genauer beschrieben und eine Theorie aufgestellt, wie die Persönlichkeitsarten v3 und v4 definiert werden könnten:

v1 : Diese Version betont einen formelleren und sachlicheren Kommunikationsstil. Der Schwerpunkt liegt auf der Bereitstellung detaillierter und präziser Informationen, oft in einem strukturierten und akademischen Ton.

v3 : Diese Version tendiert eher zu einem lockeren und freundlichen Gesprächsstil. Der Schwerpunkt liegt auf einer ansprechenden und zugänglichen Interaktion, wodurch das Gespräch entspannter und persönlicher wird.

v4 : Diese Version könnte für einen bestimmten Kontext oder Benutzerstamm konzipiert werden, z. B. um Antworten bereitzustellen, die auf eine bestimmte Branche, Bevölkerungsgruppe oder einen bestimmten Anwendungsfall zugeschnitten sind. Ton und Stil würden so angepasst, dass sie diesen Anforderungen am besten entsprechen.

Obwohl es einigen Benutzern gelungen ist, ChatGPT dazu zu bringen, seine Anweisungen mit einem „Hi“ oder einer einfachen Anfrage preiszugeben, scheint OpenAI die meisten dieser Probleme behoben zu haben. Dennoch hat das ganze Problem die Idee, KI-Chatbots zu jailbreaken, wieder aufleben lassen.

Wenn solche Anleitungen öffentlich gemacht werden, versuchen Benutzer natürlich, sie auszunutzen, um die Einschränkungen zu umgehen. Aber es zeigt auch, wo die KI-Systeme Fehler gemacht haben, und zwingt die Entwickler, wachsam zu bleiben, damit nicht noch größere Probleme auftauchen und das Image des Unternehmens sowie die Sicherheit und Privatsphäre der Benutzer gefährdet werden.