ChatGPT przypadkowo ujawnił swoje tajne instrukcje: Oto, jakie są!

2024/07/08

Co wiedzieć

ChatGPT przypadkowo ujawnił zestawy instrukcji, którymi kieruje się w swojej odpowiedzi.
Mimo że OpenAI już załatało jailbreak, dane instruktażowe ChatGPT są teraz powszechnie dostępne.
Instrukcje ChatGPT zawierają m.in. kilka podstawowych wskazówek, jak korzystać z protokołu DALL-E, kiedy wyszukiwać treści online i do czego służą poszczególne „osobowości”.

Od czasu uruchomienia chatbota AI w listopadzie 2022 r. detektywi techniczni i hakerzy próbowali ominąć ograniczenia ChatGPT i zajrzeć pod maskę tego, co go napędza. Jednak zwykle był to ruchomy cel (przykład DAN), a jailbreaking chatbotów AI nie jest dziecinnie prosty. Chyba że ChatGPT odda wszystko, nawet o to nie prosząc.

W zaskakującym obrocie wydarzeń ChatGPT niedawno ujawnił użytkownikowi swój zestaw danych instrukcyjnych zupełnie przez przypadek. Po przywitaniu ChatGPT prostym „Cześć”, użytkownik Reddita F0XMaster otrzymał wszystkie instrukcje ChatGPT, osadzone przez OpenAI, w czacie. Niezamawiany zestaw instrukcji zawierał kilka wskazówek dotyczących bezpieczeństwa i praktycznych wskazówek dla chatbota.

Na szczęście, zanim to naprawiono i usunięto zestawy instrukcji, użytkownikowi udało się opublikować wszystko na Reddicie. Oto kilka najważniejszych wniosków z tego, co ujawnił ChatGPT, i co nam to mówi o sposobie obsługi żądań użytkowników.

Ujawniono tajne instrukcje ChatGPT!

Informacje, które ujawnił ChatGPT, obejmują niektóre podstawowe instrukcje i wytyczne dotyczące różnych narzędzi, takich jak DALL-E, przeglądarka, Python i, co ciekawe, zestaw osobowości ChatGPT. Dla zwięzłości podkreślimy tutaj tylko najbardziej istotne fragmenty. Pełny zestaw instrukcji można przeczytać w poście F0XMastera na Reddicie .

Podstawowe instrukcje

Oto podstawowe instrukcje, jakie OpenAI przekazało ChatGPT: „Jesteś ChatGPT, dużym modelem językowym trenowanym przez OpenAI, opartym na architekturze GPT-4”.

Ci, którzy korzystali z aplikacji ChatGPT, otrzymali dodatkową linijkę lub dwie instrukcji: „Rozmawiasz z użytkownikiem za pośrednictwem aplikacji ChatGPT iOS. Oznacza to, że w większości przypadków Twoje linijki powinny składać się z jednego lub dwóch zdań, chyba że prośba użytkownika wymaga uzasadnienia lub wyników w długiej formie. Nigdy nie używaj emotikonów, chyba że zostaniesz o to wyraźnie poproszony”.

Następnie ChatGPT podało datę graniczną dla wiedzy: 2023-10.

Mimo że nie ma tu niczego szczególnego ani odkrywczego pod względem instrukcji, to i tak dobrze jest otrzymać podstawowe wskazówki bezpośrednio od źródła.

DAJ JEJ

Chatbot dostarczył następnie zasady i instrukcje dla swojego generatora obrazów – DALL-E. ChatGPT zrezygnował z ośmiu podstawowych instrukcji dotyczących generowania obrazów, z których większość dotyczy unikania naruszeń praw autorskich. Ale było kilka, które są sprzeczne z instrukcjami, które użytkownik mógłby podać.

Na przykład OpenAI nakazuje ChatGPT „nie tworzyć więcej niż jednego obrazu, nawet jeśli użytkownik poprosi o więcej”.

Uzasadnienie tego jest zrozumiałe, ponieważ OpenAI może zapewnić tylko ograniczoną liczbę darmowych tokenów. Ale na pewno lepiej jest dać użytkownikom znać, że ChatGPT nie spełni żądań generowania wielu obrazów od samego początku, niż ograniczać je w sposób, który nie jest zbyt przejrzysty.

ChatGPT nie tworzy również obrazów w stylu artystów (ani nawet nie wymienia ich nazwisk), jeśli ich najnowsze dzieło powstało po 1912 r., bez wątpienia, aby uniknąć problemów z prawami autorskimi. W każdym razie dobrze jest znać rok, jeśli szukasz obrazów w stylu konkretnego artysty. Więc jeszcze nie ma Pollocka ani sztuki dadaistycznej.

Przeglądarka

ChatGPT wspomniał również o instrukcjach, którymi kieruje się podczas korzystania z przeglądarki. Przede wszystkim ChatGPT używa narzędzia przeglądarki, gdy „użytkownik pyta o bieżące wydarzenia lub o coś, co wymaga informacji w czasie rzeczywistym (pogoda, wyniki sportowe itp.).”

ChatGPT korzysta z przeglądarki również wtedy, gdy nie jest pewien terminów podanych przez użytkownika lub gdy użytkownik wyraźnie poprosi o sprawdzenie pewnych informacji.

Podczas pobierania treści z sieci, ChatGPT jest instruowany, aby „zawsze wybierać co najmniej 3 i co najwyżej 10 stron”, a także „wybierać źródła o różnych perspektywach i preferować źródła godne zaufania”. Dobrze jest znać proces, w którym ChatGPT wybiera źródła informacji, ponieważ w dużym stopniu przyczynia się to do zapewnienia, że odpowiedzi pozostają wiarygodne.

Osobowość ChatGPT

Instrukcje ChatGPT podkreślają również jego „osobowość”. Z tego, co odkryli użytkownicy, wynika, że chatbot AI ma ich kilka. OpenAI przedstawił dyrektywy dotyczące tego, jak ChatGPT powinien wybierać spośród nich.

Główna osobowość nazywa się v2 . Jednemu użytkownikowi udało się nakłonić ChatGPT do ujawnienia, jaka jest ta osobowość. Według ChatGPT „[v2] osobowość reprezentuje zrównoważony, konwersacyjny ton, kładący nacisk na udzielanie jasnych, zwięzłych i pomocnych odpowiedzi. Ma na celu zachowanie równowagi między przyjazną i profesjonalną komunikacją”.

ChatGPT dokładniej opisał osobowość v1 i przedstawił teorię, w jaki sposób można zdefiniować osobowości v3 i v4:

v1 : Ta wersja kładzie nacisk na bardziej formalny i rzeczowy styl komunikacji. Skupia się na dostarczaniu szczegółowych i precyzyjnych informacji, często w ustrukturyzowanym i akademickim tonie.

v3 : Ta wersja może skłaniać się bardziej ku swobodnemu i przyjaznemu stylowi konwersacji. Priorytetem jest tworzenie angażującej i przystępnej interakcji, dzięki czemu rozmowa wydaje się bardziej zrelaksowana i osobista.

v4 : Ta wersja może być zaprojektowana dla określonego kontekstu lub bazy użytkowników, np. udzielanie odpowiedzi dostosowanych do konkretnej branży, grupy demograficznej lub przypadku użycia. Ton i styl zostaną dostosowane tak, aby najlepiej odpowiadały tym potrzebom.

Mimo że kilku użytkownikom udało się zmusić ChatGPT do ujawnienia instrukcji za pomocą „Cześć” lub prostej prośby, wygląda na to, że OpenAI załatało większość z nich. Jednak cały problem ponownie wypłynął na powierzchnię idei jailbreakingu chatbotów AI.

Oczywiście, gdy takie szczegóły instruktażowe są dostępne publicznie, użytkownicy próbują je wykorzystać, aby ominąć ograniczenia. Ale to również podkreśla, gdzie systemy AI zawiodły i zmusza deweloperów do zachowania czujności, aby nie pojawiły się jeszcze większe problemy, a wizerunek firmy, wraz z bezpieczeństwem i prywatnością użytkowników, nie został naruszony.