Firma Microsoft opracowuje Spotlighting, aby chronić systemy AI przed atakami

2024/04/15

W ciągu ostatnich kilku lat byliśmy świadkami ogromnej integracji sztucznej inteligencji, której liderem był Microsoft. Jednocześnie gigant technologiczny z Redmond podejmuje kroki mające na celu minimalizację zagrożeń i ochronę systemów opartych na sztucznej inteligencji. Aby to osiągnąć, Microsoft opracował Spotlighting!

Spotlighting to tak naprawdę rodzina technik, które zmniejszają skuteczność ataków na systemy AI z 20% do poziomu poniżej progu wykrywalności bez wpływu na wydajność. Microsoft opisuje Spotlighting jako

Spotlighting pomaga w walce z zatrutymi treściami – rodzajem ataku wykorzystującego pozornie nieszkodliwą treść w celu wykorzystania luk w zabezpieczeniach systemu sztucznej inteligencji. Na przykład wiadomość e-mail, która po podsumowaniu będzie zawierać instrukcje dla systemu AI dotyczące wyszukiwania kluczowych informacji i udostępniania ich.

W takich przypadkach funkcja Spotlighting firmy Microsoft uniemożliwia LLM odczytanie ukrytej zawartości zawierającej instrukcje dotyczące ataku, chroniąc w ten sposób system sztucznej inteligencji.

Microsoft odkrywa nowy typ ataku, Crescendo

Crescendo lub wieloobrotowy jailbreak LLM to atak, który może ominąć istniejące filtry bezpieczeństwa i może mieć wpływ na większość popularnych LLM, chociaż nie stwarza żadnego zagrożenia dla prywatności ani bezpieczeństwa użytkowników końcowych ani systemów AI.

Oficjalny blog Microsoftu opisuje Crescendo jako:

Gigant technologiczny z Redmon wprowadził zmiany w natywnym chatbocie Microsoft Copilot, aby nie padł ofiarą Crescendo. Obejmuje to wprowadzenie dodatkowych warstw filtrowania i zabezpieczeń, a mianowicie wieloobrotowego filtra podpowiedzi, AI Watchdog i zaawansowanych badań.

Ustaleniami podzielono się także z innymi firmami zajmującymi się sztuczną inteligencją.

Sztuczna inteligencja, choć jest przełomową innowacją, stwarza szeroką gamę zagrożeń, zarówno dla użytkowników końcowych, jak i organizacji. Prezes Microsoftu, Brad Smith, w niedawnym wywiadzie wyraził obawy dotyczące sztucznej inteligencji i wezwał do wprowadzenia przepisów i hamulca bezpieczeństwa.

Sztuczna inteligencja stoi również za wyrafinowanymi cyberatakami, które są trudne do wykrycia i mogą powodować znaczne szkody. Microsoft wierzy, że sztuczna inteligencja to najlepszy sposób na walkę z zagrożeniami wspieranymi przez sztuczną inteligencję i wydaje się, że obecnie tak jest!

Co sądzisz o funkcji Spotlighting firmy Microsoft i czy może ona zmniejszyć ryzyko? Podziel się z naszymi czytelnikami w sekcji komentarzy.

W swojej istocie Crescendo oszukuje firmy LLM, aby generowały złośliwe treści, wykorzystując własne reakcje. Zadając starannie opracowane pytania lub podpowiedzi, które stopniowo prowadzą LLM do pożądanego rezultatu, zamiast prosić o cel od razu, można ominąć barierki i filtry — zwykle można to osiągnąć w mniej niż 10 turach interakcji.

Reflektorowanie (znane również jako oznaczanie danych) sprawia, że dane zewnętrzne można wyraźnie oddzielić od instrukcji LLM, przy czym różne metody znakowania oferują szereg kompromisów w zakresie jakości i niezawodności, zależnych od używanego modelu.

Microsoft odkrywa nowy typ ataku, Crescendo

Dodaj komentarz Anuluj pisanie odpowiedzi