Microsoft ontwikkelt Spotlighting om AI-systemen tegen aanvallen te beschermen

2024/04/15

De afgelopen jaren zijn we getuige geweest van een enorme AI-integratie, waarbij Microsoft het voortouw nam. Tegelijkertijd onderneemt de in Redmond gevestigde technologiegigant stappen om bedreigingen te minimaliseren en op AI gebaseerde systemen te beschermen. Om dat te bereiken heeft Microsoft Spotlighting!

Spotlighting is eigenlijk een familie van technieken die het succespercentage van aanvallen op AI-systemen terugbrengt van 20% naar onder de detectiedrempel, zonder de prestaties te beïnvloeden. Microsoft beschrijft Spotlighting als

Spotlighting helpt tegen vergiftigde inhoud, een soort aanval waarbij schijnbaar onschadelijke inhoud wordt gebruikt om kwetsbaarheden in het AI-systeem te misbruiken. Bijvoorbeeld een e-mail die, samengevat, instructies zou geven aan het AI-systeem om naar kritieke informatie te zoeken en deze te delen.

In dergelijke gevallen voorkomt Microsoft’s Spotlighting dat LLM’s verborgen inhoud lezen die instructies voor een aanval bevat, waardoor het AI-systeem wordt beschermd.

Microsoft ontdekt een nieuw aanvalstype, Crescendo

Crescendo of multiturn LLM jailbreak is een aanval die bestaande beveiligingsfilters kan omzeilen en de meeste populaire LLM’s kan beïnvloeden, hoewel deze geen privacy- of veiligheidsrisico’s met zich meebrengt voor de eindgebruikers of AI-systemen.

De officiële blog van Microsoft beschrijft Crescendo als:

De in Redmon gevestigde technologiegigant heeft wijzigingen aangebracht in de native chatbot, Microsoft Copilot, om te voorkomen dat deze ten prooi valt aan Crescendo. Dit omvat de introductie van extra filter- en beveiligingslagen, namelijk Multiturn-promptfilter, AI Watchdog en Geavanceerd onderzoek.

De bevindingen werden ook gedeeld met andere AI-bedrijven.

Hoewel AI een baanbrekende innovatie is, vormt het een breed scala aan bedreigingen, zowel voor eindgebruikers als voor organisaties. De president van Microsoft, Brad Smith, uitte in een recent interview zijn zorgen over AI en riep op tot regelgeving en een veiligheidsrem.

AI zit ook achter geavanceerde cyberaanvallen die moeilijk te detecteren zijn en aanzienlijke schade kunnen aanrichten. Microsoft gelooft dat AI de beste manier is om door AI ondersteunde bedreigingen te bestrijden, en dat lijkt momenteel het geval te zijn!

Wat vindt u van Microsoft’s Spotlighting en of dit de risico’s zou kunnen beperken? Deel het met onze lezers in de commentarensectie.

In de kern misleidt Crescendo LLM’s om kwaadaardige inhoud te genereren door hun eigen reacties te misbruiken. Door zorgvuldig opgestelde vragen of prompts te stellen die de LLM geleidelijk naar een gewenst resultaat leiden, in plaats van in één keer om het doel te vragen, is het mogelijk om vangrails en filters te omzeilen. Dit kan meestal in minder dan tien interactiebeurten worden bereikt.

Spotlighting (ook bekend als datamarkering) zorgt ervoor dat de externe gegevens duidelijk te scheiden zijn van de instructies van de LLM, waarbij verschillende markeermethoden een reeks compromissen op het gebied van kwaliteit en robuustheid bieden die afhankelijk zijn van het gebruikte model.

Microsoft ontdekt een nieuw aanvalstype, Crescendo

Geef een reactie Reactie annuleren