Microsoft développe Spotlighting pour protéger les systèmes d’IA des attaques

2024/04/15

Ces dernières années ont été témoins d’une formidable intégration de l’IA, avec Microsoft en tête. Dans le même temps, le géant technologique basé à Redmond prend des mesures pour minimiser les menaces et protéger les systèmes basés sur l’IA. Dans cette tentative, Microsoft a développé Spotlighting !

Le Spotlighting est en réalité une famille de techniques qui réduit le taux de réussite des attaques sur les systèmes d’IA de 20 % jusqu’en dessous du seuil de détection sans affecter les performances. Microsoft décrit Spotlighting comme

Spotlighting aide à lutter contre le contenu empoisonné, un type d’attaque qui utilise un contenu apparemment inoffensif pour exploiter les vulnérabilités du système d’IA. Par exemple, un e-mail qui, une fois résumé, donnerait des instructions au système d’IA pour rechercher des informations critiques et les partager.

Dans de tels cas, Spotlighting de Microsoft empêche les LLM de lire le contenu caché contenant des instructions pour une attaque, protégeant ainsi le système d’IA.

Microsoft découvre un nouveau type d’attaque, Crescendo

Le jailbreak Crescendo ou LLM multitours est une attaque capable de contourner les filtres de sécurité existants et peut affecter la plupart des LLM populaires, bien qu’elle ne présente aucun risque en matière de confidentialité ou de sécurité pour les utilisateurs finaux ou les systèmes d’IA.

Le blog officiel de Microsoft décrit Crescendo comme suit :

Le géant de la technologie basé à Redmon a apporté des modifications au chatbot natif, Microsoft Copilot, pour l’empêcher de devenir la proie de Crescendo. Cela inclut l’introduction de couches de filtrage et de sécurité supplémentaires, à savoir le filtre d’invite multitours, AI Watchdog et la recherche avancée.

Les résultats ont également été partagés avec d’autres sociétés d’IA.

L’IA, bien qu’elle soit une innovation révolutionnaire, présente un large éventail de menaces, tant pour les utilisateurs finaux que pour les organisations. Le président de Microsoft, Brad Smith, a exprimé ses inquiétudes concernant l’IA dans une récente interview et a appelé à des réglementations et à un frein de sécurité.

L’IA est également à l’origine de cyberattaques sophistiquées, difficiles à détecter et pouvant causer des dégâts importants. Microsoft estime que l’IA est le meilleur moyen de lutter contre les menaces basées sur l’IA, et cela semble être le cas actuellement !

Que pensez-vous du Spotlighting de Microsoft et s’il pouvait atténuer les risques ? Partagez avec nos lecteurs dans la section commentaires.

À la base, Crescendo incite les LLM à générer du contenu malveillant en exploitant leurs propres réponses. En posant des questions ou des invites soigneusement conçues qui mènent progressivement le LLM au résultat souhaité, plutôt que de demander l’objectif d’un seul coup, il est possible de contourner les garde-fous et les filtres – cela peut généralement être réalisé en moins de 10 tours d’interaction.

La mise en lumière (également appelée marquage des données) rend les données externes clairement séparables des instructions du LLM, avec différentes méthodes de marquage offrant une gamme de compromis de qualité et de robustesse qui dépendent du modèle utilisé.

Microsoft découvre un nouveau type d’attaque, Crescendo

Laisser un commentaire Annuler la réponse