Microsoft, AI 시스템을 공격으로부터 보호하기 위해 Spotlighting 개발

2024/04/15

지난 몇 년 동안 Microsoft가 주도하면서 엄청난 AI 통합이 이루어졌습니다. 동시에 레드먼드에 본사를 둔 이 거대 기술 기업은 위협을 최소화하고 AI 기반 시스템을 보호하기 위한 조치를 취하고 있습니다. 이를 달성하기 위해 Microsoft는 Spotlighting을 개발했습니다!

스포트라이트는 실제로 성능에 영향을 주지 않고 AI 시스템에 대한 공격 성공률을 20%에서 감지 임계값 미만으로 줄이는 일련의 기술입니다. Microsoft는 Spotlighting을 다음과 같이 설명합니다.

스포트라이트는 AI 시스템의 취약점을 악용하기 위해 무해해 보이는 콘텐츠를 사용하는 공격 유형인 중독된 콘텐츠를 방지하는 데 도움이 됩니다. 예를 들어 요약하면 AI 시스템에 중요한 정보를 검색하고 공유하라는 지침을 보내는 이메일이 있습니다.

이러한 경우 Microsoft의 Spotlighting은 LLM이 공격 지침이 포함된 숨겨진 콘텐츠를 읽지 못하도록 방지하여 AI 시스템을 보호합니다.

마이크로소프트, 새로운 공격 유형 크레센도 발견

Crescendo 또는 다중 턴 LLM 탈옥은 기존 보안 필터를 우회할 수 있는 공격이며 대부분의 인기 있는 LLM에 영향을 미칠 수 있지만 최종 사용자나 AI 시스템에 개인 정보 보호 또는 보안 위험을 초래하지는 않습니다.

Microsoft의 공식 블로그에서는 Crescendo를 다음과 같이 설명합니다.

Redmon에 기반을 둔 거대 기술 기업은 Crescendo의 희생양이 되는 것을 방지하기 위해 기본 챗봇인 Microsoft Copilot을 변경했습니다. 여기에는 다중 턴 프롬프트 필터, AI Watchdog 및 고급 연구와 같은 추가 필터링 및 보안 계층 도입이 포함됩니다.

연구 결과는 다른 AI 기업과도 공유됐다.

AI는 획기적인 혁신임에도 불구하고 최종 사용자와 조직 모두에게 광범위한 위협을 가하고 있습니다. 마이크로소프트의 브래드 스미스(Brad Smith) 사장은 최근 인터뷰에서 AI에 대한 우려를 표명하고 규제와 안전 브레이크를 요구했습니다.

감지하기 어렵고 심각한 피해를 입힐 수 있는 정교한 사이버 공격의 배후에도 AI가 있습니다. Microsoft는 AI가 AI 기반 위협에 맞서 싸우는 가장 좋은 방법이라고 믿고 있으며 현재는 그런 것 같습니다!

Microsoft의 Spotlighting에 대해 어떻게 생각하시나요? 그리고 이것이 위험을 완화할 수 있다면 어떨까요? 댓글 섹션에서 독자들과 공유하세요.

Crescendo의 핵심은 자체 응답을 활용하여 LLM을 속여 악성 콘텐츠를 생성하도록 하는 것입니다. LLM을 원하는 결과로 점진적으로 이끄는 신중하게 만들어진 질문이나 프롬프트를 요청함으로써 목표를 한꺼번에 요청하는 대신 가드레일과 필터를 우회할 수 있습니다. 이는 일반적으로 10회 미만의 상호 작용 턴 내에 달성할 수 있습니다.

스포트라이트(데이터 표시라고도 함)는 사용 중인 모델에 따라 다양한 품질 및 견고성 절충을 제공하는 다양한 표시 방법을 사용하여 외부 데이터를 LLM의 지침과 명확하게 분리할 수 있도록 합니다.

마이크로소프트, 새로운 공격 유형 크레센도 발견

답글 남기기 응답 취소