微軟開發 Spotlighting 以保護人工智慧系統免受攻擊

微軟開發 Spotlighting 以保護人工智慧系統免受攻擊

過去幾年見證了人工智慧的巨大集成,其中微軟處於領先地位。與此同時,這家總部位於雷德蒙的科技巨頭正在採取措施最大程度地減少威脅並保護基於人工智慧的系統。為了實現這一目標,Microsoft 開發了 Spotlighting!

Spotlighting 實際上是一系列技術,可在不影響效能的情況下將 AI 系統攻擊的成功率從 20% 降低到偵測閾值以下。微軟將 Spotlighting 描述為

圖片來源:微軟

Spotlighting 有助於抵禦中毒內容,這是一種使用看似無害的內容來利用人工智慧系統中的漏洞的攻擊。例如,一封電子郵件在匯總後會向人工智慧系統發出指令以搜尋關鍵資訊並分享它。

在這種情況下,微軟的 Spotlighting 可以防止法學碩士讀取包含攻擊指令的隱藏內容,從而保護人工智慧系統。

微軟發現了一種新的攻擊類型:Crescendo

Crescendo 或多輪 LLM 越獄是一種能夠繞過現有安全過濾器的攻擊,可以影響大多數流行的 LLM,儘管它不會為最終用戶或 AI 系統帶來隱私或安全風險。

微軟官方部落格將 Crescendo 描述為:

這家總部位於 Redmon 的科技巨頭對原生聊天機器人 Microsoft Copilot 進行了更改,以防止其成為 Crescendo 的受害者。這包括引入額外的過濾和安全層,即多輪提示過濾器、AI Watchdog 和高級研究。

圖片來源:微軟

研究結果也與其他人工智慧公司分享。

人工智慧雖然是一項突破性的創新,但對最終用戶和組織都構成了廣泛的威脅。微軟總裁布拉德史密斯在最近的一次採訪中表達了對人工智慧的擔憂,並呼籲制定法規和安全煞車。

人工智慧也是難以偵測並可能造成重大損害的複雜網路攻擊的幕後黑手。微軟認為人工智慧是對抗人工智慧支援的威脅的最佳方式,目前看來確實如此!

您如何看待 Microsoft 的 Spotlighting?在評論部分與我們的讀者分享。

從本質上講,Crescendo 欺騙法學碩士透過利用自己的回應來產生惡意內容。透過提出精心設計的問題或提示,逐漸引導法學碩士達到預期的結果,而不是一次性要求所有目標,可以繞過護欄和過濾器——這通常可以在不到 10 次交互回合內實現。

聚光燈(也稱為數據標記)使外部數據與法學碩士的指示清晰分開,不同的標記方法提供了一系列取決於所使用的模型的品質和穩健性權衡。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *