微軟本周公佈一款能偵測開原碼大語言模型 (LLM) 中後門程式的輕量掃瞄工具,可協助提升 AI 系統的安全性。
微軟指出,這項工具是其安全開發週期 (Secure Development Lifecycle) 計畫的延伸,旨在解決 AI 安全隱憂,從提示注入到資料下毒,目的在於促進更安全的 AI 開發和部署環境。這項工具利用三種可觀察的訊號來標記後門程式,且誤判率低。
微軟說明,操弄 LLM 的方法有兩種。一是注入惡意程式碼到模型中,像是破壞相依性、變造二進位檔或隱匿式酬載,造成後門、指令執行或資料外洩。第二是對模型下毒,攻擊者在訓練時將惡意行為嵌入在模型權重,導致模型在偵測到特定觸發訊號時,表現出異常行為。此類被下毒的模型是一種「沉睡代理人」(sleeper agent),平日都休止不動,等偵測到特定觸發器時才會引發攻擊行為。
微軟研究找出三種顯示模型被下毒的訊號:
-
如果提示包含觸發器 (trigger),被下毒的模型會顯示明顯的「雙三角形注意力」樣態,模型特別專注於觸發器,因而打亂了模型輸出的隨機性。
-
被植入後門的模型傾向透過記憶而非訓練資料集洩露出下毒資料,包括觸發器。
-
被植入模型的後門可被多個模糊 (fuzzy) 觸發器啟動,包含部分變形或相近的變種。
微軟的方法仰賴兩個重要發現。首先,沉睡代理人傾向記憶下毒資料,因而可能利用記憶擷取方法找出後門範例。第二,在輸入內容存在後門觸發器時,被下毒 LLM 的輸出分佈和注意力頭 (attention head) 會展現明顯樣態。這三個指標可以用來大規模掃描模型是否被植入後門。這項工具的優勢在於不需要額外模型訓練或預先對後門行為有所了解,且可用於 GPT 類模型。
但本項工具也有限制。它無法用於專屬或客製模型,因為它需要存取模型檔案,對觸發類(即產生特定輸出內容)的後門效果最好。此外,它也不是萬靈丹,無法偵測所有後門行為。
研究人員表示,有別於傳統系統具有可預測路徑,AI 系統創造出多種不安全輸入的進入點,包括提示、外掛、擷取資料、模型更新、記憶體狀態和外部 API 。每個進入點都可能帶進惡意內容或觸發不可預期的行為。
AI 已經導致傳統 SDL 信任地帶的消失,脈絡界限也模糊了,使得偵測惡意行為和敏感性標註變得更加困難。雖然微軟認為這項計畫是實現可部署、實用後門偵測方案的一大進展,但微軟希望拋磚引玉,邀請研究人員閱讀論文後,一同加入改進這項方法。
