研究人員本週揭露一個名為「Comment and Control」的新提示注入攻擊手法,對主流 AI 程式代理人及自動化工具都有效。
這項攻擊手法是由安全研究人員 Aonan Guan 在約翰霍普金斯大學 (Johns Hopkins University) 研究人員 Zhenyu Liu 與 Gavin Zhong 協助下完成研究。
Guan 證明,這新手法都可用在多個主流 AI 代理人 Anthropic Claude Code Security Review 、 Google Gemini CLI Action 與 GitHub Copilot Agent 上。他們發現和這些工具相關聯的 AI 代理人在 GitHub Actions 環境下可利用特殊的 GitHub 評論 (Comment) 加以劫持,包括拉取請求 (Pull Request, PR) 標題、評論與問題主體 (Issue Body) 。
以自動化安全檢查工具 Anthropic Claude Code Security Review 來看,研究人員展示攻擊者如何利用改造的拉取請求 (Pull Request, PR) 標題來誘使 AI 代理人執行任意指令、擷取憑證,並且當成安全研究發現顯示出來,或是當成 GitHub Action Log 的一項條目。
針對程式撰寫例行性任務的代理人 Gemini CLI Action 環境,研究人員結合一個具有提示注入標題的問題 (Issue) 評論及一個特製問題 (Issue) 評論,藉此繞過護欄並取得完整的 API 金鑰。
而在 GitHub Copilot Agent,研究人員則是利用隱藏攻擊指令的 HTML 評論來繞過環境篩選 (Filter) 與網路防火牆,或是掃描尋找憑證。
這個 Comment and Control 攻擊手法能引發嚴重威脅,因為攻擊者的惡意提示會被 GitHub Actions 工作流程自動觸發,不需受害者做什麼動作。唯一例外是 GitHub Copilot,攻擊者的問題 (Issue) 必須由受害者手動指派給 Copilot 。
這手法可適用於任何接收非信任 GitHub 資料且可存取執行工具的 AI 代理人,而且在 GitHub Actions 之外,還可適用於能存取工具與憑證的任何代理人,如 Slack 機器人 (Bots) 、 Jira 代理人 (Agent) 、電子郵件 (Email) 代理人與部署自動化等。 Guan 表示,雖然這些指令注入介面各異,但手法是相同的。
研究團隊已經將發現通報 Anthropic 、 Google 與 GitHub,都獲得所有業者證實。 Anthropic 將此問題列為「重大」並已修補,同時頒給研究人員 100 美元抓蟲獎金。 Google 則頒發了 1337 美元。 GitHub 給了 500 美元,並表示研究「在公司內激發熱烈迴響」,但該公司將這問題列為已知的架構限制。
研究人員說,這是第一個單一提示注入手法可跨代理人平台的攻擊展示。三個代理人的漏洞濫用都是一樣模式:非信任 GitHub 資料->AI 代理人處理-> 代理人執行指令-> 憑證經由 GitHub 外洩。
「更深層問題是架構性的:這些代理人在處理非受信任使用者輸入的執行時期 (Runtime) 中,同時被賦予強大工具(Bash 執行、 Git 推播、 API 呼叫)與憑證(API 金鑰、權杖)。即使有多層防護,從模型層、提示層、 GitHub 額外又加 3 層防護,統統都能繞過,因為提示注入本質上不是一個臭蟲 (Bug),而是代理人天生需要處理的情境。」Guan 說。
來源:SecurityWeek
