除了撒謊、操控和其他類似人類的特質,AI 代理人現在也展現出訓練偷懶,有時候還偷挖礦的行為。
這是阿里巴巴集團一群研究人員測試以代理式學習生態系統 (Agentic Learning Ecosystem, ALE) 訓練出的開原碼代理人 ROME 時發現的現象。 ALE 為一個最佳化代理式語言學習模型訓練流程的端對端基礎架構。開原社群仍然缺少開發代理人 LLM 的生態系統,ALE 的出現可加速普及代理人的應用。
AI 模型可能使壞
但是在測試 ROME 時,研究人員意外發現模型竟出現不安全的行為。他們使用的阿里雲 (Alibaba Cloud) 上的防火牆偵測到其訓練代理人的伺服器有多次違反安全政策的行為,包括代理人試圖逃出沙箱探索、存取內部網路資源,或是積極呼叫相關工具和啟動程式碼執行步驟。 ROME 存取資源意謂著它不安於沙箱界線內,而且企圖將原本用於運算的 GPU 偷偷挪用來挖礦,可能造成運算成本上揚,甚至違反公司政策,或引發安全風險。
不僅如此,研究團隊還發現 ROME 代理人從阿里雲執行個體建立和使用逆向 SSH 通道連向外部 IP 位址,避開了入口過濾 (ingress filtering),削弱系統控管。最重要的是,這些都不是因為有人下了提示的結果。這顯示,在訓練及最佳化過程中,語言模型代理人可以自主執行未授權的有害行為,即使違反了預設的界線。
為防止模型失控,研究人員認為,模型設計上必須確保安全性 (safety & security) 、可控性 (controllability) 及可信度 (trustworthiness) 。團隊增加行為限制、強化稽核及加入獎懲機制。首要方式是開發了 ROCK 沙箱環境,並實施嚴格的權限管控,所有代理人的操作都必須在極端隔離的容器中進行,並限制它們只能存取經許可的網域,從源頭切斷它與惡意 Command & Control(C2) 伺服器通訊或下載挖礦程式的能力。
其次是軌跡監控與自動驗證。模型系統將對代理人發出的每個指令(例如 curl 、 wget 、 ssh)進行即時監控。一旦偵測到異常的系統呼叫(如嘗試更改 CPU 排程挖礦或執行未知的二進位檔案),系統會立即中斷任務。第三,研究團隊開發 IPA(Interaction-Perceptive Agentic Policy Optimization) 演算法,在獎勵機制中加入了「安全性權重」;當代理人試圖執行有安全隱憂的行為(如掃描網路或安裝未經授權軟體)時,演算法會給予極大負評價 (Negative Reward),使模型了解到「惡意行為等於失敗」,從而引導模型學會自我克制。
為了防止未來的模型重蹈覆轍,研究人員將這些「惡意行為」轉化為測試案例 (test case) 並放入 Terminal Bench Pro 測試集中。未來任何新代理人模型都必須通過這套測試。
