以群眾智慧解決 AI 偏見 Bugcrowd 推出新服務協助企業合規保護 AI 安全

隨著新一代AI技術發展,資料偏見問題成為焦點。Bugcrowd推出AI偏見評估服務,透過眾包平台檢測大型語言模型中的資料偏見,協助企業與政府降低風險。

隨著 OpenAI GPT-4o 、 Google Gemini 3.5 Pro 與微軟 Copilot 陸續推出新版本,強調多模態技術與即時互動功能,讓面市僅一年多的 Gen AI 愈來愈有電影《雲端情人》的樣貌,能夠聽出人類話語中的情緒,並以正確適當的情感語氣回應使用者。

聽起來雖然神奇,其實技術根源依然是透過大量資料集的訓練,來決定回應方式。然而,這些訓練用的資料集依然必須透過人員專家事先挑選,只要經過人類挑選,免不了可能因為刻板印象、偏見、排他性語言和其他可能的偏見而出現「資料偏見 (AI bias)」的現象。這些偏見會導致模型以出乎意料且有害的方式運作,讓企業採用大語言模型 (LLM) 時增加許多風險與不可預測性。

通常會出現什麼偏見呢?

  1. 歷史偏見:資料集當中本來就存在的歷史或社會偏見,例如職業性別偏見等。
  2. 樣本偏見:資料集中某些群體的比例過高或欠缺,例如訓練圖片集多半是白人的照片,將導致 AI 辨識有色人種的正確率下降。
  3. 演算法偏見:AI 演算法本身的設計或訓練方式存在偏差,可能會放大或產生新的偏見。這種偏見可能來自於演算法的假設、目標函數的選擇或最佳化過程中的權重調整。

當公共部門開始使用 AI 時,資料偏見成為日益嚴重的風險。自 2024 年 3 月起,美國政府要求其機構遵循 AI 安全指南,包括檢測資料偏見,並於 2024 年稍晚涵蓋聯邦政府承包商一同適用。

為何政府單位如此積極?

2023 年 10 月 30 日,美國總統拜登簽署了第 14110 號行政命令,題為《安全、可靠且值得信賴的人工智慧》。該命令指示美國國家標準技術研究所 (NIST) 制訂嚴格標準,對 AI 系統進行全面的紅隊測試;管理和預算辦公室 (OMB) 於 2024 年 3 月 28 日發布了一項具有約束力的政府範圍內指令,要求美國聯邦機構在利用 AI 技術的同時,必須降低風險並發揮其優勢。根據指令,到 2024 年 12 月 1 日,各機構必須在使用 AI 可能影響美國人權利或安全的情況下,實施具體的保障措施。這些措施包括對所有用於開發、測試或維護 AI 應用程式的資料進行品質、代表性和偏見的評估,無論資料來源為何。

與此同時,歐盟於 2023 年 12 月通過第一個針對人工智慧的綜合法律框架法案 (EU AI Act),將 AI 系統依據風險高低分為「不可接受」、「高風險」與「有限風險」,並規定高風險的 AI 系統必須進行偏見監測、檢測和校正。這些系統需確保在設計、開發、部署和維護過程中採取適當措施以避免資料和演算法的偏見。

人類產生偏見,也必須靠人類來消除偏見

「傳統的資安掃描或滲透測試等工具,無法有效檢測到這些資料偏見,」Bugcrowd 執行長 Dave Gerry 在四月初於新加坡舉行的亞洲黑帽駭客大會接受本刊專訪表示,「AI 技術除了是新世代的工具,也是資訊科技發展的目標,更可能成為生活方式的威脅。因此,我們與 OpenAI 、 Anthropic 和 Google 合作,為美國白宮的 AI 政策提供專家建議,同時也正式上線 Bugcrowd 的 A 偏見評估服務。」

Bugcrowd 執行長 Dave Gerry

Dave Gerry 表示,Bugcrowd 不但在商業市場看到 AI 偏見評估服務市場的需求,更受到政府單位的重視,「美國國防部是我們第一個客戶,」Dave Gerry 說:「在教育市場熱烈引進 AI 技術來打造學習平台、改考卷或審查論文時,我們必須用稽查資安漏洞的精神與標準,來看待 AI 系統中的偏見及資安問題。

Bugcrowd 的 AI 偏見評估服務是如何進行的呢?基本上,透過 Bugcrowd 的眾包平台,集合經過驗證可信任的第三方資安研究員,將大型語言模型中的資料偏見缺陷,視為一種程式漏洞來進行識別與舉報,根據資料偏見的影響程度來決定獎勵,影響愈大自然獎勵愈高。

AI 偏見評估服務在開放原始碼大型語言模型如 Llama 、 Bloom,或自製 LLM 上同樣有效。

「我們與美國數位暨人工智慧長辦公室 (Chief Digital and Artificial Intelligence Office, CDAO),以及夥伴 Conductor AI 一同合作,」Dave Gerry 表示:「透過 Conductor AI 的專業 AI 審計知識,搭配 Bugcrowd 的眾包平台,成為釋放群眾外包識別資料偏見缺陷的關鍵實驗場場域,非常希望能夠與其他擁有類似挑戰的客戶來分享我們的成功經驗。」

產生偏見的是人類,用人類來消除資料偏見,可行嗎?

雖然群眾智慧向來是用來處理灰色地帶資料如倫理、道德等難有統一標準議題的工具,但既然 AI 所擁有的資料偏見缺陷是來自於人類,該如何確保形形色色的人類有能力消除各式各樣的資料偏見?

「在測試評估的過程中,公司會提供詳細的評估指導,包括目標、客戶需求及其最關心的問題。」Bugcrowd 創辦人暨技術長 Casey Ellis 談到 AI 偏見評估的程序,「例如,在測試一個用於人力資源環境的大型語言模型時,我們會特別關注對受保護群體的偏見,如年齡超過 40 歲的女性和有色人種。我們會定義什麼是偏見,並根據影響力等級來評估和回報。」

Bugcrowd 創辦人暨技術長 Casey Ellis

例如,當測試一個用於人力資源環境的大型語言模型時,北美的客戶可能非常關心對受保護群體的偏見問題,例如超過 40 歲的女性和有色人種。但由於資料偏見不同於程式漏洞有明確的定義與界線,因此 Bugcrowd 需要與客戶合作,定義出何謂偏見,以及期望看到修正的結果。

「例如有一個大型語言模型被發現對阿拉斯加的原住民因努伊特人有種族偏見,主要的原因是網路上關於他們的資料太少,」Casay Ellis 表示:「我們與客戶便需要決定是否重新訓練 LLM,或是在輸出回應時宣告該偏見的存在,並根據情況進行更新或任何緩解的手段。」

雖然 Bugcrowd 目前主要關注在 LLM 本身的評估測試,但 Casay Ellis 也承認未來 Bugcrowd 將持續導入更多的資料集 (Dataset) 測試功能,也允許客戶導入自己的資料集進行測試。「這就像是傳統的資安漏洞掃描服務,在測試應用程式的同時檢視原始碼,以提高評估效果。」

在評估測試結束後,Bugcrowd 會提供給客戶一份總結報告與建議改進事項,客戶可據此改進 LLM,可作為企業合規的認證之一。

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link