Cloudflare 宣佈把「阻擋 AI 網頁爬蟲」的功能,從選擇開啟 (optional) 改為預設開啟,提供內容網站更精細的允許控制,以及可能為內容業者開闢新收入的商業模式。
大語言模型 (LLM) 的原理是學習所接觸的資料來源。網際網路作為最大的公開資料來源,自然是各家 AI 業者網頁爬蟲鎖定的對象。這引起了內容網站業者的不滿,因為 AI 聊天機器人的回答,讓使用者大幅減少造訪網站的機會,以及因此而來的廣告和流量。更重要的是被侵犯了著作權和用戶隱私。
然而 AI 爬蟲擷取網頁,若訴諸法院或隱私主管機會卻效果不大。例如愛爾蘭資料保護委員會 (DPA) 今年 5 月拒絕阻止 Meta AI 擷取 Facebook 和 IG 內容。德國科隆法院也拒絕對 Meta AI 下達禁制令。主管機關或法院認為 AI 爬蟲擷取為合理使用。
Cloudflare 原本提供網站客戶允許或拒絕 AI 爬蟲的選項,現在 Cloudflare 啟動一項新計畫,要把爬蟲的決定權交給網站所有人和 AI 開發商,而非法院或立法者。 Cloudflare 宣佈將成為第一個預設封鎖 AI 爬蟲的網路基礎架構供應商,除非 AI 業者取得同意或付出代價(即支付費用)。
Cloudflare 並設計出相應的付費機制,稱為 Pay per crawl 。 AI 爬蟲每次呼叫內容時,其呼叫 request headers 若未展示支付意圖 (intent),就會接收到網站發出附有收費價的 402 Payment Required 的回應。網站持有者可以定義站上每次呼叫的單一費率,也能決定允許、收費和封鎖某種 AI 爬蟲(像是 OpenAI 的 GPTbot 、 Anthropic 的 ClaudeBot 、 Google 的 Googlebot)。但必要時網站也可跳過收費。
Cloudflare 希望這種互利方式能為網站持有者開闢新財源,邀請內容業者加入測試。
來源:SecurityWeek 、 Cloudflare
