OpenAI 終於在昨日釋出自 2019 年 GPT-2 之後以來第一個開放權重模型,其中一款還能跑在筆電上。
新的 gpt-oss 模型有二款,包含強大的 gpt-oss-120b 和 gpt-oss-20b 。現在都可在 Hugging Face 或是最新合作的 AWS 下載。
較大的 gpt-oss-120b 可跑在單一 Nvidia GPU 平台上,而較小的 gpt-oss-20b 則是可跑在記憶體 16GB 的消費型筆電上。但 OpenAI 表示,雖然是免費的,但兩款模型在推理與數學標竿測試成績近似 O3-mini 或 o4-mini 等封閉模型。
OpenAI 表示,開放模型能將複雜的查詢傳送給雲端上的 AI 模型,這表示,如果 OpenAI 的開放模型無法處理某項任務,像是處理圖片,開發人員可以將開放模型連結 OpenAI 更強大的封閉模型。
這是這家 AI 新創公司睽違多年再次公開主要模型。雖然 OpenAI 早年曾開放模型,但近年來都偏好專屬、封閉模式,這種作法使其得以建立一個,再向企業客戶或開發人員收費以 API 存取大型模型的商業模式。
但 OpenAI 執行長 Sam Altman 一月表示,談到開原策略,OpenAI 可能「站在歷史錯誤的一方」。如今 OpenAI 面臨中國 AI 業者的激烈競爭,包括 DeepSeek 、阿里巴巴通義千問 (Qwen) 、月之暗面 (Mooshot AI) 及蝴蝶效應 (Butterfly) 的 Manus 。七月間川普政府要求美國 AI 業者開放更多技術,以推動符合美國價值的 AI 模型普及全球。
透過開放 gpt-oss,OpenAI 希望獲得美國公眾、川普政府的認同,並回應中國發展快速的 AI 產業競爭。 Altman 在聲明中指出,OpenAI 回歸 2015 年創立的初衷,以 AI 造福全人類,為此,該公司希望全世界都能在美國打造以民主價值為基礎的 AI 堆疊上開發。
OpenAI 表示,開放模型的訓練過程類似其專屬模型。每個模型都使用混合專家 (mixture-of-experts, MoE) 技術,每個詢問都使用較少的參數,以提升執行效率。 Gpt-oss-120b 擁有 1170 億參數,但每個 token 只啟動 51 個參數。
此外,他們還使用了高運算量(大型 Nvidia 叢集)環境下的增強式學習 (reinforcement learning, RL) 。該方法也用於 OpenAI 的 o 系列模型的訓練。此外,開放模型具備類似的思維鏈流程,花更多時間和運算資源來提供更好的答案。
不過和真正的開原專案不同,可能是礙於內容智財權可能引發的侵權官司風險。 OpenAI 並未釋出用於訓練資料集。
新模型都以 Apache 2.0 授權開放,允許企業運用這些模型獲利但無需支付或取得其同意客製化或商業化。 OpenAI 發佈計畫從今年初數度延期,OpenAI 解釋是為了安全考量。他們研究了駭客是否會透過微調 gpt-oss 模型來發動攻擊或建立生化武器,經過審慎評估後才釋出。
來源: Techcrunch
