OpenAI 在「12 Days of OpenAI」直播系列的第二天,推出了針對其 o1 模型的強化微調 (reinforcement fine-tuning, RFT),打破了 AI 客製化的界限。這項突破代表傳統微調方式的末日。有了 RFT,模型不再只是複製結果,而是能夠進行推理。
透過運用強化學習,OpenAI 希望協助各組織打造在法律、醫療、金融等複雜領域的專家級 AI 。這種新方法讓組織能以最少的資料(有時僅需 12 個範例),利用強化學習來訓練模型,處理特定領域的任務。
藉由使用參考答案對模型輸出進行評估與改進,RFT 在專家級任務中提升模型的推理與準確度。 OpenAI 展示了以 RFT 技術對 o1-mini 模型進行微調的成果,讓該模型在預測遺傳性疾病方面比先前版本更為準確。
本文目錄
重新定義模型微調
與傳統微調不同的是,RFT 著重於教導模型思考與推理問題。正如 OpenAI 研究部門主管 Mark Chen 所言:「這不是標準的微調……它使用了我們從高階高中水準推向專家級博士水準的強化學習演算法。」
但這個方法並非沒有弱點。 OpenAI 工程師 John Allard 解釋,RFT 在結果「客觀正確且普遍認同」的任務中表現特別優異,但在具主觀性或需創意且共識難以定義的領域中可能表現較差。
然而,強化微調技術 (RFT) 普遍被認為比傳統的完整微調更有效率。此外,批評者指出 RFT 的表現很大程度上取決於任務設計與訓練資料品質。
值得注意的是,透過 RFT,你只需要幾十個範例就可獲得顯著的性能提升,因為模型是透過回饋學習,而非必須看到所有可能情境。
已有早期採用者(包括柏克萊實驗室研究人員)取得傑出成果。例如,一個經 RFT 微調的 o1-mini 模型在辨識導致罕見疾病的基因突變方面超越了其原始版本。
OpenAI 已向特定組織開放 RFT 的初期試用計畫。參與團隊將能使用 OpenAI 的基礎設施,訓練出符合其獨特需求的最佳化模型。「開發者現在能夠使用我們的內部工具,打造特定領域的專家模型。」John Allard 表示。
運算生物學家 Justin Reese 強調了 RFT 在醫療領域的變革潛力,特別是對影響數百萬人的罕見疾病。「能夠將專業領域知識與對生物醫學資料的系統化推論結合,這實在是具有突破性的改變。」他說。
同樣地,OpenAI 與 Thomson Reuters 的合作也已在法律領域的微調上顯示成功,為法律與保險等高風險領域的先進 AI 應用鋪路。
AI 客製化的新紀元
OpenAI 計畫在 2025 年對外正式發布 RFT,並將根據早期參與者的回饋進行調整。除初期應用之外,OpenAI 展望 RFT 模型將能在數學、研究與基於代理人的決策領域發揮更大作用。 Mark Chen 表示:「這是在為人類最複雜的挑戰創造高度專精的工具。」
簡言之,這項技術可將 OpenAI 的 o1 系列模型轉化為特定領域的專家,使其能以前所未有的準確度進行推理,在複雜且高風險的任務中凌駕其原始版本。
一般來說,傳統微調是利用監督式學習,將預訓練模型以新資料集再次訓練,模型會根據資料集中提供的精確輸出或標籤來調整參數。
反觀 RFT 則運用強化學習,模型並非僅從直接範例中學習,而是從自身表現的回饋中學習。
模型不再只從固定的標籤中學習,而是根據預先定義的評分標準或評分者的回饋來判斷任務完成度。這讓模型能嘗試不同解法並從結果中學習,更著重於增進推理能力。
