微軟發表適合小語言模型 (SLM) 推理版本 Phi-4-Reasoning 家族,包括 Phi-4-reasoning 、 Phi-4-reasoning-plus 和最小的 Phi-4-mini-reasoning,號稱經過良好的資料集訓練,讓小模型的回應品質,在某些測試上還優於大型知名模型如 DeepSeek-R1 或 OpenAI o3-mini 。
Phi-4-reasoning 模型能在回應前執行思考鏈,以提升回應準確度。新模型也讓可跑在邊緣裝置或手機上的微軟小語言模型 Phi-4 更為完整。今年初前微軟已前後公開 Phi-4 及 Phi-4 多模態模型版本。
Phi-4-reasoning 是以 Phi-4 為基礎,以 OpenAI o3-mini 示範作為訓練資料,採監督式微調,而 Phi-4-reasoning-plus 則是以 Phi-4-reasoning 為基礎強化學習訓練。兩者都是 140 億參數的模型,支援 32k token 的上下文長度。微軟宣稱,Phi-4-reasoning 運用精心安排的訓練資料和高品質的合成資料集訓練而稱,展現媲美大模型的效果。
微軟內部標竿測試顯示,在數學、程式、演算解題、規劃能力上,Phi-4-reasoning 及 Phi-4-reasoning-plus 都超越 DeepSeek-R1-Distall 70B,其中 Phi-4-reasoning-plus 甚且在二項測試中(AIME 25 、 HMMT Feb 25)超越 Deep-Seek-R1 671B MoE 。二模型在 OmniMath 測試表現更雙雙超越 2000 億參數的 OpenAI o3-mini 。
此外還有更小的 Phi-4-mini-reasoning,是 transformer 語言模型,利用 DeepSeek-R1 模型的合成資料訓練,包含小學到博士等級的數學資料。 Phi-4-mini-reasoning 參數量僅 3.8B,支援 128k context length,可跑在邊緣裝置或是手機上,適合教育應用、嵌入式教學。
Phi-4-mini-reasoning 雖然輕巧,但數學解題效能並不弱,在常見數學標竿測試不但遠優於 Phi-4-mini,也擊敗參數量二倍大的基礎模型如 OpenThinker-70B 、 Bespoke-Stratos-7B 、 DeepSeek-R1-Distill-Qwen-7B 與 DeepSeek-R1-Distill-Llama-8B,甚至在一項測試中超越千億參數的 OpenAI o1-mini 。
Phi-4-reasoning 、 Phi-4-reasoning-plus 、 Phi-4-mini-reasoning 已在 Hugging Face 開放權重,也可以在 Azure AI Factory 測試。
來源:Microsoft
