微軟發表3款Phi-4-reasoning小語言模型　效能不輸DeepSeek、OpenAI o3-mini

微軟發表三款Phi-4小語言模型強調推理能力，效能在多項測試超越大型模型，支援邊緣運算與教育應用。

微軟發表適合小語言模型 (SLM) 推理版本 Phi-4-Reasoning 家族，包括 Phi-4-reasoning 、 Phi-4-reasoning-plus 和最小的 Phi-4-mini-reasoning，號稱經過良好的資料集訓練，讓小模型的回應品質，在某些測試上還優於大型知名模型如 DeepSeek-R1 或 OpenAI o3-mini 。

Phi-4-reasoning 模型能在回應前執行思考鏈，以提升回應準確度。新模型也讓可跑在邊緣裝置或手機上的微軟小語言模型 Phi-4 更為完整。今年初前微軟已前後公開 Phi-4 及 Phi-4 多模態模型版本。

Phi-4-reasoning 是以 Phi-4 為基礎，以 OpenAI o3-mini 示範作為訓練資料，採監督式微調，而 Phi-4-reasoning-plus 則是以 Phi-4-reasoning 為基礎強化學習訓練。兩者都是 140 億參數的模型，支援 32k token 的上下文長度。微軟宣稱，Phi-4-reasoning 運用精心安排的訓練資料和高品質的合成資料集訓練而稱，展現媲美大模型的效果。

微軟內部標竿測試顯示，在數學、程式、演算解題、規劃能力上，Phi-4-reasoning 及 Phi-4-reasoning-plus 都超越 DeepSeek-R1-Distall 70B，其中 Phi-4-reasoning-plus 甚且在二項測試中（AIME 25 、 HMMT Feb 25）超越 Deep-Seek-R1 671B MoE 。二模型在 OmniMath 測試表現更雙雙超越 2000 億參數的 OpenAI o3-mini 。

此外還有更小的 Phi-4-mini-reasoning，是 transformer 語言模型，利用 DeepSeek-R1 模型的合成資料訓練，包含小學到博士等級的數學資料。 Phi-4-mini-reasoning 參數量僅 3.8B，支援 128k context length，可跑在邊緣裝置或是手機上，適合教育應用、嵌入式教學。

Phi-4-mini-reasoning 雖然輕巧，但數學解題效能並不弱，在常見數學標竿測試不但遠優於 Phi-4-mini，也擊敗參數量二倍大的基礎模型如 OpenThinker-70B 、 Bespoke-Stratos-7B 、 DeepSeek-R1-Distill-Qwen-7B 與 DeepSeek-R1-Distill-Llama-8B，甚至在一項測試中超越千億參數的 OpenAI o1-mini 。

Phi-4-reasoning 、 Phi-4-reasoning-plus 、 Phi-4-mini-reasoning 已在 Hugging Face 開放權重，也可以在 Azure AI Factory 測試。

來源：Microsoft

微軟發表 3 款 Phi-4-reasoning 小語言模型　效能不輸 DeepSeek 、 OpenAI o3-mini

相關

previousMeta AI App正式登場 Llama API開放預覽　開發者可打造自家AI工具

nextPCIe 6 時代到來 Astera Labs 發表 Gearbox 解決跨世代設備互連瓶頸

發表迴響取消回覆

相關

相關

previousMeta AI App正式登場 Llama API開放預覽 開發者可打造自家AI工具

nextPCIe 6 時代到來 Astera Labs 發表 Gearbox 解決跨世代設備互連瓶頸

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previousMeta AI App正式登場 Llama API開放預覽　開發者可打造自家AI工具

探索更多來自網路資訊雜誌的內容