微軟發表 3 款 Phi-4-reasoning 小語言模型 效能不輸 DeepSeek 、 OpenAI o3-mini

微軟發表三款Phi-4小語言模型強調推理能力,效能在多項測試超越大型模型,支援邊緣運算與教育應用。

微軟發表適合小語言模型 (SLM) 推理版本 Phi-4-Reasoning 家族,包括 Phi-4-reasoning 、 Phi-4-reasoning-plus 和最小的 Phi-4-mini-reasoning,號稱經過良好的資料集訓練,讓小模型的回應品質,在某些測試上還優於大型知名模型如 DeepSeek-R1 或 OpenAI o3-mini 。

Phi-4-reasoning 模型能在回應前執行思考鏈,以提升回應準確度。新模型也讓可跑在邊緣裝置或手機上的微軟小語言模型 Phi-4 更為完整。今年初前微軟已前後公開 Phi-4 及 Phi-4 多模態模型版本。

Phi-4-reasoning 是以 Phi-4 為基礎,以 OpenAI o3-mini 示範作為訓練資料,採監督式微調,而 Phi-4-reasoning-plus 則是以 Phi-4-reasoning 為基礎強化學習訓練。兩者都是 140 億參數的模型,支援 32k token 的上下文長度。微軟宣稱,Phi-4-reasoning 運用精心安排的訓練資料和高品質的合成資料集訓練而稱,展現媲美大模型的效果。

微軟內部標竿測試顯示,在數學、程式、演算解題、規劃能力上,Phi-4-reasoning 及 Phi-4-reasoning-plus 都超越 DeepSeek-R1-Distall 70B,其中 Phi-4-reasoning-plus 甚且在二項測試中(AIME 25 、 HMMT Feb 25)超越 Deep-Seek-R1 671B MoE 。二模型在 OmniMath 測試表現更雙雙超越 2000 億參數的 OpenAI o3-mini 。

此外還有更小的 Phi-4-mini-reasoning,是 transformer 語言模型,利用 DeepSeek-R1 模型的合成資料訓練,包含小學到博士等級的數學資料。 Phi-4-mini-reasoning 參數量僅 3.8B,支援 128k context length,可跑在邊緣裝置或是手機上,適合教育應用、嵌入式教學。

Phi-4-mini-reasoning 雖然輕巧,但數學解題效能並不弱,在常見數學標竿測試不但遠優於 Phi-4-mini,也擊敗參數量二倍大的基礎模型如 OpenThinker-70B 、 Bespoke-Stratos-7B 、 DeepSeek-R1-Distill-Qwen-7B 與 DeepSeek-R1-Distill-Llama-8B,甚至在一項測試中超越千億參數的 OpenAI o1-mini 。

Phi-4-reasoningPhi-4-reasoning-plusPhi-4-mini-reasoning 已在 Hugging Face 開放權重,也可以在 Azure AI Factory 測試。

來源:Microsoft

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link