在投資的 OpenAI 推出模型如 o3 系列,微軟也不甘原地踏步,而是持續發展自有小型語言模型。
微軟研究人員及 AI 科學家上周分別公佈,微軟以完整開原碼專案在 Hugging Face 釋出 Phi-4 。
微軟其實上個月已經公佈 Phi-4,但當時僅在自家開發平台 Azure AI Foundry 以研究授權釋出。上周 AI 首席研究工程師 Shital Shah 宣佈,Phi-4 以 MIT 授權進一步在 Hugging Face 釋出,任何具有 Hugging Face 帳號的人都能存取 Phi-4 專案。開原碼的 Phi-4 模型參數達 140 億,MIT 授權意謂也可用於商業應用程式。
Phi-4 上個月在 Azure AI Foundry 平台釋出後,很快引起廣大迴響。 Phi-4 效能在數學推理、多任務語言理解等領域超越許多大型語言模型,且使用更少的運算資源。
Phi-4 更簡潔的架構及其著重推理與邏輯,可解決 AI 高效能需求,又能在運算力與記憶體有限的環境下執行。而配合寬鬆的 MIT 授權,微軟希望能將 Phi-4 加速普及於廣大的研究人員和開發商,甚至企業。
Phi-4 特點何在?
Phi-4 標竿測試成績如下:
- 在 MATH 和 MGSM 的測試中得分超過 80%,超越 Google Gemini Pro 及 OpenAI 的 GPT-4o-mini 。
- 對金融、工程和科學研究很重要的數學推理能力表現高超。
- 撰寫程式的 HumanEval 標竿測試表現優異。
此外,Phi-4 架構和訓練過程也特別著重精確和效率。它的 140 億參數的 decoder-only transformer 模型以來自編排與合成資料集,共 9.8 兆個字詞 (token) 訓練而成。
而訓練方法方面,微軟團隊使用了監督式微調和直接偏好優化 (direct preference optimization, DPO) 方法確保紮實效能,又解決了公平與穩定性等問題。
微軟強調 Phi-4 訓練過程考慮負責任 AI 開發,經過廣泛安全評估,包括攻擊測試,以便降低偏見、產生有害內容及假資訊等風險。
不過微軟還是建議開發人員要留心,應額外防範高風險應用,並且部署於關鍵情境時,將 Phi-4 的輸出以確實資訊加以驗證。
來源:VentureBeat
