DeepSeek-V3亮相　6,850億參數模型可在Mac執行

中國新創DeepSeek釋出可在Mac上運行的AI模型DeepSeek-V3-0324，具備低訓練成本與高效能，支援本地推理，挑戰西方AI產業基礎架構思維。

以超低訓練成本及強大效能震撼市場的中國新創業者 DeepSeek，本周悄悄釋出可在 Mac 電腦執行的新版 AI 模型。

DeepSeek-V3-0324 以 MIT 授權釋出，可免費商用，而且令人眼睛一亮的是，它可以直接跑在消費型系統，特別是搭載 M3 Ultra 晶片的 Mac Studio 上。 AI 研究人員 Awni Hannun 說，DeepSeek-V3-0324 在 512GB 記憶體的 M3 Ultra-based Mac 系統上，以每秒 20 token 的速率執行。雖然 Mac Studio 售價 9,499 美元不太能算「消費型硬體」，但已經距離資料中心伺服器很遠了，能在本地端跑這麼大的模型已非常了不起。

DeepSeek-V3-0324 為一參數量 6,850 億的模型，採用專家混合 (mixture-of-experts, MoE) 架構，創新了大語言模型運行方式。傳統模型每種任務都要啟動所有參數，但 DeepSeek 的方法中，特定任務只啟動最相關的專家模型參數，是它 6,850 億參數中的 370 億個，可大幅減少運算資源需求，為模型效率的一典範轉移。

DeepSeek-V3 還有二個技術突破，一是 Multi-Head Latent Attention (MLA)，二是 Multl-Token Prediction (MTP) 。 MLA 可在多段文字後，維持脈絡相關性，MTP 則可在每一步驟生成多個 tokens，而非傳統上一步驟生成一個。這些創新使得 DeepSeek 輸出提升了近 80% 。

一位開發人員指出，DeepSeek-V3-0324 4-bit 縮小版將儲存需求空間減小到 352GB，使其得以在高階消費機種，如 Mac Studio 上執行。這也讓 AI 部署的基礎架構，不再需要傳統般多顆 Nvidia GPU 的吃電怪獸。 Mac Studio 在推論時只耗電不到 200 瓦。這創新將迫使西方 AI 產業重新思考頂級模型的基礎架構需求設計。

DeepSeek-V3-0324：AI 推理的基礎

DeepSeek-V3-0324 的技術特色顯示它可能作為 DeepSeek-R2 的基礎，後者是推論導向的模型，預計再二個月內就會推出。這也和 DeepSeek 的作業模式相同，先有基礎模型，幾周後再推出專門化的推理模型。一名用戶推測，去年聖誕節先推出 V3，幾周後推出 DeepSeek R1 。因此四月的 R2 大概也是這樣。

一名研究人員私下測完後認為在所有測試上，均較前版多所提升。研究人員認為它現在擠下 Claude 3.5 Sonnet 成為非推理模型之首。

更好的是，Anthropic Claude Sonnet 3.5 需要訂閱，而 DeepSeek-V3-0324 是完全開放所有人下載使用。

開放大眾使用尖端 AI 模型會加速 AI 的平民化。如果 DeepSeek-R2 循 R1 軌跡發展，也將直接挑戰 OpenAI 旗艦模型 GPT-5 。而這也代表 DeepSeek 開原碼模式和 OpenAI 封閉路線的正面對決。

DeepSeek-V3-0324 現在已在 HuggingFace 上開放原始碼。不過完整模型高達 641GB，意謂你需要大一點的機器。普羅大眾們最好在雲端上玩一玩便可：OpenRouter 提供免費 API 存取，選擇 DeepSeek-V3-0324 就可以開測了。 DeepSeek 自有聊天機器人在 chat.deepseek.com，似乎也已升到最新版本。

來源：VentureBeat

DeepSeek-V3 亮相　6,850 億參數模型可在 Mac 執行

DeepSeek-V3-0324：AI 推理的基礎

相關

previous駭客濫用微軟簽章服務　偽裝惡意程式繞過檢測

nextF5 任命林志方為台灣區總經理加速推動雲端資安與AI驅動應用交付

發表迴響取消回覆

相關

DeepSeek-V3-0324：AI 推理的基礎

相關

previous駭客濫用微軟簽章服務 偽裝惡意程式繞過檢測

nextF5 任命林志方為台灣區總經理 加速推動雲端資安與AI驅動應用交付

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previous駭客濫用微軟簽章服務　偽裝惡意程式繞過檢測

nextF5 任命林志方為台灣區總經理加速推動雲端資安與AI驅動應用交付

探索更多來自網路資訊雜誌的內容