DeepSeek-V3 亮相 6,850 億參數模型可在 Mac 執行

中國新創DeepSeek釋出可在Mac上運行的AI模型DeepSeek-V3-0324,具備低訓練成本與高效能,支援本地推理,挑戰西方AI產業基礎架構思維。

以超低訓練成本及強大效能震撼市場的中國新創業者 DeepSeek,本周悄悄釋出可在 Mac 電腦執行的新版 AI 模型。

DeepSeek-V3-0324 以 MIT 授權釋出,可免費商用,而且令人眼睛一亮的是,它可以直接跑在消費型系統,特別是搭載 M3 Ultra 晶片的 Mac Studio 上。 AI 研究人員 Awni Hannun 說,DeepSeek-V3-0324 在 512GB 記憶體的 M3 Ultra-based Mac 系統上,以每秒 20 token 的速率執行。雖然 Mac Studio 售價 9,499 美元不太能算「消費型硬體」,但已經距離資料中心伺服器很遠了,能在本地端跑這麼大的模型已非常了不起。

DeepSeek-V3-0324 為一參數量 6,850 億的模型,採用專家混合 (mixture-of-experts, MoE) 架構,創新了大語言模型運行方式。傳統模型每種任務都要啟動所有參數,但 DeepSeek 的方法中,特定任務只啟動最相關的專家模型參數,是它 6,850 億參數中的 370 億個,可大幅減少運算資源需求,為模型效率的一典範轉移。

DeepSeek-V3 還有二個技術突破,一是 Multi-Head Latent Attention (MLA),二是 Multl-Token Prediction (MTP) 。 MLA 可在多段文字後,維持脈絡相關性,MTP 則可在每一步驟生成多個 tokens,而非傳統上一步驟生成一個。這些創新使得 DeepSeek 輸出提升了近 80% 。

一位開發人員指出,DeepSeek-V3-0324 4-bit 縮小版將儲存需求空間減小到 352GB,使其得以在高階消費機種,如 Mac Studio 上執行。這也讓 AI 部署的基礎架構,不再需要傳統般多顆 Nvidia GPU 的吃電怪獸。 Mac Studio 在推論時只耗電不到 200 瓦。這創新將迫使西方 AI 產業重新思考頂級模型的基礎架構需求設計。

DeepSeek-V3-0324:AI 推理的基礎

DeepSeek-V3-0324 的技術特色顯示它可能作為 DeepSeek-R2 的基礎,後者是推論導向的模型,預計再二個月內就會推出。這也和 DeepSeek 的作業模式相同,先有基礎模型,幾周後再推出專門化的推理模型。一名用戶推測,去年聖誕節先推出 V3,幾周後推出 DeepSeek R1 。因此四月的 R2 大概也是這樣。

一名研究人員私下測完後認為在所有測試上,均較前版多所提升。研究人員認為它現在擠下 Claude 3.5 Sonnet 成為非推理模型之首。

更好的是,Anthropic Claude Sonnet 3.5 需要訂閱,而 DeepSeek-V3-0324 是完全開放所有人下載使用。

開放大眾使用尖端 AI 模型會加速 AI 的平民化。如果 DeepSeek-R2 循 R1 軌跡發展,也將直接挑戰 OpenAI 旗艦模型 GPT-5 。而這也代表 DeepSeek 開原碼模式和 OpenAI 封閉路線的正面對決。

DeepSeek-V3-0324 現在已在 HuggingFace 上開放原始碼。不過完整模型高達 641GB,意謂你需要大一點的機器。普羅大眾們最好在雲端上玩一玩便可:OpenRouter 提供免費 API 存取,選擇 DeepSeek-V3-0324 就可以開測了。 DeepSeek 自有聊天機器人在 chat.deepseek.com,似乎也已升到最新版本。

來源:VentureBeat

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link