混合專家架構:Databricks 的 DBRX 模型如何更接近人腦運作,比 Llama 2 還快?

Databricks推出DBRX語言模型,超越現有模型,開放原始碼,使用混合專家架構,適用於關鍵治理和安全領域,並已在GitHub和Hugging Face釋出。

AI 資料分析平台 Databricks 本周推出自有通用大型語言模型 DBRX,宣稱在標準標竿測試中,表現超越所有開原碼、甚至知名封閉模型。

Databricks 也將把 DBRX 模型開放原始碼,鼓勵客戶從商業專屬模型移轉出來。 Databricks 執行長 Ali Ghodsi 指出,最寶貴的資料是儲存在企業內部,但 AI 卻長期被拒絕於門外,該公司希望以微調後仍不減效能的開原碼 AI 模型獲取企業採納。

DBRX 使用「混合專家」(mixture of experts, MoE) 架構,這是一種將學習過程切分為多個名為「專家」的子網路的神經網路,每個子網路負責一部份任務,並由閘門網路 (gating network) 決定如何將輸入資料分配到這些「專家」網路。 Databricks 生成式 AI 部門副總裁 Neveen Rao 指出,MoE 架構比另一巨大 AI 模型更接近人腦。

產業人士指出,和 LLM 相比,專家混合架構速度更快,但卻較便宜。 Databricks 也是第一家使用此架構的知名商業模型。

DBRX 參數達 1,320 億,是 Llama 2 將近 2 倍大,但也是 Llama 2 的 2 倍快。 Databricks 花了千萬美元以公有及授權資料,在 3,000 顆 H100 GPU 上,以 2 個月時間來訓練 DBRX 。該公司宣稱,根據一些標竿測試,DBRX 在語言理解、程式編寫、數學和邏輯能力超越現有開原碼模型 Llama 2 70B 及 Mixtral-8x7B,以及封閉模型 GPT 3.5 。

DBRX 在語言理解 (MMLU) 、寫程式 (HumanEval) 和數學 (GSM8K) 方面超越了現有的開原模型。

不過 DBRX 需要龐大馬力,一台具備 4 顆 Nvidia H100 GPU 的 PC 或伺服器,這可也是一小數目,每顆要數千美元,而且你還不一定買得到,因為太搶手。

Ghosi 指出,DBRX 最相關的使用場景是和關鍵治理和安全有關,像是金融服務業、醫療或需要大量回應的,如客戶自助服務。此外,DBRX 還可以搭配開發、部署與監管工具 Databricks Mosaic AI 來打造與部署生成式 AI 應用,可確保安全與準確性,且不需犠牲資料控管。

現在 DBRX 已在 GitHub 及 Hugging Face 上開原碼釋出。開發人員現在就可在檢索擴增生成(retrieval-augmented generation, RAG)中使用它超長的 context window,或以 Databricks 平台上以自家資料自建 DBRX 模型。

來源:Silicon Angle

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link