混合專家架構：Databricks的DBRX模型如何更接近人腦運作，比Llama 2還快？

Databricks推出DBRX語言模型，超越現有模型，開放原始碼，使用混合專家架構，適用於關鍵治理和安全領域，並已在GitHub和Hugging Face釋出。

AI 資料分析平台 Databricks 本周推出自有通用大型語言模型 DBRX，宣稱在標準標竿測試中，表現超越所有開原碼、甚至知名封閉模型。

Databricks 也將把 DBRX 模型開放原始碼，鼓勵客戶從商業專屬模型移轉出來。 Databricks 執行長 Ali Ghodsi 指出，最寶貴的資料是儲存在企業內部，但 AI 卻長期被拒絕於門外，該公司希望以微調後仍不減效能的開原碼 AI 模型獲取企業採納。

DBRX 使用「混合專家」(mixture of experts, MoE) 架構，這是一種將學習過程切分為多個名為「專家」的子網路的神經網路，每個子網路負責一部份任務，並由閘門網路 (gating network) 決定如何將輸入資料分配到這些「專家」網路。 Databricks 生成式 AI 部門副總裁 Neveen Rao 指出，MoE 架構比另一巨大 AI 模型更接近人腦。

產業人士指出，和 LLM 相比，專家混合架構速度更快，但卻較便宜。 Databricks 也是第一家使用此架構的知名商業模型。

DBRX 參數達 1,320 億，是 Llama 2 將近 2 倍大，但也是 Llama 2 的 2 倍快。 Databricks 花了千萬美元以公有及授權資料，在 3,000 顆 H100 GPU 上，以 2 個月時間來訓練 DBRX 。該公司宣稱，根據一些標竿測試，DBRX 在語言理解、程式編寫、數學和邏輯能力超越現有開原碼模型 Llama 2 70B 及 Mixtral-8x7B，以及封閉模型 GPT 3.5 。

DBRX 在語言理解 (MMLU) 、寫程式 (HumanEval) 和數學 (GSM8K) 方面超越了現有的開原模型。

不過 DBRX 需要龐大馬力，一台具備 4 顆 Nvidia H100 GPU 的 PC 或伺服器，這可也是一小數目，每顆要數千美元，而且你還不一定買得到，因為太搶手。

Ghosi 指出，DBRX 最相關的使用場景是和關鍵治理和安全有關，像是金融服務業、醫療或需要大量回應的，如客戶自助服務。此外，DBRX 還可以搭配開發、部署與監管工具 Databricks Mosaic AI 來打造與部署生成式 AI 應用，可確保安全與準確性，且不需犠牲資料控管。

現在 DBRX 已在 GitHub 及 Hugging Face 上開原碼釋出。開發人員現在就可在檢索擴增生成（retrieval-augmented generation, RAG）中使用它超長的 context window，或以 Databricks 平台上以自家資料自建 DBRX 模型。

來源：Silicon Angle

混合專家架構：Databricks 的 DBRX 模型如何更接近人腦運作，比 Llama 2 還快？

相關

previous一站式AI協作平台 Zoom Workplace隆重登場！革新功能全面驅動團隊合作

nextGoogle宣布Pixel 8將支援Gemini Nano 手機也能跑AI模型

發表迴響取消回覆

相關

相關

previous一站式AI協作平台 Zoom Workplace隆重登場！革新功能全面驅動團隊合作

nextGoogle宣布Pixel 8將支援Gemini Nano 手機也能跑AI模型

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容