AI 資料分析平台 Databricks 本周推出自有通用大型語言模型 DBRX,宣稱在標準標竿測試中,表現超越所有開原碼、甚至知名封閉模型。
Databricks 也將把 DBRX 模型開放原始碼,鼓勵客戶從商業專屬模型移轉出來。 Databricks 執行長 Ali Ghodsi 指出,最寶貴的資料是儲存在企業內部,但 AI 卻長期被拒絕於門外,該公司希望以微調後仍不減效能的開原碼 AI 模型獲取企業採納。
DBRX 使用「混合專家」(mixture of experts, MoE) 架構,這是一種將學習過程切分為多個名為「專家」的子網路的神經網路,每個子網路負責一部份任務,並由閘門網路 (gating network) 決定如何將輸入資料分配到這些「專家」網路。 Databricks 生成式 AI 部門副總裁 Neveen Rao 指出,MoE 架構比另一巨大 AI 模型更接近人腦。
產業人士指出,和 LLM 相比,專家混合架構速度更快,但卻較便宜。 Databricks 也是第一家使用此架構的知名商業模型。
DBRX 參數達 1,320 億,是 Llama 2 將近 2 倍大,但也是 Llama 2 的 2 倍快。 Databricks 花了千萬美元以公有及授權資料,在 3,000 顆 H100 GPU 上,以 2 個月時間來訓練 DBRX 。該公司宣稱,根據一些標竿測試,DBRX 在語言理解、程式編寫、數學和邏輯能力超越現有開原碼模型 Llama 2 70B 及 Mixtral-8x7B,以及封閉模型 GPT 3.5 。

不過 DBRX 需要龐大馬力,一台具備 4 顆 Nvidia H100 GPU 的 PC 或伺服器,這可也是一小數目,每顆要數千美元,而且你還不一定買得到,因為太搶手。
Ghosi 指出,DBRX 最相關的使用場景是和關鍵治理和安全有關,像是金融服務業、醫療或需要大量回應的,如客戶自助服務。此外,DBRX 還可以搭配開發、部署與監管工具 Databricks Mosaic AI 來打造與部署生成式 AI 應用,可確保安全與準確性,且不需犠牲資料控管。
現在 DBRX 已在 GitHub 及 Hugging Face 上開原碼釋出。開發人員現在就可在檢索擴增生成(retrieval-augmented generation, RAG)中使用它超長的 context window,或以 Databricks 平台上以自家資料自建 DBRX 模型。
