Nvidia 將高效能伺服器平台 GB200 NVL72 機櫃及運算匣/交換機匣設計給開放運算專案 (Open Compute Project, OCP),讓 OCP 成員也可以打造 Nvidia Blackwell GPU 為基礎的系統設計。 Nvidia 分享 GB200 NVL72 的重要設計元素,藉此加速開發支援 Nvidia 下世代 GPU 及網路技術的開放資料中心伺服器。
這個開原碼專案的核心是搭載最多 72 顆 GB100 或 GB 200 GPU 的 GB200 NVL72 系統。 Nvidia 貢獻出關鍵電機設計,包括機櫃架構、冷卻系統和運算匣元件。 GB200 NVL72 系統特色在基於 MGX 架構的模組化系統,單一機櫃可串連 36 顆 Grace CPU 和 72 顆 Blackwell GPU 。本設計提供了 NVLink 的能力,使整個系統整合度極高,執行起來有如單一顆 GPU 。
在 OCP 大會上,Nvidia 也公佈 GB200 NVL72 的新共同參考設計,本設計是配合 Vertiv 發展,後者是以高密度運算資料中心供電與冷卻方案聞名。新的參考設計可縮短雲端供應商 (CSP) 和資料中心 Blackwell 平台的部署時程。
藉著這個參考設計,資料中心再也無需客製設計 GB200 NVL 72 專用的供電、冷卻、空間分隔設計。他們只要用 Verti 就能扮演省空間的能源管理和節能冷卻方案,使資料中心可以更快部署全球化的 7 百萬瓦 GB200 NVL72 叢集,而部署時間可縮短最多 50% 。
除了伺服器硬體,Nvidia 還貢獻了 Spectrum-X 乙太網路平台規格給 OCP,有助加速 AI 資料中心網速,又能讓企業持續原有軟體的架構,以節省 IT 支出。 Nvidia 貢獻的技術包括 Connect-8 SuperNIC,明年將納入 OCP 3.0 標準中。未來 SuperNIC 網路設備將支援最高 800Gb/s 網速,其可程式化的封包處理也為 AI 負載最佳化,讓企業得以打造支援 AI 的高彈性網路。
目前有 40 多家電子廠商正和 Nvidia 合作開發 Blackwell 平台。最有名的 OCP 成員要算是 Meta,它也計畫將其 GB200 NVL72 為基礎的 Catalina AI 機櫃架構規格公開給 OCP 。
透過和 OCP 合作,Nvidia 硬體設計和網路設備規格得以公開給廣大資料中心開發商,但這目的也很明顯,可讓 Nvidia 將 Blackwell GPU 和 ConnectX-8 SuperNIC 賣進這些採用 OCP 標準的企業內。
