微軟與 Nvidia 將在 Azure 上合建更大的 AI 超級電腦

微軟又和GPU大廠Nvidia簽定多年合作,在Azure上再建立新的超級電腦,採用Nvidia的GPU、網路和AI軟體,以訓練AI系統為任務。

大約 2 年前微軟宣佈與 OpenAI 合作,在 Azure 雲端上建立 AI 超級電腦,包含 28.5 萬核心及 1 萬片繪圖卡。微軟當時聲稱是世界最大的超級電腦叢集。

而在 2 年後,為了支援更大的 AI 應用負載,微軟又和 GPU 大廠 Nvidia 簽定多年合作,在 Azure 上再建立新的超級電腦,採用 Nvidia 的 GPU、網路和 AI 軟體,以訓練 AI 系統為任務。

微軟雲端和 AI 事業群執行副總裁 Scott Guthrie 指出,該公司和 Nvidia 的合作將可釋放全球擴充性最大的超級電腦平台,提供 Microsoft Azure 上每家企業優異的 AI 功能。

這部超級電腦技術細節資訊不多,主要包括使用 Nvidia 的 Quantum-2 400Gb/s InfiniBand 網路技術,以及 H100 A100 GPU。目前的 Azure 執行個體使用前一代的 Nvidia A100 GPU 搭配 Quantum 200 Gb/s InfiniBand 網路。

H100 是 Nvidia Hopper 架構的旗艦產品,包含為加速機器學習而設計的 Transformer Engine,效能是 A100 的 1.5 到 6 倍之間。它的耗電量也比較低,和 A100 產出同樣效能,但用電效能高了 3.5 倍。

Nvidia 表示將利用 Azure 虛擬機器執行個體研究生成性 (generative )AI,或是可建立文字、程式碼、圖片、影片或聲音的自主學習演算法(類似 OpenAI 產出文字的 GPT-3,或產出圖片的 DALL-E 2)。同時微軟也為新 Nvidia 硬體最佳化 DeepSpeed 函式庫,主要目的在減低 AI 訓練過程中的運算力及記憶體使用,並且和 Nvidia 合作 Azure 企業客戶得以使用後者的 AI 工作流程及軟體開發套件。

Nvidia 為何選擇在微軟 Azure 執行個體而非它自己的超級電腦 Selene,則不得而知。該公司已經使用 Selene 訓練生成性 AI,如文字轉圖片 AI 模型 GauGAN2。可能 Nvidia 希望它能執行的 AI 系統不限於 Selene,或是 Nvidia 正在打造的下一代超級電腦 Eos,Eos 具備 4,608 顆 H100 GPU ,AI 運算效能可高達 18.4exflops。

業界對 AI 訓練基礎架構的效能需求所致,帶動雲端和硬體廠商的軍備競賽。上周晶片新創公司 Celebras 公佈具有 1350 萬核心的 AI 超級電腦 Andromeda,宣稱 AI 運算效能超過 1 exaflop。Google 和 Amazon 也持續推進專屬晶片的開發,各為 TPU 及 Trainium。

來源:Techcrunch

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2023 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading