微軟與Nvidia將在Azure上合建更大的AI超級電腦

微軟又和GPU大廠Nvidia簽定多年合作，在Azure上再建立新的超級電腦，採用Nvidia的GPU、網路和AI軟體，以訓練AI系統為任務。

大約 2 年前微軟宣佈與 OpenAI 合作，在 Azure 雲端上建立 AI 超級電腦，包含 28.5 萬核心及 1 萬片繪圖卡。微軟當時聲稱是世界最大的超級電腦叢集。

而在 2 年後，為了支援更大的 AI 應用負載，微軟又和 GPU 大廠 Nvidia 簽定多年合作，在 Azure 上再建立新的超級電腦，採用 Nvidia 的 GPU 、網路和 AI 軟體，以訓練 AI 系統為任務。

微軟雲端和 AI 事業群執行副總裁 Scott Guthrie 指出，該公司和 Nvidia 的合作將可釋放全球擴充性最大的超級電腦平台，提供 Microsoft Azure 上每家企業優異的 AI 功能。

這部超級電腦技術細節資訊不多，主要包括使用 Nvidia 的 Quantum-2 400Gb/s InfiniBand 網路技術，以及 H100 A100 GPU 。目前的 Azure 執行個體使用前一代的 Nvidia A100 GPU 搭配 Quantum 200 Gb/s InfiniBand 網路。

H100 是 Nvidia Hopper 架構的旗艦產品，包含為加速機器學習而設計的 Transformer Engine，效能是 A100 的 1.5 到 6 倍之間。它的耗電量也比較低，和 A100 產出同樣效能，但用電效能高了 3.5 倍。

Nvidia 表示將利用 Azure 虛擬機器執行個體研究生成性 (generative )AI，或是可建立文字、程式碼、圖片、影片或聲音的自主學習演算法（類似 OpenAI 產出文字的 GPT-3，或產出圖片的 DALL-E 2）。同時微軟也為新 Nvidia 硬體最佳化 DeepSpeed 函式庫，主要目的在減低 AI 訓練過程中的運算力及記憶體使用，並且和 Nvidia 合作 Azure 企業客戶得以使用後者的 AI 工作流程及軟體開發套件。

Nvidia 為何選擇在微軟 Azure 執行個體而非它自己的超級電腦 Selene，則不得而知。該公司已經使用 Selene 訓練生成性 AI，如文字轉圖片 AI 模型 GauGAN2 。可能 Nvidia 希望它能執行的 AI 系統不限於 Selene，或是 Nvidia 正在打造的下一代超級電腦 Eos，Eos 具備 4,608 顆 H100 GPU ，AI 運算效能可高達 18.4exflops 。

業界對 AI 訓練基礎架構的效能需求所致，帶動雲端和硬體廠商的軍備競賽。上周晶片新創公司 Celebras 公佈具有 1350 萬核心的 AI 超級電腦 Andromeda，宣稱 AI 運算效能超過 1 exaflop 。 Google 和 Amazon 也持續推進專屬晶片的開發，各為 TPU 及 Trainium 。

來源：Techcrunch

微軟與 Nvidia 將在 Azure 上合建更大的 AI 超級電腦

相關

previous紅極一時的Evernote宣布賣給義大利行動應用開發商Bending Spoon

next微軟釋出SQL Server 2022　加入多項雲端功能

發表迴響取消回覆

相關

相關

previous紅極一時的Evernote宣布賣給義大利行動應用開發商Bending Spoon

next微軟釋出SQL Server 2022 加入多項雲端功能

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

next微軟釋出SQL Server 2022　加入多項雲端功能

探索更多來自網路資訊雜誌的內容