微軟與Nvidia將在Azure上合建更大的AI超級電腦

微軟又和GPU大廠Nvidia簽定多年合作,在Azure上再建立新的超級電腦,採用Nvidia的GPU、網路和AI軟體,以訓練AI系統為任務。

大約2年前微軟宣佈與OpenAI合作,在Azure雲端上建立AI超級電腦,包含28.5萬核心及1萬片繪圖卡。微軟當時聲稱是世界最大的超級電腦叢集。

而在2年後,為了支援更大的AI應用負載,微軟又和GPU大廠Nvidia簽定多年合作,在Azure上再建立新的超級電腦,採用Nvidia的GPU、網路和AI軟體,以訓練AI系統為任務。

微軟雲端和AI事業群執行副總裁Scott Guthrie指出,該公司和Nvidia的合作將可釋放全球擴充性最大的超級電腦平台,提供Microsoft Azure上每家企業優異的AI功能。

這部超級電腦技術細節資訊不多,主要包括使用Nvidia的Quantum-2 400Gb/s InfiniBand網路技術,以及H100 A100 GPU。目前的Azure執行個體使用前一代的Nvidia A100 GPU搭配Quantum 200 Gb/s InfiniBand網路。

H100是Nvidia Hopper架構的旗艦產品,包含為加速機器學習而設計的Transformer Engine,效能是A100的1.5到6倍之間。它的耗電量也比較低,和A100產出同樣效能,但用電效能高了3.5倍。

Nvidia表示將利用Azure虛擬機器執行個體研究生成性(generative )AI,或是可建立文字、程式碼、圖片、影片或聲音的自主學習演算法(類似OpenAI產出文字的GPT-3,或產出圖片的DALL-E 2)。同時微軟也為新Nvidia硬體最佳化DeepSpeed函式庫,主要目的在減低AI訓練過程中的運算力及記憶體使用,並且和Nvidia合作Azure企業客戶得以使用後者的AI工作流程及軟體開發套件。

Nvidia為何選擇在微軟Azure執行個體而非它自己的超級電腦Selene,則不得而知。該公司已經使用Selene訓練生成性AI,如文字轉圖片AI模型GauGAN2。可能Nvidia希望它能執行的AI系統不限於Selene,或是Nvidia正在打造的下一代超級電腦Eos,Eos具備4,608顆 H100 GPU ,AI運算效能可高達18.4exflops。

業界對AI訓練基礎架構的效能需求所致,帶動雲端和硬體廠商的軍備競賽。上周晶片新創公司Celebras公佈具有1350萬核心的AI超級電腦Andromeda,宣稱AI運算效能超過1 exaflop。Google和Amazon也持續推進專屬晶片的開發,各為TPU及Trainium。

來源:Techcrunch

關於我們

自1990年創刊UXmaster雜誌,1991年獲得美國LAN Magazine獨家授權中文版,2006年獲得CMP Network Computing授權,2009年合併CMP Network Magazine獨家授權中文版,2014年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2022 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416