Meta將打造全球最快AI超級電腦 將搭載1.6萬顆Nvidia A100 GPU
Meta本周表示正在打造全世界最快AI超級電腦-AI Research SuperCluster (RSC)將搭載1.6萬顆Nvidia A100 GPU,預定2022年中完成。該公司目前已經利用這台電腦訓練大型電腦視覺及自然語言處理(NLP)模型。
Meta執行長Mark Zuckerberg表示,該公司正在推動的元宇宙(metaverse)需要極大運算效能,而RSC將可建立能學習數兆範例、理解數百種語言等內容的AI模型。
現有系統是AI研究實驗室(FAIR) 2017年建立,搭載2.2萬顆Nvidia V100 GPU。
不同於Meta 現有AI超級電腦,RSC可以利用該公司臉書社交平台上真實資料來訓練機器學習模型。而和前代相比,RSC提供了超過3倍的大型NLP workflow效能,而硬體容量卻僅不到一半。
RSC建造分兩個階段,目前已完成第一階段。第一階段由760 座Nvidia DGX A100系統組成,包含6,080 顆GPU,各系統由Nvidia Quantum 200Gb/s InfiniBand網路。
儲存系統則包含175 PB的 Pure Storage FlashArray、46 PB 的Penguin Altus快取儲存與10 PB Pure Storage FlashBlade。訓練資料將來自FAIR專用儲存服務AI Research Store (AIRStore)。
等今年年中RSC完成時,同一座網路將連結1.6萬顆GPU,使其成為最大的DGX A100環境。屆時它的快取及儲存系統將具備16TB/s頻寬,預計提供將近5 exaflops的混合精度運算效能。
Meta技術經理Kevin Lee與Shubho Shengupta指出希望該系統能利用1 Exabyte的資料集訓練超越1兆個參數的模型,這批資料等同於3.6萬年高畫質影像的資料。
另一個不同的是,前一代系統只使用開原碼軟體及公開資料,而RSC將使用臉書上的真實用戶資料來訓練。為 此Meta以隱私和安全為上從頭設計RSC,和網際網路切開,沒有直接對內或對外連線,所有流量都僅來自Meta資料中心。用戶資料經過匿名化處理,所有從儲存到GPU的資料路徑都會加密。
他們表示希望RSC能幫助他們建立全新的AI系統,以處理多種族群、多種語言的即時語音翻譯,使其能在執行研究專案或玩AR遊戲時無礙協同及溝通,透過AI應用及產品,最終為建立次世代運算平台—元宇宙–奠定基礎。