Azure Nvidia A100 GPU 雲端超級電腦服務正式上線
微軟 Azure 周三宣佈 Azure ND A100 v4 Cloud GPU 執行個體正式上線 (General Availability),號稱是雲端上的超級電腦。
這項服務搭載 Nvidia A100 Tensor Core GPU,是為運算需求極大的任務,像是跑 AI 及高效能運算 (high performance computing, HPC) 的用戶而設計。微軟指出,ND A100 v4 組合了市場產業標準的高效能運算 (HPC) 和 AI 工具及函式庫而成,不需任何專屬軟體或框架即可操作。
微軟表示,ND A100 v4 使用的函式庫 Nvidia NCCL 2 也是市場上 GPU 加速的 AI 和 HPC 應用主流支援的函式庫,因此也不需擔心底層網路拓璞的問題。在同一 Azure VM Scale Set 中供應 (provision) 一個 VM,網路互連設定會自動完成。
微軟宣稱,ND A100 v4 164 個 VM 能產生 16.59 petaflops 的浮點運算能力。以世界五百大超級電腦排名來比擬,大約等同當今全球第 20 大運算系統。
雲端超級電腦
根據微軟的資料,ND A100 v4 最基本層級為 1 VM、8 顆 Nvidia Ampere 架構的 A100 Tensor Core GPUs,但單一叢集可不限顆數擴充 GPU。每顆 Nvidia A100 GPU 使用 Nvidia HDR 200Gb/s InfiniBand,使得每 VM(8 顆 A100 GPU 系統)產生驚人的 1.6Tb/s 互連頻寬。
此外,Azure 還為每顆 8-GPU 的 VM 搭配 NVLink 互連以確保 VM 內 GPU 和 GPU 之間連線超過 600 GB/s。
任何人都可以將本地部署的 AI 和 HPC 任務利用 ND A100 v4 帶上雲端,但如果是 Azure 原生部署的專案,則可使用 Azure Machine Learning 提供為 ND A100 v4 最佳化(內建驅動程式和函式庫)的 VM 及容器環境。此外還提供範本及 Jupyter Notebook 以協助使用者快速上手多種框架,包括 PyTorch、TensorFlow 以訓練 BERT 等模型。
目前 ND A100 v4 服務已在 Azure 4 個區域上線,包括美國東、西部、西歐和中美國中南區域。