微軟 Azure 周三宣佈 Azure ND A100 v4 Cloud GPU 執行個體正式上線 (General Availability),號稱是雲端上的超級電腦。
這項服務搭載 Nvidia A100 Tensor Core GPU,是為運算需求極大的任務,像是跑 AI 及高效能運算 (high performance computing, HPC) 的用戶而設計。微軟指出,ND A100 v4 組合了市場產業標準的高效能運算 (HPC) 和 AI 工具及函式庫而成,不需任何專屬軟體或框架即可操作。
微軟表示,ND A100 v4 使用的函式庫 Nvidia NCCL 2 也是市場上 GPU 加速的 AI 和 HPC 應用主流支援的函式庫,因此也不需擔心底層網路拓璞的問題。在同一 Azure VM Scale Set 中供應 (provision) 一個 VM,網路互連設定會自動完成。
微軟宣稱,ND A100 v4 164 個 VM 能產生 16.59 petaflops 的浮點運算能力。以世界五百大超級電腦排名來比擬,大約等同當今全球第 20 大運算系統。
雲端超級電腦
根據微軟的資料,ND A100 v4 最基本層級為 1 VM 、 8 顆 Nvidia Ampere 架構的 A100 Tensor Core GPUs,但單一叢集可不限顆數擴充 GPU 。每顆 Nvidia A100 GPU 使用 Nvidia HDR 200Gb/s InfiniBand,使得每 VM(8 顆 A100 GPU 系統)產生驚人的 1.6Tb/s 互連頻寬。
此外,Azure 還為每顆 8-GPU 的 VM 搭配 NVLink 互連以確保 VM 內 GPU 和 GPU 之間連線超過 600 GB/s 。
任何人都可以將本地部署的 AI 和 HPC 任務利用 ND A100 v4 帶上雲端,但如果是 Azure 原生部署的專案,則可使用 Azure Machine Learning 提供為 ND A100 v4 最佳化(內建驅動程式和函式庫)的 VM 及容器環境。此外還提供範本及 Jupyter Notebook 以協助使用者快速上手多種框架,包括 PyTorch 、 TensorFlow 以訓練 BERT 等模型。
目前 ND A100 v4 服務已在 Azure 4 個區域上線,包括美國東、西部、西歐和中美國中南區域。
來源:Techmotimes 、 HPCwire
