Nvidia 在今年消費性電子展 (CES) 展示了下一代 Vera Rubin GPU 架構,號稱比 Blackwell 推論效能快 5 倍、訓練效能快 3.5 倍、記憶體頻寬大 2.8 倍,而 NVLink 互連速度也快了 2 倍。不過 Vera Rubin 與 Blackwell 及 Blackwell Ultra 一樣,要等到下半年才會正式推出。
一般而言,Nvidia 習慣在三月的 GTC 大會才會宣佈下世代晶片,此次提前動作或許是因為 AMD 緊追在後的速度令黃仁勳感到壓力。 AMD 頻寬加倍的 Helios 機櫃號稱效能媲美 Vera Rubin NVL72,同時 HBM4 記憶體容量還多出 50% 。
雖然 Nvidia 去年就已公佈 Vera Rubin,市場對於大致規格已有所聞,但既然還有大半年要等待,不如深入了解這款下世代晶片的細節。
改良的 NVL72 機櫃系統
Vera Rubin CPU 和 GPU 架構的旗艦系統仍舊是 NVL72 機櫃系統。乍看之下和 Blackwell 及 Blackwell Ultra 差別不大,但 Nvidia 在架構調校上投入大量心血以提升可服務性 (Serviceability) 。
系統核心當然是 Vera Rubin,若按照過去經驗,其工程代號應為 VR200 。與 Blackwell 相似,Vera Rubin 採用雙晶粒 (Die)Rubin GPU,在使用 NVLFP4 資料型態的情境下,每顆都能榨出 50 petaFLOPS 推論效能或 35 petaFLOPS 訓練效能。
Vera Rubin 使用了新的適應性壓縮技術,更適合 AI 及混合專家模型 (MoE) 推論。高精度資料型態也是視覺語言模型推論、圖片生成、微調、訓練及高效能運算 (HPC) 的關鍵,因此雖然 Nvidia 尚未中止支援其他資料類型,但 FP64 應仍是首選。
這顆 GPU 採用 288GB HBM4 記憶體,每顆超級晶片達 576GB,每插槽頻寬達 22TB/s,比 Blackwell 快 2.8 倍,且比 Nvidia 當初宣佈的 13TB/s 還高。
兩塊 Rubin GPU 以 1.8TB/s 的 NVLink-C2C 互連起來就成了 Vera CPU 。這塊 CPU 包含 88 個 Arm-based Olympus 核心,搭配 1.5TB LPDDR5x 記憶體,後者是 GB200 的 3 倍。如此記憶體密集的配置,或許也是造成現在記憶體市場短缺的部分原因。
Vera Rubin NVL72 擁有 72 顆 Rubin GPU 、 20.7TB HBM4 、 36 顆 Vera CPU 及 54TB LPDDR5x,總共有 18 個運算刀鋒 (Blade) 以 9 條 NVSwitch 6 刀鋒互連。每顆 GPU 有 3.6TB/s 頻寬,是前代的 2 倍。
讀者可能會疑惑,不是應該是 144 顆 GPU 嗎?去年 GTC 上黃仁勳宣佈將 GPU 計算方式由封裝改採晶粒來計算,照此邏輯 Blackwell-based NVL72 也是 144 GPU,原本預期 Nvidia 要等到 Vera Rubin 才改用新計算法。但看來 Nvidia 又改回舊式演算法,維持 72 GPU 的計算方式。
Rubin CPU 是兩個加速器之一,CPX 則是第二顆。 CPU 負責加速大型語言模型 (LLM) 推論過程中的預填充 (Prefill) 階段,不需使用 HBM,而是採用較慢的 DRAM 。
SuperPOD
一如過去的 Nvidia 機櫃系統,一台 SuperPOD 以 Spectrum-X Ethernet 或 Quantum-X InfiniBand 串連 8 台 NVL72 機櫃而成。多個 SuperPOD 可組成更大的訓練或分散式推論環境。
若檢視單台伺服器,也可以選用 Rubin-based 8-way(NVL8)HGX-based 配置,但必須選擇液冷散熱方案,亦可組成 512 GPU 的 SuperPOD 。
AI 基礎架構競爭方熾
Rubin 的推出透露了激烈的 AI 運算版圖競爭。 AMD Helios 機櫃系統來勢洶洶,Nvidia 計畫提前出貨 Vera Rubin,意在壓縮 AMD 的記憶體優勢。 Helios 的確擁有 432GB HBM4,高於 Rubin 的 288GB,理論上能在雙倍寬的機櫃支援大 50% 的 MoE 模型。但實際表現仍需視搭配 Broadcom Tomahawk 6 Ethernet 交換器的 UALink 效能而定。 AMD 以其 HIP 及 ROCm 函式庫形成的軟體生態系,也需要再加把勁才行。
LLM 、機器人、自駕車
Nvidia 的盤算可不只是資料中心,在 CES 2026 上也公佈了為自駕車(AV,也包含自動機器人)最佳化的軟體,包括 Alpamayo 開源模型家族、 AlpaSim 模擬框架(已在 GitHub 上架)及實體 AI 開放資料集。 Nvidia 號稱 Alpamayo 是第一個自駕車專用的思考鏈 (Chain of Thought) 推理 VLA 模型,本週公佈第一款模型為參數量 100 億的 Alpamayo 1,可接受輸入影片生成軌跡和思考步驟。透過開放的資料集,它能在複雜或罕見的道路情境下思考,進而提升安全駕駛的能力。 Nvidia 的終極目的是希望 AI 讓自駕車像人類一樣思考。
AlpaSim 提供完整模型環境,幫助快速驗證和政策微調。實體 AI 資料集包含蒐集自各種地區或環境下的 1,700 多小時駕駛資料,涵蓋罕見或困難的真實極端情境,可用於訓練進階推理架構模型。在會中,Nvidia 宣佈已有數家自駕車系統開發商,包括 Lucid 、 JLR 、 Uber 及 Berkeley DeepDrive 等,將使用 Alpamayo 開發出自駕能力達 Level 4 的系統。
來源: The Register
