上周四多家科技大廠包括英特爾、 AMD 、博通、微軟、 Google 、 Meta 和 HPE 、思科等宣佈成立 Ultra Accelerator Link (UALink) 推動小組,將為資料中心內 AI 加速器晶片開發新的互連標準。這個組織計畫開發新標準和 Nvidia 的 NVLink 分庭抗禮,後者是執行眾多 AI 應用如 ChatGPT 的伺服器互相串連的網路技術。
現今 AI 的核心是 GPU,GPU 能平行執行大量矩陣乘法 (matrix multiplications),是神經網路架構的關鍵。但要跑複雜的 AI 系統,一顆 GPU 是不夠的,NVLink 則可將一台或多台伺服器裏多顆 AI 加速器晶片串連起來,讓加速器之間的資料傳輸和通訊更快,進而能合力執行複雜任務,像是訓練大型 AI 模型。
這種串連是現代 AI 資料中心系統很重要的一環,誰能控制連結標準,就能有效主導科技廠商使用的硬體。 UALink 推進小組希望能建立開放標準,讓多家廠商都能參與市場分一杯羹,而非讓 Nvidia 派的生態體系廠商獨霸。這思維類似其他開放標準,像是 Intel 2019 年創立的 Compute Express Link (CXL),目的在提供資料中心間 CPU 和裝置或記憶體間的高速、大容量連結。
這不是科技廠商試圖聯合起來對抗 AI 市場領導者。去年 12 月,IBM 、 Meta 和其他 50 多家公司也成立了 AI 聯盟 (AI Alliance) 倡議開放 AI 模型,提供 OpenAI 和 Google 等封閉模型以外的選擇。
由於 AI 加速器目前是 Nvidia 獨大,因此 UALink 推廣小組不見 Nvidia 也不太令人意外。由於 AI 晶片價格高昂,令 Nvidia 最近幾年財報一飛沖天,為了減輕沉重成本,各家科技大廠開始開發自有 AI 晶片,提升標準化互連技術的迫切性,當然,也為了對抗 Nvidia 。
提升複雜 AI 應用執行速度
推進小組規劃的首個 UALink 1.0 標準預定能串聯一個運算 pod 中最高 1,024 顆 GPU 。這個標準將以 ADM Infinity 架構等技術為基礎開發,期望能比現有互連規格資料傳輸速度更快,延遲性更低。
推進小組也預計今年下半年成立 UALink 聯盟 (UALink Consortium) 持續 UALink 規格的開發。加入聯盟的會員公司將可取得 UALink 1.0 的資源。他們打算今年第 4 季再釋出 UALink 1.1 版。
首個 UALink 產品計畫二年內問世,讓 Nvidia 還有很多時間持續獨霸 AI 資料中心市場。
來源:Ars Technica
