Nvidia 周一開原第一個實體機器模型,和眾多數位 AI 模型新版本,將推進自駕車、機器人和語音處理的發展。
該公司是在業界頂尖 AI 會議 NeurIPS 上宣佈開原新模型及 AI 工具。其中 Alpamayo-R1 (AR1) 是全球第一個開原碼自駕車用推理視覺語言模型 (vision-language-action, VLA) 模型。
AR1 結合了思維鏈推理和路徑規劃能力,可以人類水準的判斷力協助汽車行駛於複雜道路情境。 Nvidia 說,AR1 是將一個情境切分成多個步驟,然後逐項推理。此模型會評估可能的路徑,並使用環境資料來選擇最安全的,因此能應付擠滿行人、雙邊停車的路口或前方道路封閉。
AR1 是以 Nvidia 的 Cosmos Reason 為基礎開發,允許開發人員在非商業授權下客製化。
根據 Nvidia 的數據,模型經過強化式學習後訓練,效能比預訓練大幅提升。
目前 AR1 連同一組 Nvidia 實體 AI 資料集,已在 GitHub 和 Hugging Face 開源。研究人員也可利用 Nvidia 的 AlpaSim 框架來評估模型效能。
除了 AR1,Nvidia 的 Cosomos 平台還提供了一組實體 AI 開發工具。包括可產生視聽模擬的光達資料 LiderGen 、協助核心重構的 Omniverse NuRec Fixer 、 Cosmos Policy,可建立機器人行為規則,以及 ProtoMotions3,它可在擬真環境下訓練人形機器人。
全球已有眾多開發商及研究人員實驗 Nvidia 的模型。 Nvidia 的軟硬體合作夥伴包括機器人及自駕車開發商 Voxel51 、 1X 、 Figure AI 、 Foretellix 、 Gatik 、 Oxa 、 PlusAI 和 X-Humanoid 等,他們都在其自駕車和機器人專案中使用了 Cosmos 基礎模型。
瑞士蘇黎世理工學院研究人員也用 Cosmos 作為 3D 開發基礎,也在 NeurIPS 中展示成果。
在數位端 Nvidia 則宣佈強化 Memotron 的工具組。主要是多人自動語音辨識模型 MultiTalker Parakeet 、即時說話者自動分段標記 (speaker diarization) 模型 Sortformer 。
Nemotron 也介紹了推理 AI 安全模型及強化式學習及特定領域 AI 開發用的合成資料集。
其他重要更新包括能執行語音、音樂和音效的大型語音語言模型 Audio Flamingo 3,以及能壓縮混合模型而不犠牲效能的 Minitron-SSM 。
Nvidia 還展示了為語言模型推論的高效、低延遲而最佳化的模型 Jet-Nemotron 及 Nemotron-Flash 。這些模型使用了長時間強化式學習 (Prolonged reinforcement learning, ProRL) 的訓練方法,可使新模型在推論效能超越基礎模型。
這一批新宣佈可開源給研究人員及開發商,可望壯大 Nvidia 的生態體系,並持續領先其他競爭者。
