Nvidia 開原全球首款自駕車 VLA 模型 AR1 亮相 NeurIPS，讓 AI 擁有「人類判斷力」

Nvidia在NeurIPS會議上推出全球首個開原自駕車推理視覺語言模型Alpamayo-R1(AR1)，結合思維鏈推理與路徑規劃。同時，還發布多個數位AI模型與工具，強化其在自駕車、機器人及語音處理的領先地位。

Nvidia 周一開原第一個實體機器模型，和眾多數位 AI 模型新版本，將推進自駕車、機器人和語音處理的發展。

該公司是在業界頂尖 AI 會議 NeurIPS 上宣佈開原新模型及 AI 工具。其中 Alpamayo-R1 (AR1) 是全球第一個開原碼自駕車用推理視覺語言模型 (vision-language-action, VLA) 模型。

AR1 結合了思維鏈推理和路徑規劃能力，可以人類水準的判斷力協助汽車行駛於複雜道路情境。 Nvidia 說，AR1 是將一個情境切分成多個步驟，然後逐項推理。此模型會評估可能的路徑，並使用環境資料來選擇最安全的，因此能應付擠滿行人、雙邊停車的路口或前方道路封閉。

AR1 是以 Nvidia 的 Cosmos Reason 為基礎開發，允許開發人員在非商業授權下客製化。

根據 Nvidia 的數據，模型經過強化式學習後訓練，效能比預訓練大幅提升。

目前 AR1 連同一組 Nvidia 實體 AI 資料集，已在 GitHub 和 Hugging Face 開源。研究人員也可利用 Nvidia 的 AlpaSim 框架來評估模型效能。

除了 AR1，Nvidia 的 Cosomos 平台還提供了一組實體 AI 開發工具。包括可產生視聽模擬的光達資料 LiderGen 、協助核心重構的 Omniverse NuRec Fixer 、 Cosmos Policy，可建立機器人行為規則，以及 ProtoMotions3，它可在擬真環境下訓練人形機器人。

全球已有眾多開發商及研究人員實驗 Nvidia 的模型。 Nvidia 的軟硬體合作夥伴包括機器人及自駕車開發商 Voxel51 、 1X 、 Figure AI 、 Foretellix 、 Gatik 、 Oxa 、 PlusAI 和 X-Humanoid 等，他們都在其自駕車和機器人專案中使用了 Cosmos 基礎模型。

瑞士蘇黎世理工學院研究人員也用 Cosmos 作為 3D 開發基礎，也在 NeurIPS 中展示成果。

在數位端 Nvidia 則宣佈強化 Memotron 的工具組。主要是多人自動語音辨識模型 MultiTalker Parakeet 、即時說話者自動分段標記 (speaker diarization) 模型 Sortformer 。

Nemotron 也介紹了推理 AI 安全模型及強化式學習及特定領域 AI 開發用的合成資料集。

其他重要更新包括能執行語音、音樂和音效的大型語音語言模型 Audio Flamingo 3，以及能壓縮混合模型而不犠牲效能的 Minitron-SSM 。

Nvidia 還展示了為語言模型推論的高效、低延遲而最佳化的模型 Jet-Nemotron 及 Nemotron-Flash 。這些模型使用了長時間強化式學習 (Prolonged reinforcement learning, ProRL) 的訓練方法，可使新模型在推論效能超越基礎模型。

這一批新宣佈可開源給研究人員及開發商，可望壯大 Nvidia 的生態體系，並持續領先其他競爭者。

來源：Interesting Engineering

Nvidia 開原全球首款自駕車 VLA 模型 AR1 亮相 NeurIPS，讓 AI 擁有「人類判斷力」

相關

previousF5 最新報告：亞太區 API 安全缺口日益擴大，立即強化治理與韌性當務之急

next客服系統拉警報！Zendesk遭網釣攻擊，駭客揚言發動連續攻勢

發表迴響取消回覆

相關

相關

previousF5 最新報告：亞太區 API 安全缺口日益擴大，立即強化治理與韌性當務之急

next客服系統拉警報！Zendesk遭網釣攻擊，駭客揚言發動連續攻勢

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容