Nvidia 開原全球首款自駕車 VLA 模型 AR1 亮相 NeurIPS,讓 AI 擁有「人類判斷力」

Nvidia在NeurIPS會議上推出全球首個開原自駕車推理視覺語言模型Alpamayo-R1(AR1),結合思維鏈推理與路徑規劃。同時,還發布多個數位AI模型與工具,強化其在自駕車、機器人及語音處理的領先地位。

Nvidia 周一開原第一個實體機器模型,和眾多數位 AI 模型新版本,將推進自駕車、機器人和語音處理的發展。

該公司是在業界頂尖 AI 會議 NeurIPS 上宣佈開原新模型及 AI 工具。其中 Alpamayo-R1 (AR1) 是全球第一個開原碼自駕車用推理視覺語言模型 (vision-language-action, VLA) 模型。

AR1 結合了思維鏈推理和路徑規劃能力,可以人類水準的判斷力協助汽車行駛於複雜道路情境。 Nvidia 說,AR1 是將一個情境切分成多個步驟,然後逐項推理。此模型會評估可能的路徑,並使用環境資料來選擇最安全的,因此能應付擠滿行人、雙邊停車的路口或前方道路封閉。

AR1 是以 Nvidia 的 Cosmos Reason 為基礎開發,允許開發人員在非商業授權下客製化。

根據 Nvidia 的數據,模型經過強化式學習後訓練,效能比預訓練大幅提升。

目前 AR1 連同一組 Nvidia 實體 AI 資料集,已在 GitHub 和 Hugging Face 開源。研究人員也可利用 Nvidia 的 AlpaSim 框架來評估模型效能。

除了 AR1,Nvidia 的 Cosomos 平台還提供了一組實體 AI 開發工具。包括可產生視聽模擬的光達資料 LiderGen 、協助核心重構的 Omniverse NuRec Fixer 、 Cosmos Policy,可建立機器人行為規則,以及 ProtoMotions3,它可在擬真環境下訓練人形機器人。

全球已有眾多開發商及研究人員實驗 Nvidia 的模型。 Nvidia 的軟硬體合作夥伴包括機器人及自駕車開發商 Voxel51 、 1X 、 Figure AI 、 Foretellix 、 Gatik 、 Oxa 、 PlusAI 和 X-Humanoid 等,他們都在其自駕車和機器人專案中使用了 Cosmos 基礎模型。

瑞士蘇黎世理工學院研究人員也用 Cosmos 作為 3D 開發基礎,也在 NeurIPS 中展示成果。

在數位端 Nvidia 則宣佈強化 Memotron 的工具組。主要是多人自動語音辨識模型 MultiTalker Parakeet 、即時說話者自動分段標記 (speaker diarization) 模型 Sortformer 。

Nemotron 也介紹了推理 AI 安全模型及強化式學習及特定領域 AI 開發用的合成資料集。

其他重要更新包括能執行語音、音樂和音效的大型語音語言模型 Audio Flamingo 3,以及能壓縮混合模型而不犠牲效能的 Minitron-SSM 。

Nvidia 還展示了為語言模型推論的高效、低延遲而最佳化的模型 Jet-Nemotron 及 Nemotron-Flash 。這些模型使用了長時間強化式學習 (Prolonged reinforcement learning, ProRL) 的訓練方法,可使新模型在推論效能超越基礎模型。

這一批新宣佈可開源給研究人員及開發商,可望壯大 Nvidia 的生態體系,並持續領先其他競爭者。

來源:Interesting Engineering

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link