Google 的 RT-2 機器人 AI 模型可能使電影的「瓦力」成真

Google DeepMind宣佈Robotic Transformer 2(RT-2),首個視覺語言與動作模型,能透過自然語言指令改善機器人控制。目標是設計出能在人類環境自如行動的機器人,是AI研究里程碑。

Google DeepMind 宣佈 Robotic Transformer 2(RT-2),為其第一個視覺語言與動作 (vision-language-action, VLA) 模型,能從網際網路蒐得的資料,透過自然語言指令來改善機器人控制。它最終目標是設計出一個能在人類環境來去自如的機器人,好比瓦力或《星際大戰》的 C-3PO 。

人類學習一項任務時,會先閱讀及觀察。同樣地,Google 表示,RT-2 也將以網路上蒐來的文字和圖片訓練出的大型語言模型為底層。利用這個模型來辨識圖形、執行動作,即使它原本不是為這些任務設計的,這種能力將廣泛化。

舉例而言,RT-2 可讓機器人辨識垃圾,還會拿去倒,雖然它之前沒受過這種訓練。它會運用對於垃圾及其通常要怎麼處理的知識,來引導其行為。 RT-2 甚至會將丟棄的餐點包裝或香蕉皮視為垃圾,雖然有時也會搞錯。

此外,紐約時報報導,Google 工程師下了個「選出已滅絕的動物」的指令,RT-2 會從桌上三個圖片中選出恐龍。

這十分難得:因為機器人過去需要大量人類標註的資料點來訓練,這要花費很多時間和成本,因為有太多種情境。一個夠聰明的幫手機器人必須能夠靈活適應多變複雜的環境,過去幾乎是不可能的。

由於 RT-2 使用語言模型來處理輸入資訊,因此 Google 把行為視為不同的 token,代表真實世界不同片段。要控制機器人,機器人必須要能輸出行為,他們的解決方案是把行為當成模型的輸出結果,一如語言模型輸出 token,然後以能自然語言分詞器 (tokenizer) 處理的字串來描述行為。

在開發 RT-2 的前一代 RT-1 時,Google 研究人員就是讓它產出較小的行為。他們發現,將這些行為轉化成一系列符號或程式碼後,他們就能教導機器人以過去處理網頁資料學習方法那般,學會新技能。

這個模型也使用了一連串的思考理解過程,以啟動階段式理解,像是選擇不同工具(如拿石頭當成槌子)或為疲累的人挑適合的飲品(能量飲料)。

Google 說,在超過 6,000 次測試後,他們發現,在曾經見過(訓練過)的任務中,RT-2 的表現和前一代 RT-1 好,但在未見過(未訓練過)的任務中,RT-2 的表現是 RT-1 的將近 2 倍。

不過 Google 承認,RT-2 還不夠好。研究人員說,在新的「身體動作」的表現,若 RT-2 過去沒看過,它就不會做那動作,但是它還是可以新的方法來執行已經會的動作。

Google DeepMind 最終目的是創造出通用型機器人,還需要做大量研究,不過 RT-2 已經代表來到智慧型機器人 AI 研究的里程碑了。

來源:Ars Technica

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link