Google的RT-2機器人AI模型可能使電影的「瓦力」成真

Google DeepMind宣佈Robotic Transformer 2(RT-2)，首個視覺語言與動作模型，能透過自然語言指令改善機器人控制。目標是設計出能在人類環境自如行動的機器人，是AI研究里程碑。

Google DeepMind 宣佈 Robotic Transformer 2(RT-2)，為其第一個視覺語言與動作 (vision-language-action, VLA) 模型，能從網際網路蒐得的資料，透過自然語言指令來改善機器人控制。它最終目標是設計出一個能在人類環境來去自如的機器人，好比瓦力或《星際大戰》的 C-3PO 。

人類學習一項任務時，會先閱讀及觀察。同樣地，Google 表示，RT-2 也將以網路上蒐來的文字和圖片訓練出的大型語言模型為底層。利用這個模型來辨識圖形、執行動作，即使它原本不是為這些任務設計的，這種能力將廣泛化。

舉例而言，RT-2 可讓機器人辨識垃圾，還會拿去倒，雖然它之前沒受過這種訓練。它會運用對於垃圾及其通常要怎麼處理的知識，來引導其行為。 RT-2 甚至會將丟棄的餐點包裝或香蕉皮視為垃圾，雖然有時也會搞錯。

此外，紐約時報報導，Google 工程師下了個「選出已滅絕的動物」的指令，RT-2 會從桌上三個圖片中選出恐龍。

這十分難得：因為機器人過去需要大量人類標註的資料點來訓練，這要花費很多時間和成本，因為有太多種情境。一個夠聰明的幫手機器人必須能夠靈活適應多變複雜的環境，過去幾乎是不可能的。

由於 RT-2 使用語言模型來處理輸入資訊，因此 Google 把行為視為不同的 token，代表真實世界不同片段。要控制機器人，機器人必須要能輸出行為，他們的解決方案是把行為當成模型的輸出結果，一如語言模型輸出 token，然後以能自然語言分詞器 (tokenizer) 處理的字串來描述行為。

在開發 RT-2 的前一代 RT-1 時，Google 研究人員就是讓它產出較小的行為。他們發現，將這些行為轉化成一系列符號或程式碼後，他們就能教導機器人以過去處理網頁資料學習方法那般，學會新技能。

這個模型也使用了一連串的思考理解過程，以啟動階段式理解，像是選擇不同工具（如拿石頭當成槌子）或為疲累的人挑適合的飲品（能量飲料）。

Google 說，在超過 6,000 次測試後，他們發現，在曾經見過（訓練過）的任務中，RT-2 的表現和前一代 RT-1 好，但在未見過（未訓練過）的任務中，RT-2 的表現是 RT-1 的將近 2 倍。

不過 Google 承認，RT-2 還不夠好。研究人員說，在新的「身體動作」的表現，若 RT-2 過去沒看過，它就不會做那動作，但是它還是可以新的方法來執行已經會的動作。

Google DeepMind 最終目的是創造出通用型機器人，還需要做大量研究，不過 RT-2 已經代表來到智慧型機器人 AI 研究的里程碑了。

來源：Ars Technica

Google 的 RT-2 機器人 AI 模型可能使電影的「瓦力」成真

相關

previousMenlo Security以業界首創AI驅動技術重新定義上網安全有效防止釣魚和勒索軟體滲透攻擊

next小心Android App長大了走歪路！Google發現多起惡意程式濫用版本更新偷渡入侵用戶手機

發表迴響取消回覆

相關

相關

previousMenlo Security以業界首創AI驅動技術重新定義上網安全 有效防止釣魚和勒索軟體滲透攻擊

next小心Android App長大了走歪路！Google發現多起惡意程式濫用版本更新偷渡入侵用戶手機

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previousMenlo Security以業界首創AI驅動技術重新定義上網安全有效防止釣魚和勒索軟體滲透攻擊

探索更多來自網路資訊雜誌的內容