提升自駕車的電腦視覺是確保道路安全的當務之急,不論是辨識停在路邊的卡車或是突然衝出路口的單車騎士。
為此,自駕車必須使用強大的電腦視覺模型,仔細分類它拍攝到場景裏的每一像素,以免漏看了每個物體,這個任務被稱為語意切割 (semantic segmentation) 。但語意切割是很複雜的任務,在分辨高解析度的圖片時需要極高運算力。
麻省理工學院和 IBM 合作的 MIT-IBM Watson AI 實驗室研究人員開發了一套很有效率的電腦視覺模型,能大幅降低這項任務的複雜性。他們的模型能在一台硬體資源有限的裝置,像是自駕車的車機電腦上精準即時執行語義分割,而執行不到 1 秒的決策。
現行的語義分割模型可直接理解圖像中的每對像素的互動,圖像解析度愈高,運算量愈大。因此,雖然這些模型很精準,但若在邊緣運算硬體,如感測器或行動電話上要處理高解析度圖像上,速度就會太慢。
MIT 研究人員設計了語義分割模型的新構件,可將模型能力拉高到頂級水準,但複雜度沒那麼高,也很省硬體資源。這個新系列的高解析度電腦視覺模型,在行動裝置上執行效能比前一代模型高 9 倍,更重要的是,準確率不亞於其他模型。
技術而言,現行電腦視覺模型 (vision transformer) 在識別圖片時,是將圖片切成許多塊像素塊,再加像素塊編碼成 token,生成注意力地圖 (attention map), 最後建立全感受區 (global receptive field),這表示模型能存取圖片所有相關區塊。注意力地圖是協助模型理解圖像情境做出預測的關鍵。但這個過程十分耗費運算資源,圖片解析度愈高,這個處理圖片的計算量以平方成長。
MIT 研究人員建立的新模型名為 EfficientViT 。在建立視覺地圖時,他們改進了作法。研究人員解釋,他們將非直相似函式換成了直線相似函式,得以重新安排運算順序,並因此降低計算量,但不必犠牲其功能及全感受區。也就是說,新模型預算的運算量,只會直線增長,而不再是平方成長。
但是這樣做的代價是降低模型的準確率。為了彌補損失,研究人員又在模型中加入 2 項新構件,但僅增加一點運算量。最後的結果是 EfficientViT 可跑在多種裝置上,像是 VR 頭戴裝置、車上邊緣電腦等等。
研究人員表示,這新技術不僅可用於自駕車即時決策,也能提升其他高解度電腦視覺任務,像是醫療圖像分割。
MIT-IBM Watson 實驗室成員,也是 MIT 電機與資訊系副教授韓松指出,雖然研究人員長期使用傳統視覺 transformer,效果也不錯,但大家忽略了模型效能問題。研究人員的實驗顯示,有辦法大幅降低運算,使即時圖像分割可以在本地小型裝置上執行。研究人員預計在 10 月初的國際電腦視覺大會 (International Conference on Computer Vision) 上發表。
來源:MIT News
