MIT-IBM Watson實驗室AI開發高解析度電腦視覺模型讓自駕車更安全

MIT-IBM Watson AI實驗室研究人員開發了一種高效電腦視覺模型，稱為EfficientViT，專門用於語義分割。該模型大幅降低了運算量和硬體需求，能在各種裝置上快速運行，適用於自駕車和其他高解析度視覺任務，如醫療圖像分割。

提升自駕車的電腦視覺是確保道路安全的當務之急，不論是辨識停在路邊的卡車或是突然衝出路口的單車騎士。

為此，自駕車必須使用強大的電腦視覺模型，仔細分類它拍攝到場景裏的每一像素，以免漏看了每個物體，這個任務被稱為語意切割 (semantic segmentation) 。但語意切割是很複雜的任務，在分辨高解析度的圖片時需要極高運算力。

麻省理工學院和 IBM 合作的 MIT-IBM Watson AI 實驗室研究人員開發了一套很有效率的電腦視覺模型，能大幅降低這項任務的複雜性。他們的模型能在一台硬體資源有限的裝置，像是自駕車的車機電腦上精準即時執行語義分割，而執行不到 1 秒的決策。

現行的語義分割模型可直接理解圖像中的每對像素的互動，圖像解析度愈高，運算量愈大。因此，雖然這些模型很精準，但若在邊緣運算硬體，如感測器或行動電話上要處理高解析度圖像上，速度就會太慢。

MIT 研究人員設計了語義分割模型的新構件，可將模型能力拉高到頂級水準，但複雜度沒那麼高，也很省硬體資源。這個新系列的高解析度電腦視覺模型，在行動裝置上執行效能比前一代模型高 9 倍，更重要的是，準確率不亞於其他模型。

技術而言，現行電腦視覺模型 (vision transformer) 在識別圖片時，是將圖片切成許多塊像素塊，再加像素塊編碼成 token，生成注意力地圖 (attention map)，最後建立全感受區 (global receptive field)，這表示模型能存取圖片所有相關區塊。注意力地圖是協助模型理解圖像情境做出預測的關鍵。但這個過程十分耗費運算資源，圖片解析度愈高，這個處理圖片的計算量以平方成長。

MIT 研究人員建立的新模型名為 EfficientViT 。在建立視覺地圖時，他們改進了作法。研究人員解釋，他們將非直相似函式換成了直線相似函式，得以重新安排運算順序，並因此降低計算量，但不必犠牲其功能及全感受區。也就是說，新模型預算的運算量，只會直線增長，而不再是平方成長。

但是這樣做的代價是降低模型的準確率。為了彌補損失，研究人員又在模型中加入 2 項新構件，但僅增加一點運算量。最後的結果是 EfficientViT 可跑在多種裝置上，像是 VR 頭戴裝置、車上邊緣電腦等等。
研究人員表示，這新技術不僅可用於自駕車即時決策，也能提升其他高解度電腦視覺任務，像是醫療圖像分割。

MIT-IBM Watson 實驗室成員，也是 MIT 電機與資訊系副教授韓松指出，雖然研究人員長期使用傳統視覺 transformer，效果也不錯，但大家忽略了模型效能問題。研究人員的實驗顯示，有辦法大幅降低運算，使即時圖像分割可以在本地小型裝置上執行。研究人員預計在 10 月初的國際電腦視覺大會 (International Conference on Computer Vision) 上發表。

來源：MIT News

MIT-IBM Watson 實驗室 AI 開發高解析度電腦視覺模型讓自駕車更安全

相關

previous英特爾發表Thunderbolt 5 頻寬最高可達120Gbps 預計明年上市

nextApple秋季發表會：iPhone 15改用USB-C，Pro版本機身採用更輕的鈦金屬

發表迴響取消回覆

相關

相關

previous英特爾發表Thunderbolt 5 頻寬最高可達120Gbps 預計明年上市

nextApple秋季發表會：iPhone 15改用USB-C，Pro版本機身採用更輕的鈦金屬

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容