MIT-IBM Watson 實驗室 AI 開發高解析度電腦視覺模型 讓自駕車更安全

MIT-IBM Watson AI實驗室研究人員開發了一種高效電腦視覺模型,稱為EfficientViT,專門用於語義分割。該模型大幅降低了運算量和硬體需求,能在各種裝置上快速運行,適用於自駕車和其他高解析度視覺任務,如醫療圖像分割。

提升自駕車的電腦視覺是確保道路安全的當務之急,不論是辨識停在路邊的卡車或是突然衝出路口的單車騎士。

為此,自駕車必須使用強大的電腦視覺模型,仔細分類它拍攝到場景裏的每一像素,以免漏看了每個物體,這個任務被稱為語意切割 (semantic segmentation) 。但語意切割是很複雜的任務,在分辨高解析度的圖片時需要極高運算力。

麻省理工學院和 IBM 合作的 MIT-IBM Watson AI 實驗室研究人員開發了一套很有效率的電腦視覺模型,能大幅降低這項任務的複雜性。他們的模型能在一台硬體資源有限的裝置,像是自駕車的車機電腦上精準即時執行語義分割,而執行不到 1 秒的決策。

現行的語義分割模型可直接理解圖像中的每對像素的互動,圖像解析度愈高,運算量愈大。因此,雖然這些模型很精準,但若在邊緣運算硬體,如感測器或行動電話上要處理高解析度圖像上,速度就會太慢。

MIT 研究人員設計了語義分割模型的新構件,可將模型能力拉高到頂級水準,但複雜度沒那麼高,也很省硬體資源。這個新系列的高解析度電腦視覺模型,在行動裝置上執行效能比前一代模型高 9 倍,更重要的是,準確率不亞於其他模型。

技術而言,現行電腦視覺模型 (vision transformer) 在識別圖片時,是將圖片切成許多塊像素塊,再加像素塊編碼成 token,生成注意力地圖 (attention map), 最後建立全感受區 (global receptive field),這表示模型能存取圖片所有相關區塊。注意力地圖是協助模型理解圖像情境做出預測的關鍵。但這個過程十分耗費運算資源,圖片解析度愈高,這個處理圖片的計算量以平方成長。

MIT 研究人員建立的新模型名為 EfficientViT 。在建立視覺地圖時,他們改進了作法。研究人員解釋,他們將非直相似函式換成了直線相似函式,得以重新安排運算順序,並因此降低計算量,但不必犠牲其功能及全感受區。也就是說,新模型預算的運算量,只會直線增長,而不再是平方成長。

但是這樣做的代價是降低模型的準確率。為了彌補損失,研究人員又在模型中加入 2 項新構件,但僅增加一點運算量。最後的結果是 EfficientViT 可跑在多種裝置上,像是 VR 頭戴裝置、車上邊緣電腦等等。
研究人員表示,這新技術不僅可用於自駕車即時決策,也能提升其他高解度電腦視覺任務,像是醫療圖像分割。

MIT-IBM Watson 實驗室成員,也是 MIT 電機與資訊系副教授韓松指出,雖然研究人員長期使用傳統視覺 transformer,效果也不錯,但大家忽略了模型效能問題。研究人員的實驗顯示,有辦法大幅降低運算,使即時圖像分割可以在本地小型裝置上執行。研究人員預計在 10 月初的國際電腦視覺大會 (International Conference on Computer Vision) 上發表。

來源:MIT News

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link