微軟上周公佈一項新 AI 模型框架 VASA-1,能將人類臉部畫像或圖片變成會說話和對嘴唱歌的影片。
雖然現在已有不少名人的照片或影片被製作成 deepfake 影片用於宣傳或詐騙,但是只要稍微注意就能發現破綻,例如往往嘴型動作很不自然,眼神或表情也很呆板。但微軟指出,其最新技術能產生激似真人、具有逼真視覺情況 (visual affective, VA) 能力的虛擬人物。
但微軟公佈的 VASA-1 只需用戶輸入一張靜態人像及說話或歌唱的聲音檔,就能生成活靈活現的影片,嘴型和聲音精準同步,且有多層次的表情與自然的頭部動作,更提高了人像逼真度。
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024
微軟表示 VASA-1 的創新在於臉部與動部動作生成模型能運用於臉部潛在空間 (latent space),以及此類明顯和解耦 (disentangled) 臉部潛在空間技術在影片上的發展。更重要的是,這新技術讓用戶可以控制生成,用滑桿微調動作連續性、目光方向、頭部距離或情緒。而且,這模型還能用於非訓練資料集的資料類型,如藝術畫、相片、非英語說話和歌唱聲音等。
微軟說,這模型能以離線批次處理模式,生成 512×512 畫質的 45 fps 影片,線上串流模型則能支援 40fps 。微軟聲稱在其測試中,VASA-1 比起其他方法也不遜色。
微軟也貼出了幾個範例,包括蒙娜麗莎開口唱歌、人像素描說出流利京片子,人物以多種情緒談話,或在演說時頭部不時轉動。
這家軟體巨人說,VASA 的研究顯示人類動作、表情模擬技術的進展,除了藝術表現,還能促進教育平等,協助溝通有障礙的用戶,並可作為照護陪伴或治療支持。
不過,和其他 AI 技術一樣,VASA-1 可能被用作生成 deepfake 影片,微軟強調這只是展示研究成果,微軟沒有將產品推上市的計畫,也不會開放以 API 存取。
來源:VentureBeat
