微軟發表 VASA-1 AI 模型框架 一張照片+一條語音即可產生逼真談話影片

微軟新推出的VASA-1 AI模型,可將靜態人像及聲音轉換為逼真動態影片,具備精準嘴型同步與自然表情,旨在進步人類動作與表情模擬技術。

微軟上周公佈一項新 AI 模型框架 VASA-1,能將人類臉部畫像或圖片變成會說話和對嘴唱歌的影片。

雖然現在已有不少名人的照片或影片被製作成 deepfake 影片用於宣傳或詐騙,但是只要稍微注意就能發現破綻,例如往往嘴型動作很不自然,眼神或表情也很呆板。但微軟指出,其最新技術能產生激似真人、具有逼真視覺情況 (visual affective, VA) 能力的虛擬人物。

但微軟公佈的 VASA-1 只需用戶輸入一張靜態人像及說話或歌唱的聲音檔,就能生成活靈活現的影片,嘴型和聲音精準同步,且有多層次的表情與自然的頭部動作,更提高了人像逼真度。

微軟表示 VASA-1 的創新在於臉部與動部動作生成模型能運用於臉部潛在空間 (latent space),以及此類明顯和解耦 (disentangled) 臉部潛在空間技術在影片上的發展。更重要的是,這新技術讓用戶可以控制生成,用滑桿微調動作連續性、目光方向、頭部距離或情緒。而且,這模型還能用於非訓練資料集的資料類型,如藝術畫、相片、非英語說話和歌唱聲音等。

微軟說,這模型能以離線批次處理模式,生成 512×512 畫質的 45 fps 影片,線上串流模型則能支援 40fps 。微軟聲稱在其測試中,VASA-1 比起其他方法也不遜色。

微軟也貼出了幾個範例,包括蒙娜麗莎開口唱歌、人像素描說出流利京片子,人物以多種情緒談話,或在演說時頭部不時轉動。

這家軟體巨人說,VASA 的研究顯示人類動作、表情模擬技術的進展,除了藝術表現,還能促進教育平等,協助溝通有障礙的用戶,並可作為照護陪伴或治療支持。

不過,和其他 AI 技術一樣,VASA-1 可能被用作生成 deepfake 影片,微軟強調這只是展示研究成果,微軟沒有將產品推上市的計畫,也不會開放以 API 存取。

來源:VentureBeat

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link