微軟發表VASA-1 AI模型框架一張照片＋一條語音即可產生逼真談話影片

微軟新推出的VASA-1 AI模型，可將靜態人像及聲音轉換為逼真動態影片，具備精準嘴型同步與自然表情，旨在進步人類動作與表情模擬技術。

微軟上周公佈一項新 AI 模型框架 VASA-1，能將人類臉部畫像或圖片變成會說話和對嘴唱歌的影片。

雖然現在已有不少名人的照片或影片被製作成 deepfake 影片用於宣傳或詐騙，但是只要稍微注意就能發現破綻，例如往往嘴型動作很不自然，眼神或表情也很呆板。但微軟指出，其最新技術能產生激似真人、具有逼真視覺情況 (visual affective, VA) 能力的虛擬人物。

但微軟公佈的 VASA-1 只需用戶輸入一張靜態人像及說話或歌唱的聲音檔，就能生成活靈活現的影片，嘴型和聲音精準同步，且有多層次的表情與自然的頭部動作，更提高了人像逼真度。

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) April 18, 2024

微軟表示 VASA-1 的創新在於臉部與動部動作生成模型能運用於臉部潛在空間 (latent space)，以及此類明顯和解耦 (disentangled) 臉部潛在空間技術在影片上的發展。更重要的是，這新技術讓用戶可以控制生成，用滑桿微調動作連續性、目光方向、頭部距離或情緒。而且，這模型還能用於非訓練資料集的資料類型，如藝術畫、相片、非英語說話和歌唱聲音等。

微軟說，這模型能以離線批次處理模式，生成 512×512 畫質的 45 fps 影片，線上串流模型則能支援 40fps 。微軟聲稱在其測試中，VASA-1 比起其他方法也不遜色。

微軟也貼出了幾個範例，包括蒙娜麗莎開口唱歌、人像素描說出流利京片子，人物以多種情緒談話，或在演說時頭部不時轉動。

這家軟體巨人說，VASA 的研究顯示人類動作、表情模擬技術的進展，除了藝術表現，還能促進教育平等，協助溝通有障礙的用戶，並可作為照護陪伴或治療支持。

不過，和其他 AI 技術一樣，VASA-1 可能被用作生成 deepfake 影片，微軟強調這只是展示研究成果，微軟沒有將產品推上市的計畫，也不會開放以 API 存取。

來源：VentureBeat

微軟發表 VASA-1 AI 模型框架一張照片＋一條語音即可產生逼真談話影片

相關

previousGoogle發表AI與零時差漏洞報告遭濫用的2023年零時差漏洞激增

nextF5在2024年的Kuppinger Cole領導力指南報告被評比為WAF市場的領導者

發表迴響取消回覆

相關

相關

previousGoogle發表AI與零時差漏洞報告 遭濫用的2023年零時差漏洞激增

nextF5在2024年的Kuppinger Cole領導力指南報告被評比為WAF市場的領導者

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

previousGoogle發表AI與零時差漏洞報告遭濫用的2023年零時差漏洞激增

探索更多來自網路資訊雜誌的內容