Meta 本周稍早公佈新的 AI 語音產生模型 Voicebox,宣稱是技術重大突破,但它暫時不會公開原始碼,因為擔心貿然開放會引發災難。
Meta 宣稱 Voicebox 為一種文字轉語音 (text-to-speech)技術,可以產生 6 種語言的語音,還能消除噪音、變換風格,產生多樣化的內容。更好的是它對訓練資料集的需求比傳統技術來得低。傳統方式需要準備專用的資料集來訓練,但 Voicebox 只需 2 秒鐘的聲音樣本,就能比對聲音風格,以文字產出語音,或是將被噪音干擾的聲音重製。它目前能理解英文字,產生 6 種語音,包括英、法、德、西語、波蘭語及葡萄牙語。
Meta 公司表示,Voicebox 可為虛擬助理或是元宇宙、動畫內的非真人角色 (non-player character) 賦予生動的人聲,也能於輔助功能,像是為視障或弱視用戶朗讀出網頁或數位內容的文字,或是為無法說話、有表達困難的使用者發音。而它的語音修正功能也很好用,例如你的演講錄音有一些字發音不正確,它也能獨立出那部份,合成你的聲音來矯正那段落。
Voicebox 目前正在開發中,但 Meta 不打算將之公開,因為它說擔心 Voicebox 等工具可能被誤用造成不預期的傷害。 Meta 的顧慮是正確的,因為隨著 AI 語音產生模型的開放,可能讓歹徒製造 deepfake 詐騙電話,騙取單獨在家的孩童或爺奶,甚至連一般成年人都可能無法倖免。
來源:CNET
