微軟宣布AI模型VALL-E可模擬任何人聲 只需要3秒鐘錄音

微軟研究人宣佈下一文字合成(text-to-speech, TTS) AI模型VALL-E,只要給它3秒鐘的聲音樣本即可模擬出逼真人聲。

微軟研究人宣佈下一文字合成(text-to-speech, TTS) AI模型VALL-E,只要給它3秒鐘的聲音樣本即可模擬出逼真人聲。而在學習某一聲音到一定程度後,VALL-E就能模倣原聲音主人說任何話,並且保留說話者的音質及音色。

微軟團隊認為VALL-E可以用於高品質的語音合成應用、語音編輯(編輯某人錄音說話文本以讓他講未曾說過的話),以及結合其他生成AI模型如GPT-3製作聲音內容。

微軟將VALL-E稱為「神經編碼器語言模型 (neural codec language model)」,並為此開發了EnCodec。一般TTS技術以操作波形來合成聲音的方法不同,VALL-E則是從文字及聲學提示來生成個別語音編碼器程式。它基本上是以EnCodec分析人聲結構,將之切成個別元素(名為token),再使用訓練資料比對這人講其他詞語的聲音。

微軟是利用Meta建立的聲音資料庫LibriLight訓練VALL-E的語音合成能力。它包含7,000個人共6萬則英文聲音樣本,後者主要來自公共電子書LibriVox。

在以VALL-E產生聲音時,研究人員只餵VALL-E 3秒鐘的「說話者提示」樣本及文字串(他們希望說出的詞語文本)。在VALL-E網站上,微軟提供了數十則AI模型產生的聲音樣本,包括對照組(Ground Truth)樣本及VALL-E生成的聲音樣本。有些對樣本真的很相似。有的聲音成果聽來就是電腦生成,但有些幾乎和人聲無法分辨,也達到模型的目標。

除了保存說話者的音色和聲音表情,VALL-E也會模仿聲音樣本的「聲學環境」,例如如果樣本是來自電話,則它就會模仿講電話的聲音感覺。

或許因為VALL-E可以用作惡作劇及詐騙,微軟並未提供VALL-E程式碼供開發人員測試。研究人員也了解這AI科技可能的危害,表示VALL-E可以合成保留說話者身份的語音,在被誤用時也可能造成風險,像是冒用身份或模仿聲音。為降低風險,也可以建立一個AI模型來辨別某個聲音是否為VALL-E所合成。研究人員未來開發模型時也會將微軟AI原則納入實踐。

來源:Ars Technica

關於我們

自1990年創刊UXmaster雜誌,1991年獲得美國LAN Magazine獨家授權中文版,2006年獲得CMP Network Computing授權,2009年合併CMP Network Magazine獨家授權中文版,2014年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2022 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416