微軟宣布AI模型VALL-E可模擬任何人聲只需要3秒鐘錄音

微軟研究人宣佈下一文字合成(text-to-speech, TTS) AI模型VALL-E，只要給它3秒鐘的聲音樣本即可模擬出逼真人聲。

微軟研究人宣佈下一文字合成 (text-to-speech, TTS) AI 模型 VALL-E，只要給它 3 秒鐘的聲音樣本即可模擬出逼真人聲。而在學習某一聲音到一定程度後，VALL-E 就能模倣原聲音主人說任何話，並且保留說話者的音質及音色。

微軟團隊認為 VALL-E 可以用於高品質的語音合成應用、語音編輯（編輯某人錄音說話文本以讓他講未曾說過的話），以及結合其他生成 AI 模型如 GPT-3 製作聲音內容。

微軟將 VALL-E 稱為「神經編碼器語言模型 (neural codec language model)」，並為此開發了 EnCodec 。一般 TTS 技術以操作波形來合成聲音的方法不同，VALL-E 則是從文字及聲學提示來生成個別語音編碼器程式。它基本上是以 EnCodec 分析人聲結構，將之切成個別元素（名為 token），再使用訓練資料比對這人講其他詞語的聲音。

微軟是利用 Meta 建立的聲音資料庫 LibriLight 訓練 VALL-E 的語音合成能力。它包含 7,000 個人共 6 萬則英文聲音樣本，後者主要來自公共電子書 LibriVox 。

在以 VALL-E 產生聲音時，研究人員只餵 VALL-E 3 秒鐘的「說話者提示」樣本及文字串（他們希望說出的詞語文本）。在 VALL-E 網站上，微軟提供了數十則 AI 模型產生的聲音樣本，包括對照組 (Ground Truth) 樣本及 VALL-E 生成的聲音樣本。有些對樣本真的很相似。有的聲音成果聽來就是電腦生成，但有些幾乎和人聲無法分辨，也達到模型的目標。

除了保存說話者的音色和聲音表情，VALL-E 也會模仿聲音樣本的「聲學環境」，例如如果樣本是來自電話，則它就會模仿講電話的聲音感覺。

或許因為 VALL-E 可以用作惡作劇及詐騙，微軟並未提供 VALL-E 程式碼供開發人員測試。研究人員也了解這 AI 科技可能的危害，表示 VALL-E 可以合成保留說話者身份的語音，在被誤用時也可能造成風險，像是冒用身份或模仿聲音。為降低風險，也可以建立一個 AI 模型來辨別某個聲音是否為 VALL-E 所合成。研究人員未來開發模型時也會將微軟 AI 原則納入實踐。

來源：Ars Technica

微軟宣布 AI 模型 VALL-E 可模擬任何人聲只需要 3 秒鐘錄音

相關

previousSophos是Omdia Universe全面性XDR解決方案報告中排名最高且唯一的領導者

next英特爾推出第四代Xeon處理器家族內建多款加速器加持AI、網路等運算需求

發表迴響取消回覆

相關

相關

previousSophos是Omdia Universe全面性XDR解決方案報告中排名最高且唯一的領導者

next英特爾推出第四代Xeon處理器家族 內建多款加速器加持AI、網路等運算需求

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

next英特爾推出第四代Xeon處理器家族內建多款加速器加持AI、網路等運算需求

探索更多來自網路資訊雜誌的內容