OpenAI GPT-4o 多模態大型語言模型 (multimodal large language model, MLLM) 技驚四座,不甘示弱的 Meta 也在本周以開原碼專案釋出 Spirit LM 。
這個模型是由 Meta Fundamental AI Research (FAIR) 部門開發而成,為了解決現有 AI 語音表現的限制,想產生表達更豐富和聲音更自然的聲音,又要學習多種語音技術如自動語音辨識 (automatic voice recognition) 、語音合成 (text-to-speech, TTS) 、語音分類 (speech classification) 。
Spirit LM 的論文及生成的範例,可在 GitHub 取得閱讀。
傳統的語音生成模型,要先將輸入聲音經過自動語音辨識 (ASR) 轉成文字,經過 AI 模型理解回覆,再語音合成產出聲音。雖然有效,但這個過程會犠牲人類說話的表現,如情緒和語調。 Meta Spirit LM 則是加入發音、音高和聲調的字符 (token) 解決這些問題。
Spirit LM 提供二個版本,包括基本的 Spirit LM Base,使用發音元素來處理和生成話語。而 Spirit LM Expressive 則額外加入音高和聲調字元,讓生成的語音加入情緒如興奮、悲傷等情感。
兩模型都是以文字和話語資料集訓練而成,讓 Spirit LM 可執行多模態任務,包括語音到文字,或文字到語音,又能維持生成語音的表現自然性。
不過基於深偽 (deepfake) 內容的疑慮,目前本模型只透過非商業研究授權 (noncommercial research license) 提供給非商業用途,包括使用、重製、修改及建立衍生模型。模型及衍生物也需遵守非商業限制。
來源:VentureBeat
