Meta發表多模態LLM Spirit LM，挑戰OpenAI GPT-4o

Meta FAIR部門推出開源語音模型Spirit LM，解決AI語音生成的情感表現限制，提供自然的聲音生成，並透過非商業授權釋出，應用於多模態任務。

OpenAI GPT-4o 多模態大型語言模型 (multimodal large language model, MLLM) 技驚四座，不甘示弱的 Meta 也在本周以開原碼專案釋出 Spirit LM 。

這個模型是由 Meta Fundamental AI Research (FAIR) 部門開發而成，為了解決現有 AI 語音表現的限制，想產生表達更豐富和聲音更自然的聲音，又要學習多種語音技術如自動語音辨識 (automatic voice recognition) 、語音合成 (text-to-speech, TTS) 、語音分類 (speech classification) 。

Spirit LM 的論文及生成的範例，可在 GitHub 取得閱讀。

傳統的語音生成模型，要先將輸入聲音經過自動語音辨識 (ASR) 轉成文字，經過 AI 模型理解回覆，再語音合成產出聲音。雖然有效，但這個過程會犠牲人類說話的表現，如情緒和語調。 Meta Spirit LM 則是加入發音、音高和聲調的字符 (token) 解決這些問題。

Spirit LM 提供二個版本，包括基本的 Spirit LM Base，使用發音元素來處理和生成話語。而 Spirit LM Expressive 則額外加入音高和聲調字元，讓生成的語音加入情緒如興奮、悲傷等情感。

兩模型都是以文字和話語資料集訓練而成，讓 Spirit LM 可執行多模態任務，包括語音到文字，或文字到語音，又能維持生成語音的表現自然性。

不過基於深偽 (deepfake) 內容的疑慮，目前本模型只透過非商業研究授權 (noncommercial research license) 提供給非商業用途，包括使用、重製、修改及建立衍生模型。模型及衍生物也需遵守非商業限制。

來源：VentureBeat

Meta 發表多模態 LLM Spirit LM，挑戰 OpenAI GPT-4o

相關

previousAdobe Max 2024：發表Firefly Video Model可合法產生AI生成影片

nextSophos斥資8.59億美元收購Secureworks 雙方維持獨立運作

發表迴響取消回覆

相關

相關

previousAdobe Max 2024：發表Firefly Video Model可合法產生AI生成影片

nextSophos斥資8.59億美元收購Secureworks 雙方維持獨立運作

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容