Meta 發表多模態 LLM Spirit LM,挑戰 OpenAI GPT-4o

Meta FAIR部門推出開源語音模型Spirit LM,解決AI語音生成的情感表現限制,提供自然的聲音生成,並透過非商業授權釋出,應用於多模態任務。

OpenAI GPT-4o 多模態大型語言模型 (multimodal large language model, MLLM) 技驚四座,不甘示弱的 Meta 也在本周以開原碼專案釋出 Spirit LM 。

這個模型是由 Meta Fundamental AI Research (FAIR) 部門開發而成,為了解決現有 AI 語音表現的限制,想產生表達更豐富和聲音更自然的聲音,又要學習多種語音技術如自動語音辨識 (automatic voice recognition) 、語音合成 (text-to-speech, TTS) 、語音分類 (speech classification) 。

Spirit LM 的論文及生成的範例,可在 GitHub 取得閱讀。

傳統的語音生成模型,要先將輸入聲音經過自動語音辨識 (ASR) 轉成文字,經過 AI 模型理解回覆,再語音合成產出聲音。雖然有效,但這個過程會犠牲人類說話的表現,如情緒和語調。 Meta Spirit LM 則是加入發音、音高和聲調的字符 (token) 解決這些問題。

Spirit LM 提供二個版本,包括基本的 Spirit LM Base,使用發音元素來處理和生成話語。而 Spirit LM Expressive 則額外加入音高和聲調字元,讓生成的語音加入情緒如興奮、悲傷等情感。

兩模型都是以文字和話語資料集訓練而成,讓 Spirit LM 可執行多模態任務,包括語音到文字,或文字到語音,又能維持生成語音的表現自然性。

不過基於深偽 (deepfake) 內容的疑慮,目前本模型只透過非商業研究授權 (noncommercial research license) 提供給非商業用途,包括使用、重製、修改及建立衍生模型。模型及衍生物也需遵守非商業限制。

來源:VentureBeat

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link