用文字寫曲子：Stable Audio將AI帶入音樂生成的新領域

Stability AI推出了一款名為Stable Audio的文字轉聲音AI模型，能根據用戶的文字描述合成44.1 kHz的立體聲音樂或音效。

想像你輸入「壯麗的音樂」後聽到磅礴的交響樂，或鍵入「令人毛骨聳然的腳步聲」，然後得到極逼真的音效。生成式 AI 業者 Stability AI 本周公佈的文字轉聲音 AI 模型 Stable Audio 時這麼告訴大家。該公司聲稱 Stable Audio 可以用戶輸入的文字描述，合成 44.1 kHz 立體聲音樂或音效。可能再不久後，這類 AI 要威脅音樂家的生計了。

Stability AI 是出資開發潛在擴散 (latent diffusion) 圖像合成模型 Stability Diffusion 的公司，但它不滿足於生成圖像，又挹注 AI 實驗室 Harmonai 。 Harmonai 九月曾推出音樂生成模型 Dance Diffusion 。

現在 Stability AI 和 Harmonai 合作以 Stable Audio 跨入商業化 AI 生成模型市場。從該公司提供的樣本來看，Stability Audio 生成的音樂品質要大幅領先早前 AI 模型的生成產物。

Stability Audio 網頁上提供了多種以文字生成的音樂範例，有史詩級音樂、強烈的部落節奏與銅管音樂，或是放鬆的 Lo-Fi 沙發音樂等。此外也有 AI 生成的音樂，像是飛機上的機長廣播，或是在嘈雜餐廳的交談聲等。

為了訓練 Stability Audio 模型，Stability 和音效供應商 AudioSparx 合作，取得後者授權 80 萬個音效檔，包括音樂、音效、單種樂器音效，以及相關的文字 metadata 。在餵入 1.95 萬小時的聲音資料後，Stable Audio 學會了如何根據使用者文字指令模仿出特定聲音，因為在訓練中聲音已經在神經網路中與文字描述關聯起來。

Stability Audio 模型包含多個部份，使其得以快速生成音樂。第一部份將聲音檔縮小，去除不必要的噪音，但保留重要特徵。這也使得系統能快速生成音樂，另一部份則使用文字（音樂的和聲音的 metadata 描述）引導該生成什麼音樂。

為了加速執行，Stability Audio 架構使用高度簡化的壓縮聲音格式來縮短推論時間。 Stability AI 指出，在 Nvidia A100 GPU 系統上，Stability Audio 可以在不到 1 秒內，以 44.1 kHz 的採樣率（通常稱為 CD 音質）生成 95 秒 16-bit 立體聲音樂。 A100 是強大的資料中心 GPU，專門用於 AI 運算。

Stability Audio 並非第一個潛在擴散模型 (latent diffusion model) 。去年 12 月一名玩家自己推出了聲音版 Stable Diffusion，名為 Riffusion，雖然生出的聲音大大不如 Stability Audio 的成果。今年一月 Google 也公佈了可生成 24 kHz 音樂的 MusicLM 。 8 月間，Meta 也釋出了開原碼聲音 AI 生成工具，稱為 AUdioCraft 。 Stability Audio 可以生成 44.1 kHz 立體音效，可以說後來居上。

Stability Audio 將推出 2 種版本，一是免費版，另一為 12 美元月費的 Pro 方案。免費版允許用戶每個月生成 20 首音樂，一首最長 20 秒。 Pro 方案用戶則可每月生成 500 首音樂，最長可到 90 秒。 Future Stability 版可望加入 Stability Audio 架構的開原碼模型以及訓練程式碼，以提供給想開發生成模型的人。

來源：Ars Technica

用文字寫曲子：Stable Audio 將 AI 帶入音樂生成的新領域

相關

previous蘋果發表首隻碳中和智慧手錶Apple Watch 9、Ultra 2

nextGoogle對決OpenAI：Gemini大型語言模型蓄勢待發

發表迴響取消回覆

相關

相關

previous蘋果發表首隻碳中和智慧手錶Apple Watch 9、Ultra 2

nextGoogle對決OpenAI：Gemini大型語言模型蓄勢待發

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容