用文字寫曲子:Stable Audio 將 AI 帶入音樂生成的新領域

Stability AI推出了一款名為Stable Audio的文字轉聲音AI模型,能根據用戶的文字描述合成44.1 kHz的立體聲音樂或音效。

想像你輸入「壯麗的音樂」後聽到磅礴的交響樂,或鍵入「令人毛骨聳然的腳步聲」,然後得到極逼真的音效。生成式 AI 業者 Stability AI 本周公佈的文字轉聲音 AI 模型 Stable Audio 時這麼告訴大家。該公司聲稱 Stable Audio 可以用戶輸入的文字描述,合成 44.1 kHz 立體聲音樂或音效。可能再不久後,這類 AI 要威脅音樂家的生計了。

Stability AI 是出資開發潛在擴散 (latent diffusion) 圖像合成模型 Stability Diffusion 的公司,但它不滿足於生成圖像,又挹注 AI 實驗室 Harmonai 。 Harmonai 九月曾推出音樂生成模型 Dance Diffusion 。

現在 Stability AI 和 Harmonai 合作以 Stable Audio 跨入商業化 AI 生成模型市場。從該公司提供的樣本來看,Stability Audio 生成的音樂品質要大幅領先早前 AI 模型的生成產物。

Stability Audio 網頁上提供了多種以文字生成的音樂範例,有史詩級音樂、強烈的部落節奏與銅管音樂,或是放鬆的 Lo-Fi 沙發音樂等。此外也有 AI 生成的音樂,像是飛機上的機長廣播,或是在嘈雜餐廳的交談聲等。

為了訓練 Stability Audio 模型,Stability 和音效供應商 AudioSparx 合作,取得後者授權 80 萬個音效檔,包括音樂、音效、單種樂器音效,以及相關的文字 metadata 。在餵入 1.95 萬小時的聲音資料後,Stable Audio 學會了如何根據使用者文字指令模仿出特定聲音,因為在訓練中聲音已經在神經網路中與文字描述關聯起來。

Stability Audio 模型包含多個部份,使其得以快速生成音樂。第一部份將聲音檔縮小,去除不必要的噪音,但保留重要特徵。這也使得系統能快速生成音樂,另一部份則使用文字(音樂的和聲音的 metadata 描述)引導該生成什麼音樂。

為了加速執行,Stability Audio 架構使用高度簡化的壓縮聲音格式來縮短推論時間。 Stability AI 指出,在 Nvidia A100 GPU 系統上,Stability Audio 可以在不到 1 秒內,以 44.1 kHz 的採樣率(通常稱為 CD 音質)生成 95 秒 16-bit 立體聲音樂。 A100 是強大的資料中心 GPU,專門用於 AI 運算。

Stability Audio 並非第一個潛在擴散模型 (latent diffusion model) 。去年 12 月一名玩家自己推出了聲音版 Stable Diffusion,名為 Riffusion,雖然生出的聲音大大不如 Stability Audio 的成果。今年一月 Google 也公佈了可生成 24 kHz 音樂的 MusicLM 。 8 月間,Meta 也釋出了開原碼聲音 AI 生成工具,稱為 AUdioCraft 。 Stability Audio 可以生成 44.1 kHz 立體音效,可以說後來居上。

Stability Audio 將推出 2 種版本,一是免費版,另一為 12 美元月費的 Pro 方案。免費版允許用戶每個月生成 20 首音樂,一首最長 20 秒。 Pro 方案用戶則可每月生成 500 首音樂,最長可到 90 秒。 Future Stability 版可望加入 Stability Audio 架構的開原碼模型以及訓練程式碼,以提供給想開發生成模型的人。

來源:Ars Technica

發表迴響

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、 MIS 、 IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2025 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416

探索更多來自 網路資訊雜誌 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading

Secret Link