Meta 展示 AI 音訊壓縮技術 號稱壓縮率是 MP3 的 10 倍 且不損及音質
上周 Meta 宣佈 AI 音訊壓縮方法,稱為 EnCodec,號稱能將音訊壓得比 MP3 格式小 10 倍,而不會影響音質。Meta 說這技術能大幅提升低頻寬網路上人說話的音質,像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。
Meta 是在名為《高傳真度神經音訊壓縮》的報告公佈這項新技術。這方法包含三部份系統,以便將聲音壓縮成極小程度。首先,編碼器 (encoder) 將未壓縮資料壓成較低影格率 (frame-rate) 的「隱藏空間」(Latent Space) 格式,之後量化器 (quantizer) 又將前述格式再壓縮成想要的大小,同時保留最重要的資訊。最重要的資訊之後可被用來回復原始訊號(壓縮的訊號會以網路傳送,或儲存到硬體中。)最後,解碼器又再將壓縮資料在單一 CPU 系統上以神經網路即時回復成音訊。
Meta 利用鑑別式網路 (Discriminator) 訓練出演算法,將音訊在不損失訊號精華下壓到最小,是這 EnCodec 最特殊的技術。
其實使用神經網路來壓縮、解壓縮音訊、尤其是說話音訊,Meta 並非第一個,但是該公司研究人員聲稱,他們是第一個在 48 kHz 立體音訊上使用這技術的(比 CD 的 44.1 kHz 取樣率稍好一點),而 48 kHz 則是網路音樂檔案最常用的頻率。
至於這技術的用途,Meta 說,AI 音訊「超壓縮」可讓在低頻寬網路上通話更快、音質更佳。此外,研究人員也不忘提到 EnCodec 對元宇宙的效用,表示它最終能提供「豐富的元宇宙體驗」,而無需大幅升級網路頻寬。
而這技術也能用來壓縮音樂檔。目前 Meta 的技術還在研發階段,但該公司指未來高品質音訊也可望不那麼佔頻寬,對苦於串流音樂造成網路過載的手機電信業者來說,將是一大福音。
來源:Ars Technica