Meta 展示 AI 音訊壓縮技術 號稱壓縮率是 MP3 的 10 倍 且不損及音質

上周Meta宣佈AI音訊壓縮方法,稱為EnCodec,號稱能將音訊壓得比MP3格式小10倍,而不會影響音質。Meta說這技術能大幅提升低頻寬網路上人說話的音質,像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

上周 Meta 宣佈 AI 音訊壓縮方法,稱為 EnCodec,號稱能將音訊壓得比 MP3 格式小 10 倍,而不會影響音質。Meta 說這技術能大幅提升低頻寬網路上人說話的音質,像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

Meta 是在名為《高傳真度神經音訊壓縮》的報告公佈這項新技術。這方法包含三部份系統,以便將聲音壓縮成極小程度。首先,編碼器 (encoder) 將未壓縮資料壓成較低影格率 (frame-rate) 的「隱藏空間」(Latent Space) 格式,之後量化器 (quantizer) 又將前述格式再壓縮成想要的大小,同時保留最重要的資訊。最重要的資訊之後可被用來回復原始訊號(壓縮的訊號會以網路傳送,或儲存到硬體中。)最後,解碼器又再將壓縮資料在單一 CPU 系統上以神經網路即時回復成音訊。

Meta 利用鑑別式網路 (Discriminator) 訓練出演算法,將音訊在不損失訊號精華下壓到最小,是這 EnCodec 最特殊的技術。

其實使用神經網路來壓縮、解壓縮音訊、尤其是說話音訊,Meta 並非第一個,但是該公司研究人員聲稱,他們是第一個在 48 kHz 立體音訊上使用這技術的(比 CD 的 44.1 kHz 取樣率稍好一點),而 48 kHz 則是網路音樂檔案最常用的頻率。

至於這技術的用途,Meta 說,AI 音訊「超壓縮」可讓在低頻寬網路上通話更快、音質更佳。此外,研究人員也不忘提到 EnCodec 對元宇宙的效用,表示它最終能提供「豐富的元宇宙體驗」,而無需大幅升級網路頻寬。

而這技術也能用來壓縮音樂檔。目前 Meta 的技術還在研發階段,但該公司指未來高品質音訊也可望不那麼佔頻寬,對苦於串流音樂造成網路過載的手機電信業者來說,將是一大福音。

來源:Ars Technica

關於我們

自 1990 年創刊 UXmaster 雜誌,1991 年獲得美國 LAN Magazine 獨家授權中文版,2006 年獲得 CMP Network Computing 授權,2009 年合併 CMP Network Magazine 獨家授權中文版,2014 年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT 人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2023 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416