Meta展示AI音訊壓縮技術 號稱壓縮率是MP3的10倍 且不損及音質

上周Meta宣佈AI音訊壓縮方法,稱為EnCodec,號稱能將音訊壓得比MP3格式小10倍,而不會影響音質。Meta說這技術能大幅提升低頻寬網路上人說話的音質,像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

上周Meta宣佈AI音訊壓縮方法,稱為EnCodec,號稱能將音訊壓得比MP3格式小10倍,而不會影響音質。Meta說這技術能大幅提升低頻寬網路上人說話的音質,像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

Meta是在名為《高傳真度神經音訊壓縮》的報告公佈這項新技術。這方法包含三部份系統,以便將聲音壓縮成極小程度。首先,編碼器(encoder)將未壓縮資料壓成較低影格率(frame-rate)的「隱藏空間」(Latent Space)格式,之後量化器(quantizer)又將前述格式再壓縮成想要的大小,同時保留最重要的資訊。最重要的資訊之後可被用來回復原始訊號(壓縮的訊號會以網路傳送,或儲存到硬體中。)最後,解碼器又再將壓縮資料在單一CPU系統上以神經網路即時回復成音訊。

Meta利用鑑別式網路(Discriminator)訓練出演算法,將音訊在不損失訊號精華下壓到最小,是這EnCodec最特殊的技術。

其實使用神經網路來壓縮、解壓縮音訊、尤其是說話音訊,Meta並非第一個,但是該公司研究人員聲稱,他們是第一個在48 kHz立體音訊上使用這技術的(比CD的 44.1 kHz取樣率稍好一點),而48 kHz則是網路音樂檔案最常用的頻率。

至於這技術的用途,Meta說,AI音訊「超壓縮」可讓在低頻寬網路上通話更快、音質更佳。此外,研究人員也不忘提到EnCodec對元宇宙的效用,表示它最終能提供「豐富的元宇宙體驗」,而無需大幅升級網路頻寬。

而這技術也能用來壓縮音樂檔。目前Meta的技術還在研發階段,但該公司指未來高品質音訊也可望不那麼佔頻寬,對苦於串流音樂造成網路過載的手機電信業者來說,將是一大福音。

來源:Ars Technica

關於我們

自1990年創刊UXmaster雜誌,1991年獲得美國LAN Magazine獨家授權中文版,2006年獲得CMP Network Computing授權,2009年合併CMP Network Magazine獨家授權中文版,2014年轉型為《網路資訊》雜誌網站,為台灣中小企業協助技術領導者落實企業策略,了解網路規劃及應用,為企業網路應用、管理、MIS、IT人員必備之專業雜誌網站。


與我們聯絡

加入《網路資訊》雜誌社群

© Copyright 2022 本站版權所有,禁止任意轉載 網路資訊雜誌 / 心動傳媒股份有限公司 聯絡電話:+886 2 29432416