Meta展示AI音訊壓縮技術　號稱壓縮率是MP3的10倍　且不損及音質

上周Meta宣佈AI音訊壓縮方法，稱為EnCodec，號稱能將音訊壓得比MP3格式小10倍，而不會影響音質。Meta說這技術能大幅提升低頻寬網路上人說話的音質，像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

上周 Meta 宣佈 AI 音訊壓縮方法，稱為 EnCodec，號稱能將音訊壓得比 MP3 格式小 10 倍，而不會影響音質。 Meta 說這技術能大幅提升低頻寬網路上人說話的音質，像是在網路訊號差的地區的電話。而這技術也可用於傳送音樂。

Meta 是在名為《高傳真度神經音訊壓縮》的報告公佈這項新技術。這方法包含三部份系統，以便將聲音壓縮成極小程度。首先，編碼器 (encoder) 將未壓縮資料壓成較低影格率 (frame-rate) 的「隱藏空間」(Latent Space) 格式，之後量化器 (quantizer) 又將前述格式再壓縮成想要的大小，同時保留最重要的資訊。最重要的資訊之後可被用來回復原始訊號（壓縮的訊號會以網路傳送，或儲存到硬體中。）最後，解碼器又再將壓縮資料在單一 CPU 系統上以神經網路即時回復成音訊。

Meta 利用鑑別式網路 (Discriminator) 訓練出演算法，將音訊在不損失訊號精華下壓到最小，是這 EnCodec 最特殊的技術。

其實使用神經網路來壓縮、解壓縮音訊、尤其是說話音訊，Meta 並非第一個，但是該公司研究人員聲稱，他們是第一個在 48 kHz 立體音訊上使用這技術的（比 CD 的 44.1 kHz 取樣率稍好一點），而 48 kHz 則是網路音樂檔案最常用的頻率。

至於這技術的用途，Meta 說，AI 音訊「超壓縮」可讓在低頻寬網路上通話更快、音質更佳。此外，研究人員也不忘提到 EnCodec 對元宇宙的效用，表示它最終能提供「豐富的元宇宙體驗」，而無需大幅升級網路頻寬。

而這技術也能用來壓縮音樂檔。目前 Meta 的技術還在研發階段，但該公司指未來高品質音訊也可望不那麼佔頻寬，對苦於串流音樂造成網路過載的手機電信業者來說，將是一大福音。

來源：Ars Technica

Meta 展示 AI 音訊壓縮技術　號稱壓縮率是 MP3 的 10 倍　且不損及音質

相關

previousOpenSSL將爆出HeartBleed等級的重大漏洞？幸好只是虛驚一場

next蘋果App Store不支援外連購買NFT，有違反美聯邦法院判決之嫌？

發表迴響取消回覆

相關

相關

previousOpenSSL將爆出HeartBleed等級的重大漏洞？幸好只是虛驚一場

next蘋果App Store不支援外連購買NFT，有違反美聯邦法院判決之嫌？

發表迴響取消回覆

相關

探索更多來自 網路資訊雜誌 的內容

探索更多來自網路資訊雜誌的內容