Meta公布全新开源AI语音压缩技术EnCodec：号称比MP3压缩率高10倍

yq-ysy · #1

消息来源：
https://www.msn.cn/zh-cn/news/other/met ... r-AA13MQLY
https://pc.yiyouliao.com/msn/article.ht ... OM22A7C5JO

11月6日消息，近日，Meta公布了一项名为“EnCodec”的AI语音压缩技术，该技术号称可以64kbps的速度压缩比MP3格式小10倍的音频，同时还能保证不会损失质量。

据介绍，Meta 旗下基础人工智能研究 (FAIR) 团队在 AI 驱动的音频超压缩领域取得了成功，构建了一个由三部分组成的系统，并对其进行端到端训练，以将音频数据压缩到目标大小，然后可以使用神经网络对这些数据进行解码。

Meta指出，压缩技术对目前互联网十分重要，借助于此用户可以十分容易的发送高画质图片、语音信息等。不过，发送这些多媒体信息需要充足的带宽和存储空间，尤其是在未来的宇宙时代，因此需要效果更好的压缩技术。

据介绍，“EnCodec”AI训练模型涵盖三个部分，分别编码器可将原始数据转换为较低影帧速率的格式，再由量化器将数据压缩到目标大小，最后，解码器通过神经网络对这些数据进行解码。

EnCodec 的三部分包括：

编码器：获取未压缩的数据并将其转换为更高维度和更低帧率的表示（representation）。

量化器：将这个表示压缩到目标大小，通过训练量化器给想要的大小（或大小集），同时保留最重要的信息来重建原始信号。这种压缩表示是存储在磁盘上或通过网络发送的，相当于计算机上的 .mp3 文件。

解码器：将压缩信号转换回与原始信号尽可能相似的波形，有损压缩的关键是识别人类无法感知的变化，因为在低比特率下完美的重建是不可能的。为此，EnCodec 使用鉴别器来提高生成样本的感知质量，创建了一个类似猫捉老鼠的游戏，其中鉴别器的工作是区分真实样本和重建样本。压缩模型试图通过推动重建的样本在感知上与原始样本更加相似来生成样本来欺骗鉴别器。

值得一提的是，虽然此前也有人尝试用神经网络压缩音频，但Meta是首个将此技术用于48kHz立体声的团队。为编码器、量化器和解码器。

IT之家了解到，Meta 表示，该技术尚未涵盖视频，但目前已在计划中，其目标是改进视频会议、流媒体电影以及在 VR 中与朋友玩游戏等的音频体验。