Logo Computerhoy.com

Así es el códec de audio con IA de Meta que funciona 10 veces mejor que MP3

MP3 y altavoz de música

Tras más de dos décadas con el audio MP3 como paradigma de la calidad y la compresión, ahora Meta quiere revolucionarlo todo con el uso de la inteligencia artificial y un códec propio.

Meta ha anunciado un método de compresión de audio basado en la inteligencia artificial, denominado EnCodec, que puede comprimir el audio 10 veces más que el formato MP3 a 64 kbps sin perder calidad.

La anteriormente conocida como Facebookafirma que esta técnica podría mejorar drásticamente la calidad del sonido de la voz en conexiones con poco ancho de banda, como las llamadas telefónicas en zonas con muy mala cobertura. Pero el objetivo que se han puesto tiene que ver con la música.

El equipo de Zuckerberg describe su método como un sistema de tres partes entrenado para comprimir el audio a un tamaño ideal. En primer lugar, el codificador transforma los datos sin comprimir en una representación de espacio latente de menor velocidad.

A continuación, el cuantificador comprime la representación hasta el tamaño deseado, sin perder de vista la información más importante que luego se utilizará para reconstruir la señal original. Por último, el descodificador vuelve a convertir los datos comprimidos en audio en tiempo real utilizando una red neuronal.

Diagrama de Facebook

Así explica Meta el funcionamiento de su tecnología: 10 veces mejor que el MP3

El uso de discriminadores por parte de Meta resulta clave para crear un método que comprima el audio lo máximo posible sin perder los elementos clave de una señal que la hacen distintiva y reconocible como hace hasta ahora el MP3, así lo explican en su blog:

"La clave de la compresión con pérdidas es identificar los cambios que no serán perceptibles por los humanos, ya que la reconstrucción perfecta es imposible a bajas tasas de bits. Para ello, utilizamos discriminadores para mejorar la calidad perceptiva de las muestras generadas".

"Esto crea un juego del gato y el ratón en el que el trabajo del discriminador es diferenciar entre las muestras reales y las reconstruidas", finaliza.

MP3 Meta

Cabe señalar que el uso de una red neuronal para la compresión y descompresión de audio no es algo nuevo, pero los investigadores de Meta afirman que son el primer grupo que aplica la tecnología al audio estéreo de 48 kHz (calidad DVD), que es la típica de los archivos de sonido profesional.

La nueva tecnología de Meta sigue en fase de investigación, pero apunta a un futuro en el que el audio de alta calidad puede utilizar menos ancho de banda, lo que sería una gran noticia para Internet y todos los que usamos a diario una conexión a la red.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Facebook