Primero fueron imágenes, luego vídeo, y ahora una IA crea sonidos a partir de texto

9 oct. 2022 19:03h.

La inteligencia artificial sigue explorando nuevos caminos. Ahora se atreve a inventarse audio.

Muy pronto la creación de efectos de sonido para vídeos, cine, etc., podrá llevarse a cabo de forma sencilla e inmediata. Al menos eso es lo que promete AudioGen, una inteligencia artificial que convierte texto en sonido.

Hace unos meses nos quedamos con la boca abierta con DALL-E, una inteligencia artificial de Google que convierte cualquier texto en una imagen. Tecnología que podemos probar nosotros mismos con este tutorial de Stable Diffusion.

Hace unos semanas Meta presentó Make-a-video, una IA para convertir texto a vídeo. La propia Google contraatacó con Imagen Video, otra IA que también obtiene vídeos a partir de una frase.

Y ahora conocemos a AudioGen, una IA que convierte texto a sonido. No es la primera, ya que hay otras como DiffSound y Ground Truth, pero por los ejemplos sí parece la más avanzada.

AudioGen, conversor de texto a audio basado en IA

AudioGen es una inteligencia artificial que utiliza un modelo generativo autorregresivo para generar un sonido a partir de una frase de texto. Ha sido creada por un grupo de investigadores de la Universidad Hebrea de Jerusalén, encabezados por Felix Kreuk.

La dificultad de este proyecto está en obtener audio aprovechable para entrenar a la IA. En la mayoría de los ficheros de audio hay muchos tipos de sonidos mezclados: desde varias personas hablando hasta sonidos de fondo, o limitaciones de la grabación, como el ruido. Pero para poder aprender, una IA necesita diferenciar sonidos puros, para luego poder manejarlos y manipularlos a su antojo.

Dónde descargar música gratis para tus vídeos, podcast y proyectos personales de forma legal

Dónde descargar música gratis para tus vídeos y proyectos personales de forma legal

Este equipo de investigadores utilizaron 10 conjuntos de datos que contienen diferentes tipos de anotaciones de audio y texto.

Para agilizar la inferencia, emplearon modelos de flujos múltiples, lo que permite el uso de secuencias más cortas manteniendo una tasa de bits y una calidad perceptiva similares. Puedes ver el resultado en el fichero de vídeo de este tuit:

Como vemos, se introducen frases como "silbar con sonido de viento fuerte", "un hombre habla mientras un pájaro canta y un perro ladra", o "sirenas de policía que pasan a tu lado", y la IA reproduce exactamente esos sonidos.

Es fácil ver las implicaciones que este tipo de IAs tendrán para los creadores de vídeos, el cine o las series de televisión. En un futuro ya no será necesario grabar esos sonidos en concreto, o descargarlos o comprarlos en una base de datos de audio.

AudioGen, la inteligencia artificial que convierte texto en sonidos aún está en dearrollo, por eso sus creadores todavía no ofrecen el código o el software para probarla nosotros mismos. Pero puedes ver cómo funciona con los abundantes ejemplos que se recopilan en su página web.

Otros artículos interesantes:

Descubre más sobre Juan Antonio Pascual Estapé, autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial, Curiosidades