Logo Computerhoy.com

VASA-1, la IA de Microsoft que crea un deepfake con una foto y una grabación de audio

VASA-1, la IA de Microsoft que crea un deepfake con una foto y una grabación de audio

Microsoft

Microsoft ha creado una IA que puede generar deepfakes en tiempo real. Es tan peligrosa, que de momento no la va a hacer pública.

Una simple foto y una grabación de audio es todo lo que necesitas para que VASA-1, la nueva IA generativa de Microsoft, genere un deepfake en cuestión de segundos. Lo hemos visto antes, pero nunca tan realista, y en tiempo real.

VASA-1 es una inteligencia artificial generativa que solo necesita una foto de tipo carnet, una frase de audio, y al instante genera un deepfake hiperrealista con sincronización labial, gestos naturales, y movimientos de cabeza. Puedes verlo en este vídeo:

Si te fijas bien se nota que es un vídeo creado por una IA, pero resulta impresionante que se consiga un resultado tan realista a partir de una simple foto estática.

Hay que decir que todas las personas que se ven en las imágenes de la noticia tampoco existen, también han sido creadas por una IA, en concreto StyleGAN2 y DALL·E 3. Así que nada de lo que ves aquí es real.

VASA-1, una IA demasiado peligrosa para liberarla

Las principales innovaciones incluyen un modelo holístico de dinámica facial y generación de movimientos de la cabeza que funciona en un espacio latente facial, según explica el comunicado de Microsoft.

Detrás de VASA-1 está Microsoft Asia, un equipo formado por los expertos en IA Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, y Baining Guo.

VASA-1, la nueva IA de Microsoft que crea deepfakes

Microsoft Asia

Sus creadores aseguran que VASA-1 supera a cualquier otra IA especializada en la creación de avatares virtuales.

VASA-1 destaca porque genera vídeo de alta calidad en tiempo real con una dinámica facial y una cabeza realista, con una resolución de hasta 512 x 512 píxeles y 40 fps, y una latencia de menos de 170 ms, usando una tarjeta gráfica RTX 4090.

Hay que decir que VASA-1 no clona la voz, es decir, no es capaz de generar nuevo audio. Usa la grabación que le suministremos. Pero la sincronización labial es realmente espectacular.

Meta estrena su nueva IA generativa Llama 3, asegura que es mejor que GPT-4

Por supuesto, Microsoft no ha desarrollado esta inteligencia artificial generativa para crear deepfakes, sino para diseñar avatares realistas que emulan los comportamientos conversacionales humanos.

Puesto que el vídeo se genera en tiempo real, la idea es usarlos en servicios de atención al cliente, avatares de juegos y aplicaciones, etc.

En lugar de mostrar un frío chat de texto o una llamada de voz en la atención al cliente de Amazon o Mercadona, por poner un ejemplo, se puede utilizar un avatar como estos que gesticula y traduce a voz los textos que vaya tecleando un operador.

OpenAI presenta Voice Engine, una IA que clona tu voz con solo escucharte 15 segundos

Aunque los avatares se pueden generar automáticamente, VASA-1 tiene una serie de parámetros de personalización para hacer que el personaje virtual sea más alegre, más serio, más o menos gesticulador, etc.

Con VASA-1, Microsoft no quiere crear deepfakes, pero es consciente de que es lo primero que hará la gente. Por eso, de momento, no van a lanzar ninguna demo, API, o versión comercial, hasta que "estemos seguros de que la tecnología se usa con responsabilidad". Algo que no va a ocurrir nunca...

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.