VASA-1, la IA de Microsoft que crea un deepfake con una foto y una grabación de audio
Microsoft
Microsoft ha creado una IA que puede generar deepfakes en tiempo real. Es tan peligrosa, que de momento no la va a hacer pública.
Una simple foto y una grabación de audio es todo lo que necesitas para que VASA-1, la nueva IA generativa de Microsoft, genere un deepfake en cuestión de segundos. Lo hemos visto antes, pero nunca tan realista, y en tiempo real.
VASA-1 es una inteligencia artificial generativa que solo necesita una foto de tipo carnet, una frase de audio, y al instante genera un deepfake hiperrealista con sincronización labial, gestos naturales, y movimientos de cabeza. Puedes verlo en este vídeo:
Si te fijas bien se nota que es un vídeo creado por una IA, pero resulta impresionante que se consiga un resultado tan realista a partir de una simple foto estática.
Hay que decir que todas las personas que se ven en las imágenes de la noticia tampoco existen, también han sido creadas por una IA, en concreto StyleGAN2 y DALL·E 3. Así que nada de lo que ves aquí es real.
VASA-1, una IA demasiado peligrosa para liberarla
Las principales innovaciones incluyen un modelo holístico de dinámica facial y generación de movimientos de la cabeza que funciona en un espacio latente facial, según explica el comunicado de Microsoft.
Detrás de VASA-1 está Microsoft Asia, un equipo formado por los expertos en IA Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, y Baining Guo.
Sus creadores aseguran que VASA-1 supera a cualquier otra IA especializada en la creación de avatares virtuales.
VASA-1 destaca porque genera vídeo de alta calidad en tiempo real con una dinámica facial y una cabeza realista, con una resolución de hasta 512 x 512 píxeles y 40 fps, y una latencia de menos de 170 ms, usando una tarjeta gráfica RTX 4090.
Hay que decir que VASA-1 no clona la voz, es decir, no es capaz de generar nuevo audio. Usa la grabación que le suministremos. Pero la sincronización labial es realmente espectacular.
Por supuesto, Microsoft no ha desarrollado esta inteligencia artificial generativa para crear deepfakes, sino para diseñar avatares realistas que emulan los comportamientos conversacionales humanos.
Puesto que el vídeo se genera en tiempo real, la idea es usarlos en servicios de atención al cliente, avatares de juegos y aplicaciones, etc.
En lugar de mostrar un frío chat de texto o una llamada de voz en la atención al cliente de Amazon o Mercadona, por poner un ejemplo, se puede utilizar un avatar como estos que gesticula y traduce a voz los textos que vaya tecleando un operador.
Aunque los avatares se pueden generar automáticamente, VASA-1 tiene una serie de parámetros de personalización para hacer que el personaje virtual sea más alegre, más serio, más o menos gesticulador, etc.
Con VASA-1, Microsoft no quiere crear deepfakes, pero es consciente de que es lo primero que hará la gente. Por eso, de momento, no van a lanzar ninguna demo, API, o versión comercial, hasta que "estemos seguros de que la tecnología se usa con responsabilidad". Algo que no va a ocurrir nunca...
Otros artículos interesantes:
- Me dijeron que ser filóloga solo me serviría para ser profesora: ahora trabajo para una empresa de IA en uno de los empleos con más futuro
- La cara B de ChatGPT: engaños, 'deepfakes', estafas y 'phishing'
- Nuevo Samsung Galaxy S24 Ultra: mejora la experiencia con la Inteligencia Artificial Galaxy AI
Descubre más sobre Juan Antonio Pascual Estapé, autor/a de este artículo.
Conoce cómo trabajamos en Computerhoy.