Así funciona, paso a paso, la IA Stable Diffusion al crear imágenes desde texto

Antes, si querías crear una imagen digital, tenías que saber dibujar y usar herramientas como Photoshop. Sin embargo, a partir de 2022 todo ha cambiado, y todo gracias a la IA y herramientas como Stable Diffusion. Veamos cómo funciona.

Así funciona, paso a paso, la IA Stable Diffusion al crear de imágenes desde texto

Carolina González Valenzuela

6 oct. 2022 13:00h.

La generación de imágenes por parte de la IA es la capacidad más reciente de la IA que está dejando a la gente boquiabierta. La capacidad de crear imágenes impactantes a partir de descripciones de texto tiene una cualidad mágica y apunta claramente a un cambio en la forma en que los humanos crean arte.

Stable Diffusion, muy concretamente, es un modelo de aprendizaje automático de código abierto que puede generar imágenes a partir de un texto, modificar imágenes basadas en un texto o rellenar detalles en imágenes de baja resolución o con pocos detalles.

Se ha entrenado con miles de millones de imágenes y puede producir resultados comparables a los que se obtienen con DALL-E 2 y MidJourney. Ha sido desarrollado por Stability AI y fue lanzado públicamente por primera vez el 22 de agosto de 2022.

Stable Diffusion no tiene una interfaz de usuario (todavía) como algunos generadores de imágenes de IA, pero tiene una licencia muy permisiva, y, lo mejor de todo, es completamente gratis para usar en tu propio PC o Mac. El lanzamiento de Stable Diffusion es un claro hito en este desarrollo porque puso a disposición de las masas un modelo de creación de imágenes de alto rendimiento.

Desgranando el funcionamiento de Stable Diffusion (imagen a partir de texto)

Gracias a Jay Alammar, un experto en aprendizaje automático (machine learning), vamos a adentrarnos en el funcionamiento de esta curiosa herramienta. Destacar que nos centraremos en cómo esta herramienta genera una imagen introduciendo un texto, que puede ser desde una frase hasta una simple palabra (también se puede introducir otras imágenes).

Primero de todo, miremos bajo el capó y observaremos que esta herramienta está formada por varios componentes y modelos (azul, rosa y amarillo).

Codificador ClipText para la codificación de texto.
Creador de información de imagen para procesar paso a paso la información.
Decodificador que pinta la imagen final.

Por un lado, y si hablamos de generación imagen basada en texto, encontramos un componente que se encarga de traducir ese texto a números, un codificador de texto denominado CLIPtext (Paso 1).

En pocas palabras, este modelo coge el texto de entrada y produce una lista de números (un vector) que representa cada palabra del texto (lo codifica y genera lo que se conoce como ruido).

Tras esto, la información se pasa por el generador de imágenes en dos etapas (denominada como Image Generator en la imagen que os mostramos, pasos 2 y 3):

La palabra “difusión” describe perfectamente lo que sucede en este componente (rosa). Es el procesamiento paso a paso de la información, lo que conduce a la generación final de una imagen de alta calidad.

En este proceso entra en juego la red neuronal UNet y un algoritmo de programación que se encargan de agrupar (eliminar el ruido) lo traducido previamente en una matriz de información procesada (Paso 2). Esto se va produciendo en diferentes pasos, en los que se va añadiendo cada vez más información y eliminando más ruido.

Por otro lado, el decodificador de imágenes crea la imagen a partir de la información (matriz) que obtuvo del Image Information Creator. Se ejecuta solo una vez al final del proceso para producir la imagen final. Básicamente se encarga de pintar la imagen (rojo, azul y verde) y le otorga unos parámetros dimensionales (ancho y alto). Hace que de todo el ruido emerja una imagen (Paso 3).

Os dejamos un ejemplo realizado por nosotros, cogiendo la misma frase, para qué veáis como realmente las creaciones no son fijas y varían de un usuario a otro, aparte de que las opciones que te presenta son multitudinarias para que elijas la que más te gusta.

¿Sigue siendo arte si la imagen es generada mediante el uso de la inteligencia artificial?

El gran dilema que actualmente vivimos, como suele ocurrir siempre que surge alguna nueva herramienta digital que nos facilita la vida, es si estamos perdiendo nuestra esencia como ser humano creativo. Y es que sí, parece que hay poco mérito en aquello que es generado por una máquina, pero alguien ha tenido que estar detrás ideándola y dándole forma (redes neuronales).

Algunos artistas, como Ryan Murdoch, han defendido que se reconozca como arte la creación de imágenes basadas en el estímulo. Señala como ejemplo a la experimentada artista de la IA Helena Sarin y, desde luego, no sería un mal primer paso.

Así funciona DALL-E 2, la IA que dibuja lo que le digas por escrito

Recientemente, la Oficina de Derechos de Autor de EE.UU. ha otorgado el primer copyright conocido por una imagen generada por IA a una artista neoyorkina llamada Kris Kashtanova.

Desde luego, a favor o en contra, la Inteligencia Artificial en general y sobre todo, estas nuevas herramientas, están planteando una serie de dilemas éticos y legales bastante preocupantes, pero debe quedar claro el arte que reside en ambas creaciones.

Conoce cómo trabajamos en ComputerHoy.

Etiquetas: Inteligencia artificial

Desgranando el funcionamiento de Stable Diffusion (imagen a partir de texto)

¿Sigue siendo arte si la imagen es generada mediante el uso de la inteligencia artificial?

Así funciona DALL-E 2, la IA que dibuja lo que le digas por escrito

Otros artículos interesantes: