Logo Computerhoy.com

Una potencia jamás vista: este es el próximo gran paso en chatbots como ChatGPT

Aunque sea casi a chino, hay una parte de la inteligencia artificial que se está quedando atrás y los conocidos como modelos TTT vienen a poner fin al problema.

Inteligencia Artificial

Generado con IA

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Los transformers, aunque desconocidos por muchos, han sido los grandes reyes escondidos detrás de la IA generativa durante años, pero este reinado podría estar llegando a su fin. Se encuentran detrás sel generador de video Sora de OpenAI o modelos de texto como Claude de Anthropic, Gemini de Google y GPT-4o.

Contextualizando, los transformers son modelos de aprendizaje automático diseñados específicamente para tareas de procesamiento del lenguaje natural —NLP, por sus siglas en inglés—. Esta arquitectura se basa en mecanismos de atención que permiten al modelo capturar relaciones y dependencias entre las palabras en un texto.

Para entender mejor este concepto, que quizá es algo complicado, este ejemplo ayudará: imagina que estás leyendo un libro y te encuentras con una palabra que no conoces. Probablemente trates de comprender el significado de esa palabra basándote en las palabras que la rodean.

Este sistema hace lo mismo, en lugar de leer el texto que le proporcionas de forma lineal, el transformer presta atención a todas las palabras en él y considera cómo se relacionan entre sí. El gran problema ahora es que están empezando a encontrar obstáculos técnicos, especialmente en lo que respecta a la potencia.

A grandes problemas grandes soluciones: aquí llegan los TTT

Parece que el problema es que los transformers no son muy buenos ya a la hora de procesar grandes cantidades de datos. Esto al final lo que genera es un aumento de energía que parece que no termina de ser sostenible dada la demanda de inteligencia artificial que existe actualmente. 

Con la idea de encontrar una solución, investigadores de Stanford, UC San Diego, UC Berkeley y Meta han propuesto una nueva arquitectura llamada "entrenamiento en tiempo de prueba" (TTT). Los modelos TTT no solo pueden procesar muchos más datos que los transformers, sino que también pueden hacerlo con un consumo de energía mucho menor.

¿Cómo lo logran? La clave está en reemplazar el "estado oculto" de los transformers, un componente clave que almacena información sobre lo que el modelo ha procesado hasta ahora. En estos, este estado oculto crece a medida que se procesan más datos, lo que aumenta la carga computacional.

AI Washing inteligencia artificial

En los modelos TTT, el estado oculto se sustituye por un modelo de aprendizaje automático interno. Este modelo interno no crece con los datos, sino que codifica la información en variables llamadas "ponderaciones". Esto permite a los modelos TTT procesar grandes cantidades de datos de manera eficiente, sin importar el tamaño del conjunto de datos.

¿Qué se podría conseguir con este cambio? En pocas palabras, crear chatbots u otras herramientas de IA generativa aún más potentes, capaces de procesar datos como imágenes, audio y vídeo a escalas que antes eran imposibles.

Sin embargo, aún es pronto para decir si estos nuevos modelos reemplazarán por completo a los transformers. Todavía una tecnología bastante nueva y al final y como en todo, se necesita más investigación para comparar su rendimiento con lo que ya existe.

Conoce cómo trabajamos en ComputerHoy.

Etiquetas: Inteligencia artificial, Datos, Software