Logo Computerhoy.com

OpenAI lanza GPT-4o, el primer modelo de lenguaje que trabaja en tiempo real, sin latencia

El nuevo GPT-4o es hasta 15 veces más rápido que GPT-4, ofreciendo respuestas sin latencia. Y está disponible también en versión gratuita.

OpenAI lanza GPT-4o, el primer modelo de lenguaje que trabaja en tiempo real, sin latencia

Getty Images / Computer Hoy

Foto del redactor Juan Antonio Pascual Estapé

Redactor Colaborador

OpenAI dijo hace unos días que pronto GPT-4 será visto como una "IA tonta", y aquí tenemos la prueba. Acaba de presentar GPT-4o, un nuevo modelo de lenguaje que reduce la latencia a solo 320 milisegundos de media

GPT-4o ("o" de "omni", que significa "todo") consigue que la nueva IA generativa de OpenAI responda tan rápido como un ser humano... haciendo tareas al instante que a nosotros nos llevarían semanas.

La nueva GPT-4o es, además, un modelo de lenguaje multimodal: acepta como entrada cualquier combinación de texto, audio e imagen, y genera cualquier combinación de texto, audio e imagen. 

Lo nuevo de GPT-4o

GPT-4o reduce el tiempo de respuesta, la temida latencia, a un mínimo de 232 milisegundos, con una media de 320 milisegundos. Iguala así el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés.

GPT-4o  mejora especialmente a GPT-4 en visión y comprensión de audio, gracias a un nuevo enfoque en donde se usa una única red neural para trabajar con audio, texto y voz a la vez.

En GPT 4 y modelos anteriores, OpenAI emplea hasta tres modelos de lenguaje diferentes para una misma tarea. Un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma el texto y lo convierte en texto, y un tercer modelo simple vuelve a convertir ese texto en audio.

Estos son los usos más extraños que los usuarios dan a ChatGPT (pero son ciertos)

Este proceso aumenta significativamente la latencia, y hace que el resultado sea de baja calidad, porque los dos modelos intermedios no son tan avanzados como GPT.

En cambio, GPT-4o usa una única red neural para trabajar con voz, texto e imagen. Mientras que GPT-3-5 genera una latencia de 2,8 segundos cuando se usa voz, y GPT-4, al ser más complejo, la aumenta a 5,4 segundos, GPT-4o la reduce a solo 320 milisegundos de media.

Esta mejora en la conversión de texto a voz es especialmente importante para la traducción de conversaciones en tiempo real, que ahora es mucho más fluida.

GPT-4o incluye también nuevas funciones, como la capacidad de describirte lo que ve en una foto. Por ejemplo, si le enseñas una foto de un iPhone 15, te explica sus especificaciones.

GPT-4o ya está disponible con las mejoras de texto e imagen, también para los usuarios gratuitos. Las mejoras de voz llegarán dentro de unas semanas.

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial