Logo Computerhoy.com

Las capacidades de ChatGPT en duda: el chatbot se está volviendo cada vez más tonto

Las capacidades de ChatGPT en duda: el chatbot se está volviendo cada vez más tonto
Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

Nuevos estudios se suman al amplio debate de entender qué se esconde detrás de chatbots como ChatGPT y por qué los modelos que lo potencian cada vez se están volviendo más deficientes.

Un nuevo estudio realizado por investigadores de Stanford y UC Berkeley plantea preguntas cruciales sobre la confiabilidad de los modelos de lenguaje y la necesidad de una mayor transparencia en su desarrollo y funcionamiento. 

La detección de desviaciones en el comportamiento de GPT-3.5 y GPT-4 —usados para dar vida a ChatGPT— sugiere que estos modelos no son fijos en sus capacidades y pueden cambiar con el tiempo, lo que resalta la importancia de mantener un control de forma continua de cara a poder evaluar su rendimiento si se siguen implementando en aplicaciones.

"GPT-4 (marzo de 2023) fue muy bueno para identificar números primos (precisión del 97,6%), pero GPT-4 (junio de 2023) fue muy deficiente en estas mismas preguntas (precisión del 2,4%)", explican.

Las preocupaciones planteadas por los usuarios sobre la disminución del rendimiento de GPT-4 y la aparente falta de explicación de OpenAI ha provocado un aluvión de críticas y debates sobre los enfoques y estrategias que se utilizan en la creación de modelos de lenguaje

Una pregunta que no tiene respuesta debido al hermetismo de ChatGPT y sus modelos

La posibilidad de que la calidad del modelo se vuelva "más tonto" con el uso intensivo de millones de usuarios plantea la necesidad de una evaluación constante y rigurosa, así como la implementación de prácticas de desarrollo que aseguren que los resultados siempre van a ser correctos y de confianza.

Para contextualizar, en un artículo publicado anteriormente, los investigadores Lingjiao Chen, Matei Zaharia y James Zou descubrieron que, en comparación con los lanzamientos del modelo de lenguaje en marzo y junio, el rendimiento ha bajado considerablemente. El ejemplo más llamativo es preguntar si 17.077 es un número primo.

Si bien la respuesta es sí, ChatGPT experimentó una disminución masiva del 97,6% en la precisión. "Descubrimos que el rendimiento y el comportamiento de GPT-3.5 y GPT-4 varían significativamente entre estas dos versiones y que su rendimiento en algunas tareas ha empeorado sustancialmente con el tiempo", explican.

La inteligencia artificial revoluciona el sector del automóvil: "Es nuestra aliada para pasar de una tarea tediosa a una solución"

Los hallazgos en este nuevo estudio resaltan de nuevo que las versiones de GPT-4 y GPT-3.5 presentaron problemas con los resultados, lo que plantea dudas sobre la confiabilidad de la generación de código en aplicaciones. 

También se subraya la importancia de abordar la privacidad y la ética en el desarrollo de sistemas de IA. Al evaluar el comportamiento de los modelos en la respuesta a preguntas sensibles, se observó que tanto GPT-4 como GPT-3.5 se volvieron más conservadores. 

Si bien esto podría interpretarse como una mejora en la seguridad, plantea grandes dudas sobre la justificación y explicación de la negativa a responder ciertas preguntas. Nadie sabe qué se está llevando a cabo por detrás para estos cambios.

ChatGPT

Queda claro que la falta de transparencia en el proceso de entrenamiento y actualización de modelos de lenguaje como GPT-3.5 y GPT-4 es el gran problema de cara a la comprensión de los cambios en su desempeño y comportamiento a lo largo del tiempo. 

"Es muy difícil saber por qué sucede esto. Definitivamente podría ser que RLHF y el ajuste fino (fine tuning) estén chocando contra una pared, pero también podrían ser errores. Definitivamente parece complicado administrar la calidad", explica en un tuit Matei Zaharia, investigador.

¿Cuáles son los límites de la inteligencia artificial? Lo que aún no puede hacer

La falta de claridad en los datos utilizados y los métodos empleados para mejorar estos modelos hace que sea difícil para los usuarios y desarrolladores anticipar o explicar los cambios en su comportamiento.

"En general, nuestros hallazgos muestran que el comportamiento del mismo servicio LLM puede cambiar sustancialmente en un período de tiempo relativamente corto, lo que destaca la necesidad de un monitoreo continuo de la calidad LLM", finalizan.

Como ya se explicó en otro artículo y teniendo todo esto en cuenta, Kevin Welinder, Vicepresidente de producto de OpenAI, ha salido en defensa de ChatGPT comentando lo siguiente: "No, no hemos hecho que GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior. Hipótesis actual: cuando lo usas más intensamente, comienza a notar problemas que no veía antes".

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Conoce cómo trabajamos en Computerhoy.