Home >
Tecnología

Los creadores de ChatGPT están muy preocupados por ocultar su más oscuro e ilegal secreto

Foto del redactor Carolina González Valenzuela

Redactora de Tecnología

25 ago. 2023 10:18h.

Una nueva investigación afirma que chatbots como ChatGPT, entre otros, se han entrenado utilizando libros protegidos por derechos de autor como la saga de Harry Potter de J.K. Rowling.

Una reciente investigación han revelado que ChatGPT y modelos de lenguaje grandes similares desarrollados por OpenAI han estado usando una enorme cantidad de texto de Internet, incluidos libros protegidos con derechos de autor.

Como era de esperar, estos modelos están siendo objeto de críticas y demandas por parte de autores y defensores de la propiedad intelectual, que cuestionan la ética y la legalidad en el desarrollo de la inteligencia artificial.

La respuesta de OpenAI y otras empresas tecnológicas líderes, como Google, Meta y Microsoft, ha sido en gran medida la de mantener un nivel de hermetismo total sobre los datos específicos utilizados en el entrenamiento de sus modelos de IA.

Sin embargo, un nuevo artículo de investigación publicado por un equipo de científicos de IA vinculados a ByteDance, la empresa matriz de TikTok, sugiere que ChatGPT ha dado un paso adicional para evitar dar respuestas calcadas de obras protegidas por derechos de autor y así conseguir salirse con la suya.

OpenAI habría usado libros con derechos de autor como la saga de Harry Potter para entrenar a ChatGPT

En un intento por ocultar con qué material ha sido entrenado el modelo y si este contenido está protegido por derechos de autor, la empresa detrás de ChatGPT ha adoptado una nueva estrategia basada en la interrupción en las respuestas del chatbot para eludir disimuladamente los derechos de autor.

A pesar de estos esfuerzos, ChatGPT todavía mostraba de forma literal material protegido por derechos de autor, según el documento, al igual que muchos otros modelos de IA.

El peligro de la desinformación y 'fake news': el nuevo riesgo de las IA como ChatGPT o Bard

Por ejemplo, al someter a varios modelos a indicaciones relacionadas con la serie de libros de Harry Potter de J.K. Rowling, se encontraron similitudes calcadas entre las respuestas generadas y el material protegido por derechos de autor. Incluso en los casos en que se observaron diferencias, estas eran mínimas y a menudo se reducían a una o dos palabras.

A pesar de los esfuerzos para corregir estas "fugas" de contenido protegido por derechos de autor, el artículo subraya la complejidad de erradicar completamente este problema en el contexto de modelos de lenguaje entrenados con datos masivos y diferentes, que, como antes se menciona, además son desconocidos dado su hermetismo.

Mientras tanto, la comunidad continúa buscando soluciones efectivas para abordar este grave problema ético y legal al utilizar material con derechos de autor en la creación de sistemas de inteligencia artificial.

Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Otros artículos interesantes:

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial, Programación, Software