Home >
Tecnología

OpenAI la lía con su nueva herramienta y accederá 'como Pedro por su casa' al contenido de Internet

Foto del redactor Carolina González Valenzuela

Redactora de Tecnología

8 ago. 2023 14:00h.

OpenAI acaba de lanzar GPTBot, un sistema que accederá a casi la totalidad de contenido de Internet para entrenar sus futuros modelos de inteligencia artificial. Entrará a no ser que tú de forma manual lo prohíbas, lo que provoca grandes dudas de seguridad y privacidad.

Con nombre GPTBot, este nuevo sistema que OpenAI estrena se centra en rastrear Internet para entrenar y mejorar las capacidades de sus modelos de inteligencia artificial. "El uso de GPTBot tiene el potencial de mejorar los modelos de IA existentes en aspectos como la precisión y la seguridad", según una publicación de blog de OpenAI.

Esta novedad está diseñada para potenciar en concreto los modelos como GPT-4 —que ya ha demostrado perder calidad en sus respuestas —y su esperado sucesor, GPT-5. La empresa —detrás del famoso ChatGPT— explica que GPTBot se centrará en recopilar datos públicamente disponibles en la red global, pero con ciertos filtros en su lugar.

En concreto, la herramienta evitará acceder a fuentes que requieran suscripciones de pago, aquellas que recopilen información personal identificable (PII) o contengan contenido que vaya en contra de las políticas de OpenAI, tal y como ha explicado en su blog.

Esto, en pocas palabras, marca un paso realmente importante en el desarrollo de modelos de IA más avanzados, permitiéndoles acceder a datos en tiempo real y mejorar en tiempo real. Sin embargo, la iniciativa no ha quedado exenta de grandes críticas con respecto a la protección del contenido y la copia de datos de los sitios web de otras personas si no cumplen con los requisitos de filtración.

Si no quieres que OpenAI acceda a tus datos, deberás de prohibirlo tú manualmente

La compañía, por el momento, se escuda en que los propietarios de las webs podrán identificar a GPTBot a través de su token de agente de usuario y su cadena de agente de usuario completa:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Afirman que "para impedir que GPTBot acceda a su sitio, puede agregar el GPTBot al archivo robots.txt de su sitio":

User-agent: GPTBot
Disallow: /

También es posible controlar el acceso de GPTBot a ciertas partes del sitio web mediante códigos específicos en el archivo robot.txt:

User-agent: GPTBot
Allow: /directorio-1/
Disallow: /directorio-2/

Contraseñas e inteligencia artificial: un arma de doble cara que pone en peligro tu seguridad

Como era de esperar, esto ha hecho saltar todo tipo de alarmas entre la comunidad tecnológica. Esta novedad de OpenAI obliga a que sean los propietarios de las webs los que deben prohibir el uso de su contenido para el entrenamiento de la inteligencia artificial en lugar de ser la empresa la que los solicite y esto ha provocado que la chispa salte.

Una de las principales quejas radica en el hecho de que GPTBot tenga la capacidad de acceder a una gran parte de Internet para recopilar datos. Aunque la intención detrás de esta función es mejorar los modelos de IA y enriquecer su entrenamiento, esto plantea dudas de privacidad y seguridad.

Existe el riesgo de que GPTBot recopile información que, pese a no ser confidencial, es privada y sensible y todo sin el consentimiento del o los creadores.

Teniendo en cuenta que no accederá a información bajo muro de pago o texto que incluya datos privados, GPTBot sí que podrá acceder a una variedad de contenido, incluyendo imágenes, vídeos, música y otros medios, algunos de los cuales pueden estar protegidos por derechos de autor.

¿Qué es un 'prompt' y cómo funciona en herramientas como ChatGPT?

"El consentimiento no se otorga hasta que se indique explícitamente en forma afirmativa", dice uno de los usuarios de la comunidad de HackerNews. "Intenta aplicar el concepto "suponga que sí inicialmente, hasta que le digan lo contrario" para entrar en la casa de alguien o tocar el cuerpo de alguien y déjeme saber cómo funciona para ti", añade.

A todo esto hay que sumar que, como ya es costumbre, OpenAI en ningún momento ha citado los sitios webs o el contenido que ya ha sido usado para entrenar sus modelos.

Grandes dudas que crecen debido a errores de privacidad en el pasado

Esta preocupación se intensifica debido a los errores pasados en la recopilación de datos por parte de OpenAI, como el caso en el que se alegó que recopilaron datos personales para entrenar al modelo ChatGPT sin el consentimiento adecuado.

La adopción de estas funciones de exclusión voluntaria para los usuarios y la capacidad de los propietarios de sitios web de bloquear el acceso de GPTBot serían intentos para abordar algunas de estas preocupaciones. Sin embargo, parece que no convence.

La implementación de GPTBot llega apenas tres semanas después de que OpenAI presentara una solicitud de marca registrada para GPT-5, el próximo modelo en su línea de desarrollo. Esta solicitud cubre una variedad de aplicaciones, incluido el software basado en IA para voz y texto humano, conversión de audio a texto y reconocimiento de voz.

Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Otros artículos interesantes:

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial, Programación, Software, Ciberseguridad