Logo Computerhoy.com

Grandes medios de comunicación alzan la voz contra la IA: prohíben el uso de su contenido para entrenar a ChatGPT

No inteligencia artificial

Getty

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

New York Times, CNN, Reuters, Washington Post, Bloomberg o The Guardian  son solo algunos de los medios de comunicación que han decidido bloquear la herramienta de rastreo de OpenAI, GPTBot. Crece la preocupación por el uso de contenido sin autorización.

Medios de comunicación de renombre, incluyendo el New York Times, CNN, Reuters, Washington Post, Bloomberg o The Guardian han bloqueado el acceso al famoso rastreador web de OpenAI llamado GPTBot. Este rastreador es utilizado por la compañía para mejorar sus herramientas de inteligencia artificial, como ChatGPT, al recopilar información de diversas fuentes en la web.

Para contextualizar, esta novedad está diseñada para potenciar en concreto los modelos como GPT-4 —que ya ha demostrado perder calidad en sus respuestas —y su esperado sucesor, GPT-5.  La empresa —detrás del famoso ChatGPT— explica que GPTBot se centrará en recopilar datos públicamente disponibles en la red global, pero con ciertos filtros en su lugar. 

En concreto, la herramienta evitará acceder a fuentes que requieran suscripciones de pago, aquellas que recopilen información personal identificable (PII) o contengan contenido que vaya en contra de las políticas de OpenAI, tal y como ha explicado en su blog.

Sin embargo, la iniciativa no ha quedado exenta de grandes críticas con respecto a la protección del contenido y la copia de datos de los sitios web de otras personas si no cumplen con los requisitos de filtración.

Esta novedad de OpenAI obliga a que sean los propietarios de las webs los que deben prohibir el uso de su contenido para el entrenamiento de la inteligencia artificial en lugar de ser la empresa la que los solicite.

Como resultado, grandes medios de comunicación de todo el mundo están dando un paso al frente, como hizo en un inicio The New York Times, para prohibir de forma explícita en sus Términos de servicio el uso de su contenido para entrenar herramientas basadas en inteligencia artificial.

Un editor de The Guardian y Observer, dijo: "La extracción de propiedad intelectual del sitio web de The Guardian con fines comerciales es, y siempre ha sido, contraria a nuestros términos de servicio. El equipo de licencias comerciales de The Guardian tiene muchas relaciones comerciales mutuamente beneficiosas con desarrolladores de todo el mundo y espera construir más relaciones de este tipo en el futuro".

Los grandes medios de comunicación dicen no a OpenAI y su interés por usar sus noticias para entrenar los modelos de IA

Los modelos de lenguaje avanzados, como ChatGPT, requieren grandes conjuntos de datos para su entrenamiento, lo que incluye información de la web, como noticias y artículos. Sin embargo, las empresas detrás de estos modelos a menudo no revelan si su conjunto de datos incluye material protegido por derechos de autor.

El bloqueo de GPTBot se implementa a través de los archivos robots.txt de los sitios web de los editores, lo que indica a los rastreadores de motores de búsqueda qué páginas pueden visitar y cuáles no.

Trabajo inteligencia artificial

La base de todo este revuelo es que los editores de noticias y otros creadores de contenido están cada vez más preocupados por la posibilidad de que su material sea utilizado sin su autorización en el entrenamiento de sistemas de IA.

"La propiedad intelectual es el alma de nuestro negocio, es imperativo que protejamos los derechos de autor de nuestro contenido", dice un portavoz de Reuters.

A principios de agosto, agencias de noticias como Agence France-Presse (AFP) y Getty Images firmaron una carta abierta pidiendo regulaciones más estrictas en relación con la inteligencia artificial. Esto incluye la transparencia en la composición de los conjuntos de datos usados para entrenar modelos de IA y la obtención de consentimiento para el uso de contenido protegido por derechos de autor.

En el Reino Unido, el Comité de Cultura, Medios de Comunicación y Deporte ha instado al gobierno a proteger los derechos de propiedad intelectual en el uso de la IA generativa, y los editores de libros británicos han solicitado la protección de estos derechos. Se espera que todas estas cuestiones y otras muchas sean discutidas en la próxima cumbre sobre seguridad de la IA en noviembre en el Reino Unido. 

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

Redactora de Tecnología, especializada en inteligencia artificial y ciberseguridad.

Conoce cómo trabajamos en Computerhoy.