Logo Computerhoy.com

Logran que los chatbots de IA respondan a preguntas poco éticas con un método muy sencillo

Una IA haciendo un corte de mangas

Getty Images

  • Un equipo de investigadores de Anthropic ha detectado una vulnerabilidad en un gran modelo de lenguaje que permite que te conteste a cualquier cosa, incluso a preguntas poco éticas. 
  • ¿Cómo lo hace? Pues gracias al aumento de la "ventana de contexto" de la última generación de LLMs, un término que responde a lo que puede retener un chatbot a corto plazo. 

¿Es posible hacer que una IA responda a algo que no se debe responder?

Esto se han preguntado varios investigadores de Anthropic, que han descubierto una vulnerabilidad en un gran modelo de lenguaje (LLM) que permite que te conteste a cualquier cosa, como construir una bomba, por ejemplo, si lo preparas con antelación.

Se trata de una técnica a la que han denominado como "many-shot jailbraeaking" que consigue saltarse los códigos éticos con los que han sido entrenados estos chatbots.

¿Cómo lo hacen? Pues gracias al aumento de la "ventana de contexto" de la última generación de LLMs. Este término responde a lo que puede retener un chatbot a corto plazo. Antes eran solo unas oraciones, pero ahora son miles de palabras o incluso libros enteros.  

La investigación de Anthropic ha descubierto que estos modelos con grandes ventanas de contexto, pueden desempeñarse mejor en muchas tareas si hay muchos ejemplos de esa tara dentro de la solicitud y pueden mejorar con el tiempo. Es decir, si responde mal la primera pregunta, puede responder correctamente mucho más tarde a la misma petición.  

¿El problema de todo esto? Que son modelos que también mejoran en responder a preguntas inapropiadas. Por ejemplo, si le pides que te diga como fabricar una bomba, se negará en la primera pregunta, pero si le pidas que responda 99 preguntas más leves, es probable que en el siguiente intento te muestre cómo hacerlo. 

¿Esto por qué funciona? No hay una respuesta clara, pero lo lógico es pensar que existe algún mecanismo interno que le permite enfocarse en lo que el usuario desea. Ya sea con preguntas triviales o preguntas poco éticas. 

El equipo de Anthropic ya ha informado a la comunidad de IA para que este error pueda ser mitigado y espera que esto "fomente una cultura donde exploits como este sean compartidos abiertamente entre proveedores e investigadores de LLM", tal y como apuntan desde TechCrunch.  

En su investigación, descubrieron que para mitigar el problema valía con limitar la ventana de contexto, pero es algo que tiene un efecto secundario: reduce el rendimiento del modelo. Eso no se puede permitir, así que están trabajando en clasificar y contextualizar las consultas antes de que lleguen.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.