Logo Computerhoy.com

Es muy fácil hacer 'jailbreak' a modelos de IA para obtener información peligrosa, como construir cócteles Molotov

Parece que no hace falta demasiado conocimiento o tiempo No hace para que un gran modelo de lenguaje como el que se esconde detrás de ChatGPT te dé la receta para hacer un cóctel Molotov o la creación de armas biológicas.

IA defectuosa

Getty Images

Foto del redactor Carolina González ValenzuelaFoto del redactor Carolina González Valenzuela

Redactora de Tecnología

Es bien sabido por todos que, pese a las grandes ventajas de la inteligencia artificial, también esconde un lado oscuro. Sin ir más lejos, y tal y como cuenta Business Insider, recientemente, se ha dado a conocer una técnica de jailbreak conocida como "Skeleton Key" que permite a los usuarios explotar modelos de lenguaje como Llama3 de Meta, Gemini Pro de Google y GPT-3.5 de OpenAI para obtener información peligrosa

Esta técnica, que ha sido expuesta por Mark Russinovich, jefe de tecnología de Microsoft Azure, deja sobre la mesa todas esas vulnerabilidades de las que se puede sacar provecho. 

Contextualizando mínimamente, el jailbreak, que se traduciría al español como "desbloqueo" o "liberación", es un proceso que permite desbloquear en este caso esos modelos de lenguaje, eliminando las restricciones impuestas por la empresa que está detrás. 

La técnica Skeleton Key funciona siguiendo una serie de pasos que obligan al modelo a precisamente ignorar sus barreras de seguridad internas, diseñadas para prevenir el acceso a información maliciosa o peligrosa. Tal y como explica Russinovich, puedes obtener respuestas sobre temas como la fabricación de explosivos, armas biológicas y técnicas de autolesión.

¿Cómo funciona la técnica Skeleton Key?

La técnica empieza desglosando una solicitud peligrosa en componentes más pequeños y aparentemente inofensivos. Esto ayuda a sortear las barreras de seguridad que normalmente bloquearían una solicitud directa diciéndote que no te pueden dar información sobre ese tema.

Luego, "Skeleton Key" utiliza manipulaciones de contexto para engañar al modelo y hacerle creer que está dando información sobre un tema normal. Esto se logra mediante una serie de indicaciones elaboradas que conducen poco a poco al modelo hacia la información peligrosa.

Técnica Skeleton Key

Microsoft

Finalmente, las respuestas del modelo se van encaminando para volver a la solicitud peligrosa original. De esta manera, los usuarios pueden obtener información peligrosa a pesar de las barreras de seguridad que ponen las empresas.

En concreto, Microsoft probó "Skeleton Key" en varios modelos de IA y descubrió que funcionaba en la mayoría de ellos, incluyendo Llama3 de Meta, Gemini Pro de Google, GPT-3.5 Turbo de OpenAI, GPT-4, Mistral Large, Anthropic Claude 3 Opus y Cohere Commander R Plus. El único modelo que mostró cierta resistencia fue GPT-4 de OpenAI, aunque no era completamente inmune a la técnica.

"Microsoft ha realizado actualizaciones de software para la tecnología LLM detrás de las ofertas de IA de Microsoft, incluidos nuestros asistentes de IA Copilot, para mitigar el impacto de esta derivación de la barrera de seguridad", comentan desde la compañía.

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial, Microsoft, Ciberseguridad