2. Privacidad y Seguridad2 - Post-despliegue

Jailbreaks de un paso

Jailbreaks de un solo paso. Los 'jailbreaks' de un solo paso representan un conjunto de métodos sencillos y eficientes para eludir las restricciones de seguridad impuestas a los grandes modelos de lenguaje (LLM), generalmente a través de modificaciones directas en el 'prompt' inicial. Una estrategia clave es la *suplantación de roles* (role-playing), donde se pide al modelo que imite una personalidad específica para liberarlo de sus directrices éticas. Este enfoque es altamente prevalente dada su simplicidad. Otro método es la *integración*, que consiste en inyectar información de apariencia inofensiva dentro del 'prompt' con el fin de ocultar el verdadero objetivo del ataque. Un ejemplo es la integración de prefijos benignos para reducir la probabilidad de que la solicitud sea rechazada por los filtros de distribución pre-entrenada del modelo. El atacante también puede codificar instrucciones de manera indirecta, tratando el LLM como una suerte de programa. Esto se consigue mediante la *integración de código* o la *división de la carga útil* (payload splitting), fraccionando la instrucción maliciosa. Finalmente, la *ofuscación* busca enmascarar los términos sensibles que disparan los filtros. Esto incluye añadir erratas, usar sinónimos o aplicar técnicas de cifrado conocidas, como el cifrado César, el 'leetspeak' (reemplazo de letras por símbolos visualmente similares) y el código Morse. A nivel micro, se puede recurrir al 'Pig Latin' o al *contrabando de tokens* ('token smuggling') para dividir palabras sensibles en subcadenas.

Fuente: MIT AI Risk Repositorymit54

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit54

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Despliegue de *Guardrails* de Filtrado de Entrada/Salida Avanzados Despliegue de sistemas de *guardrails* avanzados basados en clasificadores de entrada/salida (e.g., *Constitutional Classifiers* o modelos especializados como *GenTel-Shield*). Estos sistemas deben ser entrenados con datos adversarios sintéticos para detectar y filtrar preventivamente *jailbreaks* de un paso, incluyendo aquellos que emplean ofuscación (cifrado César, *leetspeak*) o suplantación de roles. 2. Aumento de la Robustez Comportamental del Modelo (*LLM Salting*) Implementación de procedimientos de *fine-tuning* ligeros, como la técnica de '*LLM Salting*', para aumentar la robustez intrínseca del modelo. Esto implica modificar el subespacio de activación responsable del comportamiento de rechazo (*refusal behavior*) con el fin de romper la transferibilidad de los *prompts* de *jailbreak* conocidos. 3. Segregación Estructural de Componentes del Prompt Aplicación de una parametrización y segregación rigurosa de los *prompts*, delimitando claramente las instrucciones de sistema consideradas de confianza de las entradas de usuario no fiables. Esta separación estructural es crucial para mitigar ataques que dependen de la integración de información benigna para ocultar objetivos maliciosos (*Integración* y *Prompt Injection*).