Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Jailbreaking (Evasión)

El 'jailbreaking' es un concepto fundamental en la seguridad de la IA y se refiere al proceso de eludir o eliminar por completo las restricciones y filtros de seguridad impuestos a un modelo de Inteligencia Artificial Generativa (GenAI). Esta maniobra dota al actor de la capacidad de generar cualquier contenido, independientemente de que este sea dañino, sesgado u ofensivo. Es crucial notar su diferencia con otras tácticas de manipulación, como las inyecciones de prompt o las entradas adversarias: mientras estas últimas suelen buscar una respuesta incorrecta o dañina a partir de una única consulta, el 'jailbreaking' apunta a desmantelar los mecanismos de seguridad del modelo en su integridad.

Fuente: MIT AI Risk Repositorymit1134

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1134

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar procesos rigurosos de validación y desinfección de entradas (Input Filtering) para examinar y neutralizar indicaciones o comandos maliciosos incrustados en los *prompts* del usuario, asegurando que solo se procesen datos que cumplan con los requisitos de seguridad establecidos. 2. Establecer un conjunto de prohibiciones explícitas y barreras de seguridad (Guardrails) sólidas dentro del diseño del LLM para instruir al modelo a rechazar la generación de contenido dañino, sesgado o ilegal, contrarrestando la manipulación de su comportamiento ético. 3. Mantener un ciclo de defensa proactivo mediante la integración de algoritmos de filtrado de salida (Output Filtering) y la realización de pruebas de *red-teaming* y evaluaciones continuas, asegurando que las defensas del modelo evolucionen al ritmo de las nuevas técnicas de evasión de IA (*jailbreak*).