Jailbreaking (Evasión)
El 'jailbreaking' es un concepto fundamental en la seguridad de la IA y se refiere al proceso de eludir o eliminar por completo las restricciones y filtros de seguridad impuestos a un modelo de Inteligencia Artificial Generativa (GenAI). Esta maniobra dota al actor de la capacidad de generar cualquier contenido, independientemente de que este sea dañino, sesgado u ofensivo. Es crucial notar su diferencia con otras tácticas de manipulación, como las inyecciones de prompt o las entradas adversarias: mientras estas últimas suelen buscar una respuesta incorrecta o dañina a partir de una única consulta, el 'jailbreaking' apunta a desmantelar los mecanismos de seguridad del modelo en su integridad.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1134
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar procesos rigurosos de validación y desinfección de entradas (Input Filtering) para examinar y neutralizar indicaciones o comandos maliciosos incrustados en los *prompts* del usuario, asegurando que solo se procesen datos que cumplan con los requisitos de seguridad establecidos. 2. Establecer un conjunto de prohibiciones explícitas y barreras de seguridad (Guardrails) sólidas dentro del diseño del LLM para instruir al modelo a rechazar la generación de contenido dañino, sesgado o ilegal, contrarrestando la manipulación de su comportamiento ético. 3. Mantener un ciclo de defensa proactivo mediante la integración de algoritmos de filtrado de salida (Output Filtering) y la realización de pruebas de *red-teaming* y evaluaciones continuas, asegurando que las defensas del modelo evolucionen al ritmo de las nuevas técnicas de evasión de IA (*jailbreak*).