2. Privacidad y Seguridad2 - Post-despliegue

Ataques basados en codificación de texto

La investigación sobre la seguridad de los modelos de IA identifica al menos dos metodologías sofisticadas para eludir sus salvaguardas. La primera implica el uso de codificaciones de texto, nuevas o preexistentes —como Base64— para orquestar ataques de "jailbreak". Esencialmente, una instrucción en lenguaje natural potencialmente dañina se "traduce" a estas codificaciones menos habituales, logrando pasar desapercibida. Este éxito se atribuye a que el ajuste fino de seguridad del modelo no incluyó una exposición exhaustiva a este tipo de datos codificados. De forma análoga, una segunda vulnerabilidad reside en la introducción de comandos mediante lenguajes de bajos recursos. Al estar menos representados en el corpus de entrenamiento, los modelos demuestran una menor solidez en la aplicación de sus mecanismos de defensa en estos idiomas.

Fuente: MIT AI Risk Repositorymit1017

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1017

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. DESINFECCIÓN DE ENTRADAS Y FILTRADO RIGUROSO Implementar mecanismos de pre-procesamiento en la capa de entrada para decodificar automáticamente formatos como Base64 y Leetspeak, permitiendo que los filtros de seguridad evalúen el contenido real. Se deben utilizar expresiones regulares y listas blancas para validar que el *input* se ajuste a patrones seguros y para sanear o bloquear cualquier carácter especial, secuencia de código o *token* que pueda alterar el comportamiento del sistema de IA o eludir las salvaguardas (Sources: 3, 5, 9). 2. REFORZAMIENTO Y AJUSTE FINO ADVERSARIO DEL MODELO Realizar un ajuste fino de seguridad exhaustivo que incluya la exposición del modelo a un corpus diverso de ejemplos adversarios. Este conjunto de datos debe contener *prompts* maliciosos traducidos a diversas codificaciones de texto y entradas generadas en lenguajes de bajos recursos, con el objetivo de mejorar la inmunidad del modelo. Se recomienda la aplicación de técnicas como el *LLM Salting* para interrumpir la alineación de *jailbreaks* precalculados con las representaciones internas dañinas (Sources: 1, 3, 14, 16). 3. MONITOREO CONTINUO Y DETECCIÓN DE ANOMALÍAS Establecer un sistema de registro detallado y supervisión en tiempo real de todas las interacciones del usuario. Emplear algoritmos de detección de anomalías para identificar patrones de entrada y salida que sugieran ataques de inyección, como el uso infrecuente de ciertas codificaciones o una desviación inesperada en el comportamiento del modelo, lo cual facilita la identificación oportuna de nuevos vectores de *jailbreak* (Sources: 3, 17).