Volver al repositorio MIT
2. Privacidad y Seguridad3 - Otro

Explotación de Generalización Limitada de Finetuning de Seguridad

El **ajuste de seguridad** (*safety tuning*) de los modelos de inteligencia artificial se aplica sobre una distribución de datos significativamente más estrecha que la utilizada en la fase de preentrenamiento inicial. Esta limitación inherente crea una vulnerabilidad persistente: el modelo sigue siendo susceptible a ataques que logran explotar las *lagunas* en la generalización de la formación de seguridad. Estos ataques de evasión a menudo se materializan mediante el uso de texto codificado (que el modelo no asocia con contenido peligroso) o a través de la instrucción en lenguajes con muy bajos recursos digitales, donde el entrenamiento de seguridad ha sido menos riguroso.

Fuente: MIT AI Risk Repositorymit1358

ENTIDAD

3 - Otro

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit1358

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. **Prioridad Alta: Fortalecimiento de la Robustez mediante la Expansión del Finetuning de Seguridad.** * *Estrategia:* Ampliar la distribución de datos utilizada en el *safety finetuning* para incluir un corpus sustancial de entradas que exploten la falta de generalización, tales como diversas formas de texto codificado (*encoded text*) y una representación más profunda de lenguajes de bajos recursos digitales. Este enfoque busca mitigar la vulnerabilidad en su origen, alineando la seguridad a un rango de entradas más cercano al del preentrenamiento. 2. **Prioridad Media: Implementación de Sistemas de Detección de Evasión en Tiempo de Inferencia.** * *Estrategia:* Desplegar un módulo de preprocesamiento de entrada que realice la normalización de *prompts* y utilice técnicas de detección de ataques adversarios (como clasificadores específicos de *jailbreak*) para identificar y neutralizar patrones de texto inusuales o codificados antes de que interactúen con el modelo principal. 3. **Prioridad Media/Baja: Programa Continuo de Auditoría y Red Teaming Específico.** * *Estrategia:* Establecer un proceso iterativo de *red teaming* focalizado en la identificación de *gaps* de seguridad, particularmente aquellos relacionados con la ofuscación y el uso de lenguajes marginales. Los hallazgos de estos ejercicios deben alimentar directamente los ciclos de reentrenamiento (*re-alignment*) para asegurar una mejora continua y reactiva de la generalización de las políticas de seguridad.