Ataques al Modelo
Los ataques al modelo aprovechan las vulnerabilidades intrínsecas de los Grandes Modelos de Lenguaje (LLM) con un doble propósito: obtener información sensible o forzar al sistema a generar respuestas inapropiadas o erróneas, comprometiendo así su integridad y fiabilidad.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit44
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar el Entrenamiento Adversario (Adversarial Training) y la *Defensa Certificada* (Certified Robustness) para exponer al modelo a ejemplos manipulados, fortaleciendo su resiliencia intrínseca contra ataques de evasión y *jailbreaks*. 2. Aplicar la *Privacidad Diferencial* y la *Obfuscación de Salida* (Output Obfuscation) para limitar la granularidad de las respuestas del modelo, mitigando la capacidad de los atacantes para inferir datos sensibles de entrenamiento (ataques de inversión y de inferencia de membresía). 3. Establecer un *Monitoreo Continuo* de las interacciones del modelo y la *Limitación de Frecuencia* (Rate Limiting) de las consultas a la API para detectar y frustrar patrones que evidencien intentos de *extracción del modelo* o inyecciones de *prompts* maliciosos.