2. Privacidad y Seguridad3 - Otro

Ataques al Modelo

Los ataques al modelo aprovechan las vulnerabilidades intrínsecas de los Grandes Modelos de Lenguaje (LLM) con un doble propósito: obtener información sensible o forzar al sistema a generar respuestas inapropiadas o erróneas, comprometiendo así su integridad y fiabilidad.

Fuente: MIT AI Risk Repositorymit44

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit44

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementar el Entrenamiento Adversario (Adversarial Training) y la *Defensa Certificada* (Certified Robustness) para exponer al modelo a ejemplos manipulados, fortaleciendo su resiliencia intrínseca contra ataques de evasión y *jailbreaks*. 2. Aplicar la *Privacidad Diferencial* y la *Obfuscación de Salida* (Output Obfuscation) para limitar la granularidad de las respuestas del modelo, mitigando la capacidad de los atacantes para inferir datos sensibles de entrenamiento (ataques de inversión y de inferencia de membresía). 3. Establecer un *Monitoreo Continuo* de las interacciones del modelo y la *Limitación de Frecuencia* (Rate Limiting) de las consultas a la API para detectar y frustrar patrones que evidencien intentos de *extracción del modelo* o inyecciones de *prompts* maliciosos.