Uso peligroso
El riesgo reside en la posibilidad de que los modelos de inteligencia artificial generativa sean empleados con la intención explícita y exclusiva de causar perjuicio o daño a terceros
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1170
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.0 > Uso malicioso
Estrategia de mitigacion
1. Implementación rigurosa de pruebas adversariales (Red Teaming) y evaluaciones de seguridad continuas para identificar y subsanar vulnerabilidades inherentes al modelo que pudieran ser explotadas para generar contenido perjudicial o facilitar actividades ilícitas. 2. Despliegue de sistemas de filtrado de contenido y barreras de seguridad (guardrails) a nivel de inferencia, aplicando validación de entradas para neutralizar instrucciones maliciosas (ej. jailbreaking) y filtrado de salidas para impedir la divulgación de información que facilite daños físicos o perjuicios. 3. Establecimiento de un marco de gobernanza post-despliegue que incluya la monitorización constante del uso del sistema en entornos reales para detectar patrones de abuso o desviación intencional, permitiendo la intervención rápida y la actualización iterativa de los mecanismos de mitigación.