4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Uso peligroso

El riesgo reside en la posibilidad de que los modelos de inteligencia artificial generativa sean empleados con la intención explícita y exclusiva de causar perjuicio o daño a terceros

Fuente: MIT AI Risk Repositorymit1170

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1170

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

1. Implementación rigurosa de pruebas adversariales (Red Teaming) y evaluaciones de seguridad continuas para identificar y subsanar vulnerabilidades inherentes al modelo que pudieran ser explotadas para generar contenido perjudicial o facilitar actividades ilícitas. 2. Despliegue de sistemas de filtrado de contenido y barreras de seguridad (guardrails) a nivel de inferencia, aplicando validación de entradas para neutralizar instrucciones maliciosas (ej. jailbreaking) y filtrado de salidas para impedir la divulgación de información que facilite daños físicos o perjuicios. 3. Establecimiento de un marco de gobernanza post-despliegue que incluya la monitorización constante del uso del sistema en entornos reales para detectar patrones de abuso o desviación intencional, permitiendo la intervención rápida y la actualización iterativa de los mecanismos de mitigación.