Delitos violentos
Esta categoría define el riesgo asociado a las respuestas del sistema que, explícita o implícitamente, tienen la capacidad de habilitar, fomentar o respaldar la ejecución de crímenes violentos.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit322
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación rigurosa de mecanismos de filtrado proactivo a nivel de *prompt* y *output* para bloquear categóricamente cualquier solicitud o generación de contenido que promueva, incite o instruya sobre la comisión de delitos violentos. Esto incluye el uso de filtros basados en reglas y técnicas de *prompt engineering* adversario para asegurar la contención en la fase inicial de interacción. 2. Despliegue de clasificadores especializados en tiempo real (*toxicity classifiers*) para la evaluación contextual del riesgo de toxicidad y violencia, garantizando una alta tasa de detección (*recall*). En caso de identificación de contenido de alta severidad, el sistema debe activar inmediatamente mecanismos de mitigación (ej. reescritura de respuesta, bloqueo total) y escalada a supervisión humana (*Human-in-the-Loop*). 3. Establecimiento de un marco de gobernanza de la IA que exija auditorías de seguridad periódicas, transparencia algorítmica y un ciclo de retroalimentación continuo (*feedback loop*) utilizando datos de intervención humana. Esto asegura la adaptación y el refinamiento constante de los modelos de seguridad para contrarrestar la evolución de las tácticas de elusión.