1. Discriminación y Toxicidad2 - Post-despliegue

Delitos violentos

Esta categoría define el riesgo asociado a las respuestas del sistema que, explícita o implícitamente, tienen la capacidad de habilitar, fomentar o respaldar la ejecución de crímenes violentos.

Fuente: MIT AI Risk Repositorymit322

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit322

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación rigurosa de mecanismos de filtrado proactivo a nivel de *prompt* y *output* para bloquear categóricamente cualquier solicitud o generación de contenido que promueva, incite o instruya sobre la comisión de delitos violentos. Esto incluye el uso de filtros basados en reglas y técnicas de *prompt engineering* adversario para asegurar la contención en la fase inicial de interacción. 2. Despliegue de clasificadores especializados en tiempo real (*toxicity classifiers*) para la evaluación contextual del riesgo de toxicidad y violencia, garantizando una alta tasa de detección (*recall*). En caso de identificación de contenido de alta severidad, el sistema debe activar inmediatamente mecanismos de mitigación (ej. reescritura de respuesta, bloqueo total) y escalada a supervisión humana (*Human-in-the-Loop*). 3. Establecimiento de un marco de gobernanza de la IA que exija auditorías de seguridad periódicas, transparencia algorítmica y un ciclo de retroalimentación continuo (*feedback loop*) utilizando datos de intervención humana. Esto asegura la adaptación y el refinamiento constante de los modelos de seguridad para contrarrestar la evolución de las tácticas de elusión.