Violencia
Riesgo de Generación de Contenido Nocivo Hace referencia a la capacidad de los Modelos de Lenguaje de Gran Escala (LLMs) para producir outputs que, intencionada o involuntariamente, contienen material explícitamente violento o que satisfacen peticiones de información detallada sobre la planificación o ejecución de actos violentos, violando así los protocolos fundamentales de seguridad y ética del sistema
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit450
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. **Prioridad Máxima: Filtrado y Curación del Conjunto de Datos (Fase de Pre-entrenamiento)** Aplicar algoritmos de clasificación y filtrado de alto rendimiento para depurar el *corpus* de entrenamiento del Modelo de Lenguaje de Gran Escala (LLM), eliminando de manera proactiva cualquier dato que contenga material explícito, violento o que promueva la auto-lesión, estableciendo una base de comportamiento ético desde la formación del modelo. 2. **Detección de Violencia y Bloqueo en Tiempo Real (Fase de Inferencia)** Implementar un módulo de moderación robusto y multimodal en la capa de inferencia que utilice clasificadores especializados (como un "Detector de Violencia") para analizar tanto las entradas del usuario como las salidas generadas por el LLM. Si se detecta contenido violento o amenazante, el sistema debe suprimir la respuesta y sustituirla por un mensaje de seguridad estándar. 3. **Evaluación Adversarial Continua (Red Teaming) y Refinamiento de Clasificadores** Realizar ejercicios periódicos de *red teaming* (pruebas de adversario) para identificar vulnerabilidades y *jailbreaks* que permitan eludir las mitigaciones de seguridad. Los hallazgos de estas evaluaciones deben utilizarse para entrenar y refinar los clasificadores de moderación, asegurando la adaptabilidad del sistema ante nuevas tácticas de elusión.