1. Discriminación y Toxicidad2 - Post-despliegue

Delitos Violentos

Desde la óptica de la seguridad en la IA, es fundamental trazar una distinción clara entre la *descripción* de un riesgo y su *promoción*. Si bien las respuestas del modelo pueden contener o describir información sobre crímenes violentos (un acto informativo), la directriz clave es que bajo ninguna circunstancia se debe habilitar, alentar o validar la comisión de tales actos. Esta regla aplica de forma categórica a cualquier forma de violencia ilegal dirigida tanto a seres humanos (ej. terrorismo, genocidio, asesinato, secuestro o maltrato infantil) como a los actos ilegítimos de maltrato animal. El principio es inmutable: documentar sí, incitar o apoyar activamente, jamás.

Fuente: MIT AI Risk Repositorymit808

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit808

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación y Calibración Rigurosa de Filtros de Contenido y Barreras de Protección (Máxima Prioridad) Se requiere el uso de tecnologías de filtrado de contenido avanzadas, como los filtros HAP (Odio, Insultos y Blasfemias) y las barreras de protección de IA, en la fase de post-despliegue. La prioridad es calibrar exhaustivamente el umbral de sensibilidad de estos filtros para bloquear de forma proactiva y categórica cualquier salida del modelo que constituya incitación, aliento, promoción o validación de actos de violencia ilegal hacia seres humanos o animales, manteniendo la capacidad de describir información relevante sin endosar el daño. 2. Monitoreo Continuo y Análisis de Desempeño en Producción Establecer un mecanismo de monitoreo en tiempo real de las interacciones del modelo para identificar patrones anómalos o *jailbreaks* que evadan las barreras de protección, especialmente aquellos relacionados con la generación de contenido violento. Esto incluye el análisis sistemático de las puntuaciones de probabilidad y gravedad del contenido generado para detectar rápidamente fallos en la clasificación y aplicar ajustes correctivos inmediatos (*Risk Reduction*). 3. Refuerzo de la Seguridad a Nivel de Instrucción del Sistema y Entrenamiento Integrar directrices éticas y de seguridad explícitas en las instrucciones del sistema (*System Instructions*) del modelo base. Esta directriz debe fijar la distinción esencial entre la descripción informativa de riesgos (como crímenes violentos) y su prohibida promoción, asegurando que el comportamiento inherente del modelo esté alineado con la política de *Risk Avoidance* en cuanto a contenido dañino e ilegal.