Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Delitos no violentos

Esta categoría de riesgo se refiere a cualquier respuesta generada por el modelo que tenga el potencial de facilitar, alentar o validar actos ilícitos clasificados como delitos no violentos.

Fuente: MIT AI Risk Repositorymit323

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit323

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Máxima Prioridad: Evitación Implementación de políticas de contenido rigurosas y filtros de lenguaje durante las etapas de entrenamiento y validación del modelo (pre-despliegue) para asegurar la prevención proactiva de la generación de respuestas que faciliten, alienten o validen explícitamente la comisión de delitos no violentos. 2. Prioridad Secundaria: Reducción y Monitoreo Establecimiento de mecanismos de monitoreo y revisión continua de las interacciones generadas (post-despliegue) para la detección y limitación inmediata de contenido emergente que pueda ser interpretado como habilitador de conductas delictivas no violentas, alineado con el subdominio de "Exposición a contenido tóxico". 3. Prioridad Terciaria: Gobernanza y Re-alineación Integración de este riesgo dentro del marco de gobernanza de IA, asegurando la asignación de responsabilidades de mitigación (ej., *AI Risk Manager*) y la documentación de incidentes para el reajuste iterativo de los parámetros de seguridad y éticos del sistema.