Intención maliciosa
Una aplicación maliciosa recurrente de la Inteligencia Artificial generativa, cuyo propósito es infligir daño, humillación o sexualización forzada a un tercero, se manifiesta en la creación de *deepfakes* que representan contenido sexual explícito no consensuado (imágenes o videos)
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit485
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.3 > Fraude, estafas y manipulación dirigida
Estrategia de mitigacion
1. Implementar salvaguardas técnicas rigurosas y multi-nivel en el sistema de IA generativa para la detección y prohibición de cualquier *prompt* de usuario o configuración interna del modelo que pueda resultar en la generación de *deepfakes* de contenido sexual explícito no consensuado (NCSI). Esto implica la aplicación continua de pruebas adversarias y auditorías del modelo. 2. Establecer y aplicar rigurosamente una política de tolerancia cero contra el uso indebido del sistema para la generación de NCSI. Dicha política debe incluir mecanismos inequívocos para la investigación inmediata, la suspensión del servicio del infractor y la presentación de informes a las autoridades legales competentes ante la detección de una violación. 3. Implementar un monitoreo continuo y en tiempo casi real de las entradas y salidas del modelo para identificar patrones que indiquen intención maliciosa relacionada con el acoso y la generación de *deepfakes*, asegurando la trazabilidad y la rendición de cuentas a lo largo del ciclo de vida del desarrollo y despliegue de la IA.