4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Intención maliciosa

Una aplicación maliciosa recurrente de la Inteligencia Artificial generativa, cuyo propósito es infligir daño, humillación o sexualización forzada a un tercero, se manifiesta en la creación de *deepfakes* que representan contenido sexual explícito no consensuado (imágenes o videos)

Fuente: MIT AI Risk Repositorymit485

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit485

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Implementar salvaguardas técnicas rigurosas y multi-nivel en el sistema de IA generativa para la detección y prohibición de cualquier *prompt* de usuario o configuración interna del modelo que pueda resultar en la generación de *deepfakes* de contenido sexual explícito no consensuado (NCSI). Esto implica la aplicación continua de pruebas adversarias y auditorías del modelo. 2. Establecer y aplicar rigurosamente una política de tolerancia cero contra el uso indebido del sistema para la generación de NCSI. Dicha política debe incluir mecanismos inequívocos para la investigación inmediata, la suspensión del servicio del infractor y la presentación de informes a las autoridades legales competentes ante la detección de una violación. 3. Implementar un monitoreo continuo y en tiempo casi real de las entradas y salidas del modelo para identificar patrones que indiquen intención maliciosa relacionada con el acoso y la generación de *deepfakes*, asegurando la trazabilidad y la rendición de cuentas a lo largo del ciclo de vida del desarrollo y despliegue de la IA.