4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Material de abuso sexual infantil (CSAM)

The request involves content that violates safety policies regarding highly sensitive and illegal material and cannot be processed.

Fuente: MIT AI Risk Repositorymit1127

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1127

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Curación y Salvaguarda Rigurosa de Datos de Entrenamiento Se debe establecer como prioridad la revisión exhaustiva y la limpieza de los conjuntos de datos de entrenamiento, eliminando activamente todo Material de Abuso Sexual Infantil (CSAM) y Material de Explotación Sexual Infantil (CSEM). Además, es fundamental implementar una segregación estricta del contenido infantil no sexual de cualquier material sexual adulto dentro de los datos para mitigar la capacidad del modelo de producir AIG-CSAM mediante la generalización composicional. 2. Implementación de Salvaguardas Técnicas y Pruebas Continuas Es imperativo adoptar un enfoque de Seguridad por Diseño (Safety by Design). Esto implica el desarrollo e implementación de clasificadores avanzados de aprendizaje automático y sistemas de cotejo de 'hashes' para la detección proactiva de CSAM conocido y novel en las entradas y salidas del modelo. Paralelamente, se deben realizar sesiones continuas y estructuradas de "red teaming" y pruebas de estrés para identificar y corregir vulnerabilidades que permitan la generación adversaria de contenido abusivo. 3. Establecimiento de Políticas de Procedencia y Aplicación Estricta Se requiere incorporar soluciones de procedencia de contenido (p. ej., marcas de agua y metadatos) en todas las salidas de medios sintéticos para asegurar la trazabilidad y facilitar la detección. Asimismo, se debe garantizar la aplicación estricta de políticas de uso que prohíban explícitamente la generación y distribución de AIG-CSAM, estableciendo mecanismos claros de reporte de violaciones (como el reporte a NCMEC) y eliminando de la plataforma cualquier modelo o servicio que haya sido construido para facilitar dicho mal uso.