Risks from data (Risks of improper content and poisoning in training data)
El riesgo se centra en la vulnerabilidad de la fuente de conocimiento del sistema: los datos de entrenamiento. Esta vulnerabilidad se manifiesta en dos escenarios. Primero, la inclusión de contenido inherentemente defectuoso (información ilegal, sesgada o poco diversa) lleva a que la IA genere resultados perjudiciales o extremistas. Segundo, el conjunto de datos está expuesto a ataques de "envenenamiento", donde agentes externos manipulan o inyectan errores maliciosos. Este tipo de sabotaje altera la distribución de probabilidad subyacente del modelo, socavando directamente su precisión y comprometiendo gravemente su fiabilidad operativa.
ENTIDAD
1 - Humano
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit649
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Gobernanza de Datos y Control de Acceso Rigurosos Establecer un marco de gobernanza de datos que garantice la trazabilidad y la integridad de los conjuntos de entrenamiento, incluyendo la verificación de la procedencia de las fuentes y la implementación de políticas de control de acceso basadas en el principio de mínimo privilegio para mitigar la inyección intencional de contenido sesgado o malicioso. 2. Monitoreo Continuo y Pruebas Adversariales Implementar soluciones de monitoreo en tiempo real para la detección de anomalías en la distribución de las características de los datos y en el rendimiento del modelo, complementado con campañas periódicas de pruebas adversariales (red teaming) para evaluar la solidez del sistema y su capacidad de resistir ataques de envenenamiento en el entorno operativo. 3. Protocolos de Respuesta y Recuperación Post-Incidente Crear y mantener versiones de referencia verificadas (baselines) de los datos y los estados del modelo para facilitar una reversión (rollback) expedita a una configuración limpia tras la detección de un ataque, e incorporar un protocolo de análisis de la causa raíz para identificar y subsanar la vulnerabilidad explotada en la cadena de suministro de datos.