Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Envenenamiento

El Envenenamiento de Datos (Data Poisoning) se define como la corrupción intencional del conjunto de datos de entrenamiento de un modelo de inteligencia artificial. Esta acción busca implantar vulnerabilidades de forma encubierta, desviar su proceso de aprendizaje o forzarlo a generar predicciones incorrectas. Estos ataques explotan una vulnerabilidad clave: la mayoría de los modelos de IA Generativa se entrenan con grandes volúmenes de información pública, como imágenes y vídeos extraídos de la web, lo que facilita la acción de actores maliciosos. Un caso ilustrativo es la herramienta Nightshade, la cual permite a los artistas introducir alteraciones sutiles e invisibles en los píxeles de su arte digital antes de subirlo. El propósito de estas modificaciones es sabotear y 'romper' cualquier modelo que intente utilizar esas obras para su entrenamiento.

Fuente: MIT AI Risk Repositorymit1138

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1138

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

Prioridad 1: Validación y Saneamiento Riguroso del Conjunto de Datos Implementar procesos de verificación exhaustiva del conjunto de datos antes de su ingesta. Esto incluye el despliegue de algoritmos de detección de anomalías y técnicas de filtrado estadístico para identificar y excluir puntos de datos maliciosos o atípicos que pudieran degradar el proceso de aprendizaje del modelo. Prioridad 2: Aseguramiento de la Cadena de Suministro y Control de Acceso Establecer controles de acceso estrictos basados en el principio del mínimo privilegio (PoLP) a lo largo del ciclo de vida del entrenamiento. Asegurar las tuberías de recolección, preprocesamiento y entrenamiento de datos, así como emplear credenciales de contenido para rastrear la procedencia de los datos (data provenance), mitigando el riesgo de manipulación por actores internos o externos. Prioridad 3: Robustecimiento del Modelo mediante Adiestramiento Adversario Incorporar técnicas de adiestramiento adversario, que consisten en exponer al modelo a ejemplos intencionalmente manipulados. Esta práctica busca aumentar la resiliencia intrínseca del sistema de IA, permitiéndole reconocer y clasificar correctamente entradas que simulan ataques de envenenamiento.