1. Discriminación y Toxicidad1 - Pre-despliegue

Risks from data (Risks of improper content and poisoning in training data)

El riesgo se centra en la vulnerabilidad de la fuente de conocimiento del sistema: los datos de entrenamiento. Esta vulnerabilidad se manifiesta en dos escenarios. Primero, la inclusión de contenido inherentemente defectuoso (información ilegal, sesgada o poco diversa) lleva a que la IA genere resultados perjudiciales o extremistas. Segundo, el conjunto de datos está expuesto a ataques de "envenenamiento", donde agentes externos manipulan o inyectan errores maliciosos. Este tipo de sabotaje altera la distribución de probabilidad subyacente del modelo, socavando directamente su precisión y comprometiendo gravemente su fiabilidad operativa.

Fuente: MIT AI Risk Repositorymit649

ENTIDAD

1 - Humano

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit649

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Gobernanza de Datos y Control de Acceso Rigurosos Establecer un marco de gobernanza de datos que garantice la trazabilidad y la integridad de los conjuntos de entrenamiento, incluyendo la verificación de la procedencia de las fuentes y la implementación de políticas de control de acceso basadas en el principio de mínimo privilegio para mitigar la inyección intencional de contenido sesgado o malicioso. 2. Monitoreo Continuo y Pruebas Adversariales Implementar soluciones de monitoreo en tiempo real para la detección de anomalías en la distribución de las características de los datos y en el rendimiento del modelo, complementado con campañas periódicas de pruebas adversariales (red teaming) para evaluar la solidez del sistema y su capacidad de resistir ataques de envenenamiento en el entorno operativo. 3. Protocolos de Respuesta y Recuperación Post-Incidente Crear y mantener versiones de referencia verificadas (baselines) de los datos y los estados del modelo para facilitar una reversión (rollback) expedita a una configuración limpia tras la detección de un ataque, e incorporar un protocolo de análisis de la causa raíz para identificar y subsanar la vulnerabilidad explotada en la cadena de suministro de datos.