3. Desinformación1 - Pre-despliegue

Datos de Entrenamiento Ruidosos

Otra fuente crucial de las 'alucinaciones' de la IA reside en el *ruido* inherente a los datos de entrenamiento. Este introduce inexactitudes que se fijan en los parámetros del modelo, comprometiendo el conocimiento interno que la IA intenta almacenar. De hecho, la base de datos de entrenamiento siempre contendrá, por naturaleza, cierto grado de información errónea o sesgada. El problema se agrava significativamente cuando el entrenamiento se realiza sobre *corpus* de gran escala, dada la dificultad práctica de depurar la totalidad de este ruido de un volumen tan masivo de datos de preentrenamiento

Fuente: MIT AI Risk Repositorymit40

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit40

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementación de rigurosos protocolos de curación y preprocesamiento de datos (detección de anomalías, normalización y escalado de características, y eliminación de duplicados) para asegurar que los modelos se entrenen con un corpus limpio, diverso y estructuralmente coherente, minimizando la introducción de inexactitudes. 2. Aplicación de técnicas de entrenamiento robusto y *fine-tuning*, como el *Noise-Augmented Fine-Tuning* (NoiseFiT) con inyección adaptativa de ruido o el empleo de *autoencoders* de *denoising*, para incrementar la resiliencia del modelo ante el ruido residual inevitable en grandes conjuntos de datos. 3. Establecimiento de un marco de validación y prueba exhaustivo que incluya métricas específicas de detección de alucinaciones y mecanismos de autoverificación (ej. *Chain-of-Verification - CoVe*) para identificar y mitigar patrones de sobreajuste o conocimiento inexacto antes del despliegue productivo.