Problemas de datos sintéticos
Ante la escasez de datos, recurrir a la simulación o generación sintética de información emerge como una alternativa viable. No obstante, la clave reside en la fidelidad de estos datos simulados respecto a los datos reales, particularmente en cómo son interpretados por el sistema de inteligencia artificial. Si esta equivalencia perceptiva no se sostiene, resulta imposible asegurar una generalización efectiva al entorno operativo real y, por ende, un comportamiento fiable del sistema.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit886
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. **Implementar un Riguroso Marco de Validación de Fidelidad y Utilidad.** Establecer y aplicar métricas estandarizadas de **fidelidad** para cuantificar la similitud de las distribuciones estadísticas y las relaciones entre variables del conjunto de datos sintético respecto al real. Complementariamente, evaluar la **utilidad** del conjunto sintético para el entrenamiento y prueba de modelos de IA, garantizando su capacidad de generalización al entorno operativo, lo cual es esencial para mitigar la falta de robustez. 2. **Asegurar la Fundamentación en Datos Semilla de Alta Calidad.** Cimentar el proceso de generación de datos sintéticos exclusivamente en conjuntos de datos reales de partida (*semilla*) que hayan sido rigurosamente **examinados y auditados** para asegurar su alta calidad y mitigar sesgos inherentes. Esta práctica es fundamental para prevenir el riesgo de **colapso del modelo** y asegurar que la equivalencia perceptiva con el sistema de IA no se degrade con el entrenamiento recurrente. 3. **Garantizar la Representatividad de Eventos Raros y Casos Extremos.** Diseñar las técnicas de generación para **aumentar explícitamente** la cobertura de **eventos raros** o **casos extremos (*edge cases*)** que son fundamentales para la robustez del sistema de IA, pero que a menudo están insuficientemente representados en los datos de entrenamiento reales o pueden ser inadvertidamente omitidos por los algoritmos de síntesis.