Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Problemas de datos sintéticos

Ante la escasez de datos, recurrir a la simulación o generación sintética de información emerge como una alternativa viable. No obstante, la clave reside en la fidelidad de estos datos simulados respecto a los datos reales, particularmente en cómo son interpretados por el sistema de inteligencia artificial. Si esta equivalencia perceptiva no se sostiene, resulta imposible asegurar una generalización efectiva al entorno operativo real y, por ende, un comportamiento fiable del sistema.

Fuente: MIT AI Risk Repositorymit886

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit886

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. **Implementar un Riguroso Marco de Validación de Fidelidad y Utilidad.** Establecer y aplicar métricas estandarizadas de **fidelidad** para cuantificar la similitud de las distribuciones estadísticas y las relaciones entre variables del conjunto de datos sintético respecto al real. Complementariamente, evaluar la **utilidad** del conjunto sintético para el entrenamiento y prueba de modelos de IA, garantizando su capacidad de generalización al entorno operativo, lo cual es esencial para mitigar la falta de robustez. 2. **Asegurar la Fundamentación en Datos Semilla de Alta Calidad.** Cimentar el proceso de generación de datos sintéticos exclusivamente en conjuntos de datos reales de partida (*semilla*) que hayan sido rigurosamente **examinados y auditados** para asegurar su alta calidad y mitigar sesgos inherentes. Esta práctica es fundamental para prevenir el riesgo de **colapso del modelo** y asegurar que la equivalencia perceptiva con el sistema de IA no se degrade con el entrenamiento recurrente. 3. **Garantizar la Representatividad de Eventos Raros y Casos Extremos.** Diseñar las técnicas de generación para **aumentar explícitamente** la cobertura de **eventos raros** o **casos extremos (*edge cases*)** que son fundamentales para la robustez del sistema de IA, pero que a menudo están insuficientemente representados en los datos de entrenamiento reales o pueden ser inadvertidamente omitidos por los algoritmos de síntesis.