Calidad de datos de entrenamiento
La calidad de los datos de entrenamiento representa un desafío fundamental para la inteligencia artificial generativa. La robustez y el desempeño de estos modelos dependen intrínsecamente de la calidad de la información utilizada para su formación. Es crucial comprender que cualquier sesgo, error fáctico o desequilibrio en las fuentes de datos introducido durante este proceso será replicado y amplificado en el resultado final del modelo. Modelos como ChatGPT o el sistema de conversión texto-a-imagen Stable Diffusion, por ejemplo, requieren volúmenes ingentes de datos, lo que subraya la importancia crítica no solo de tener grandes *datasets*, sino de garantizar que estos sean de la más alta calidad, completos y rigurosamente equilibrados.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit510
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. Curación Rigurosa y Preprocesamiento de Datos Implementar una estrategia de gobernanza de datos que priorice la curación y el preprocesamiento exhaustivos de los conjuntos de entrenamiento. Esto incluye técnicas de filtrado avanzado, deduplicación de entradas para evitar la sobrerrepresentación y la validación de fuentes de datos. Es fundamental asegurar la diversidad, representatividad y el equilibrio riguroso del *dataset* para mitigar sesgos y la perpetuación de errores fácticos. 2. Auditoría Integral y Mitigación de Sesgos Establecer un proceso de auditoría de equidad que se aplique en las etapas pre-entrenamiento, *in-processing* y post-entrenamiento. Esto implica el uso de herramientas estadísticas y métricas de imparcialidad para detectar sesgos incrustados en los datos, la incorporación de restricciones de equidad en los algoritmos de entrenamiento y la recalibración de las salidas del modelo para garantizar resultados justos y consistentes entre diferentes grupos demográficos. 3. Monitoreo Continuo de Facticidad y Calidad Desarrollar y emplear métricas de fiabilidad y veracidad (*factuality*) para la evaluación continua del contenido generado por el modelo. Esta supervisión activa, a menudo mediante mecanismos de revisión humana y el uso de métricas basadas en referencia (como BLEURT), es crucial para identificar rápidamente y corregir cualquier desviación, error fáctico o comportamiento inconsistente que pueda surgir debido a la baja calidad de los datos de origen.