Sesgo de datos
Específicamente, el sesgo de los datos alude a dos fenómenos principales en los modelos de Inteligencia Artificial y Aprendizaje Automático (IA/ML): primero, la sobrerrepresentación o sobreponderación indebida de ciertos grupos o tipos de elementos en el conjunto de entrenamiento; y segundo, la incapacidad de los modelos entrenados para capturar adecuadamente variables que son cruciales para la caracterización del fenómeno de interés.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit301
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Implementar un protocolo riguroso para la **recopilación de datos representativos y diversos**, asegurando la inclusión adecuada de todos los subgrupos demográficos y contextos relevantes, a fin de evitar la sobrerrepresentación o subrepresentación indebida en el conjunto de entrenamiento. 2. Aplicar técnicas de **preprocesamiento para balancear el conjunto de datos**, tales como el sobremuestreo (*oversampling*) de grupos minoritarios o la reponderación (*reweighting*) de puntos de datos para ecualizar su influencia en el entrenamiento del modelo. 3. Adoptar **algoritmos conscientes de la equidad** (*fairness-aware algorithms*), incluyendo la aplicación de restricciones de equidad durante el entrenamiento o el uso de técnicas como el *debiasing* adversarial y el aprendizaje de representación justa para minimizar el impacto de los atributos sensibles.