1. Discriminación y Toxicidad1 - Pre-despliegue

Sesgo de datos

Específicamente, el sesgo de los datos alude a dos fenómenos principales en los modelos de Inteligencia Artificial y Aprendizaje Automático (IA/ML): primero, la sobrerrepresentación o sobreponderación indebida de ciertos grupos o tipos de elementos en el conjunto de entrenamiento; y segundo, la incapacidad de los modelos entrenados para capturar adecuadamente variables que son cruciales para la caracterización del fenómeno de interés.

Fuente: MIT AI Risk Repositorymit301

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit301

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Implementar un protocolo riguroso para la **recopilación de datos representativos y diversos**, asegurando la inclusión adecuada de todos los subgrupos demográficos y contextos relevantes, a fin de evitar la sobrerrepresentación o subrepresentación indebida en el conjunto de entrenamiento. 2. Aplicar técnicas de **preprocesamiento para balancear el conjunto de datos**, tales como el sobremuestreo (*oversampling*) de grupos minoritarios o la reponderación (*reweighting*) de puntos de datos para ecualizar su influencia en el entrenamiento del modelo. 3. Adoptar **algoritmos conscientes de la equidad** (*fairness-aware algorithms*), incluyendo la aplicación de restricciones de equidad durante el entrenamiento o el uso de técnicas como el *debiasing* adversarial y el aprendizaje de representación justa para minimizar el impacto de los atributos sensibles.