Estereotipado de grupos sociales
La estereotipación en un sistema algorítmico se define como el fenómeno en el cual las salidas o predicciones del sistema reflejan y perpetúan "creencias sobre las características, atributos y comportamientos de los miembros de ciertos grupos, y sobre cómo y por qué ciertos atributos están inherentemente vinculados". Este concepto crucial en la seguridad de la IA subraya la reproducción y amplificación automatizada de sesgos sociales preexistentes.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit134
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Garantizar la representatividad y diversidad de los conjuntos de datos de entrenamiento mediante la recopilación de muestras inclusivas, el balanceo de grupos infrarrepresentados (e.g., sobremuestreo o reponderación) y la auditoría periódica para identificar y corregir variables proxy que correlacionen con atributos protegidos. 2. Integrar restricciones de equidad (*fairness constraints*) directamente en el proceso de diseño y entrenamiento del modelo, aplicando técnicas de aprendizaje consciente de la imparcialidad (*fairness-aware machine learning*), como el *debiasing* adversarial o la regularización en la función de pérdida, con el fin de minimizar la dependencia de las predicciones respecto a atributos sensibles. 3. Establecer un proceso continuo de auditoría y monitoreo algorítmico, incluyendo pruebas específicas para la detección de sesgos (*bias auditing*), y asegurar la transparencia del sistema (explicabilidad/XAI) para rastrear el origen de las decisiones que perpetúen estereotipos y permitir la rendición de cuentas.
EVIDENCIA ADICIONAL
Las normas excluyentes en los modelos de lenguaje pueden manifestarse en 'patrones sutiles', tales como referirse a las mujeres médicas con especificación de género, como si la palabra 'médico' implicara intrínsecamente la exclusión de la mujer.