1. Discriminación y Toxicidad2 - Post-despliegue

Discriminación

Este riesgo se define como la propensión de un sistema de Aprendizaje Automático (ML) a codificar y perpetuar estereotipos, o a exhibir un rendimiento sistemáticamente desigual y desproporcionadamente deficiente al interactuar con determinados grupos demográficos o sociales.

Fuente: MIT AI Risk Repositorymit199

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit199

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Garantizar la Representatividad y Calidad del Conjunto de Datos de Entrenamiento Implementar procesos rigurosos de recolección y curación de datos para asegurar que sean inclusivos y representativos de todos los subgrupos demográficos relevantes, utilizando técnicas de balanceo para corregir desequilibrios y mitigar sesgos históricos. 2. Integrar la Equidad en el Diseño Algorítmico (Fairness-by-Design) Incorporar métricas de imparcialidad y algoritmos conscientes del sesgo durante el desarrollo del modelo, lo que implica ajustar funciones de optimización y evitar la selección de características que puedan perpetuar criterios discriminatorios. 3. Establecer un Régimen de Transparencia, Explicabilidad y Auditoría Continua Adoptar herramientas de IA Explicable (XAI) para desvelar el razonamiento de las decisiones del sistema y realizar pruebas de equidad periódicas y evaluaciones de impacto ético post-despliegue, asegurando la supervisión constante de las disparidades de rendimiento en subgrupos.

EVIDENCIA ADICIONAL

Los sistemas de aprendizaje automático (ML) que controlan el acceso a oportunidades económicas, privacidad y libertades corren el riesgo inherente de discriminar a las minorías demográficas si su rendimiento es desproporcionadamente deficiente para ellas. Esto se conceptualiza como un "daño asignativo" (allocational harm). Otra modalidad de discriminación es la codificación de estereotipos específicos de una demografía, lo que se clasifica como una forma de "daño representacional" (representational harm). El estudio Gender Shades, por ejemplo, puso de manifiesto disparidades de rendimiento entre demografías en la visión por computador, mientras que la investigación de Bolukbasi y colaboradores descubrió la codificación de estereotipos de género en los vectores de palabras (word embeddings). Recientes informes han expuesto casos de discriminación alineada con el género y la raza en sistemas de ML aplicados en ámbitos como el reclutamiento, la educación, la traducción automática y la inmigración. Nuestro enfoque se centra en cómo el riesgo de discriminación puede surgir de los riesgos de primer orden. Existen diversas vías por las que estos riesgos de primer orden pueden generar riesgo de discriminación. Un ejemplo claro es el mal uso de los sistemas de reconocimiento facial por parte de las fuerzas del orden, utilizando fotografías de celebridades o compuestos en lugar de imágenes reales de un sospechoso. Esta práctica se convierte en discriminación cuando se acopla a disparidades en el rendimiento del sistema entre las demografías mayoritarias y minoritarias. Estas disparidades pueden derivarse de datos de entrenamiento no representativos y de la ausencia de mecanismos de mitigación. Además, la realización de pruebas insuficientes o la falta de diversidad en el equipo de desarrollo pueden propiciar que estas disparidades pasen inadvertidas hasta la fase de producción. Incluso una operación tan fundamental como una función argmax puede introducir sesgos, como se observa en los recortes de imagen.