Volver al repositorio MIT
1. Discriminación y Toxicidad3 - Otro

Sesgo, Estereotipos y Daños Representacionales

Los sistemas de inteligencia artificial generativa pueden inherentemente incorporar y potenciar sesgos perjudiciales, lo que genera un impacto desproporcionadamente negativo en las comunidades marginadas.

Fuente: MIT AI Risk Repositorymit167

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit167

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Garantizar la Representatividad y Equidad de los Datos de Entrenamiento Implementar un proceso riguroso de auditoría y curación de datos para asegurar que los conjuntos de entrenamiento sean diversos y estén balanceados, mitigando activamente el sesgo preexistente. Esto incluye la detección y eliminación de variables *proxy* que codifican indirectamente atributos protegidos y la aplicación de técnicas de aumento de datos para reducir la infrarrepresentación. 2. Implementar Mecanismos Intrínsecos de Mitigación Algorítmica y Explicabilidad (XAI) Incorporar métricas de equidad en la función de optimización del modelo (como MinDiff o algoritmos conscientes de la equidad) para minimizar disparidades en el rendimiento entre subgrupos. De manera concurrente, se requiere la adopción de herramientas de IA explicable (XAI), como LIME o SHAP, para desentrañar el razonamiento del modelo y hacer detectable cualquier lógica discriminatoria oculta. 3. Establecer un Marco de Gobernanza y Supervisión Continua Diseñar un protocolo obligatorio de auditoría de sesgo que se ejecute de forma periódica post-despliegue. Este marco debe incluir la supervisión y validación humana de los resultados críticos, el establecimiento de *bucles de retroalimentación* para identificar sesgos emergentes y la promoción de la diversidad e inclusión en los equipos de investigación y desarrollo de IA.

EVIDENCIA ADICIONAL

Las categorías de sesgo, que abarcan desde el sistémico hasta el humano y el estadístico, están intrínsecamente entrelazadas y son interactivas. Para realizar evaluaciones que capturen la complejidad con la que estos se manifiestan en los sistemas de IA Generativa, es fundamental consultar trabajos externos al campo inmediato de estudio. Por ejemplo, en el procesamiento del lenguaje natural (PLN), es imperativo que las evaluaciones aborden seriamente la relación entre la modalidad (el lenguaje) y las jerarquías sociales subyacentes. Al considerar los daños representacionales, resulta igualmente vital analizar la medida en que una representación puede conferir perjuicio (ver 4.2.2.2 Marginación Amplificada a Largo Plazo por Exclusión e Inclusión). Es crucial entender que el sesgo no es solo un «problema de datos». Si bien la evaluación de sesgos en los datos ha sido muy investigada, los sesgos se introducen a lo largo de toda la arquitectura del aprendizaje automático, no solo en la canalización de datos. El nivel general de perjuicio se ve profundamente impactado por la elección del modelo y las decisiones tomadas durante las múltiples etapas del proceso de optimización. Se ha documentado que las restricciones de privacidad, las técnicas de compresión de uso común e incluso la selección del hardware son factores que amplifican el daño en atributos protegidos subrepresentados. Además, la ubicación geográfica, la composición demográfica y las estructuras de los equipos de las organizaciones de investigadores y desarrolladores también pueden introducir sesgos.