Volver al repositorio MIT
1. Discriminación y Toxicidad3 - Otro

Sesgo

En el contexto de la Inteligencia Artificial (IA), el concepto de sesgo se refiere a la inclinación de que las respuestas o recomendaciones generadas por la máquina puedan favorecer o desfavorecer injustamente a un individuo o grupo. Este fenómeno, observado frecuentemente en los modelos de lenguaje, es una consecuencia directa de la composición de los datos de entrenamiento. Existen diversas manifestaciones de este sesgo. Por ejemplo, las *normas de exclusión* surgen cuando los datos utilizados para el entrenamiento solo representan una fracción limitada de la población. De manera similar, un *sesgo monolingüe* en sistemas diseñados para ser multilingües ocurre si la mayoría de los datos se enfoca en una sola lengua. Además, la IA generativa a menudo replica estereotipos preexistentes sobre géneros, orientaciones sexuales, razas u ocupaciones, afectando desde recomendaciones simples hasta procesos cruciales de toma de decisiones, como en la selección de personal. Para mitigar estos riesgos, la *representatividad*, la *integridad* y la *diversidad* de los datos de entrenamiento son esenciales para asegurar la equidad. Una estrategia prometedora es el uso de *datos sintéticos*, que pueden aumentar la diversidad del conjunto de datos y corregir sesgos de selección muestral (como los causados por desequilibrios de clases). Finalmente, aumentar la *transparencia* y la *explicabilidad* de los sistemas de IA generativa es fundamental, pues permite a expertos y usuarios identificar, detectar y aplicar las medidas correctivas apropiadas contra cualquier sesgo latente.

Fuente: MIT AI Risk Repositorymit503

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit503

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Diversificación y Balanceo de los Datos de Entrenamiento Asegurar la representatividad, integridad y diversidad de los conjuntos de datos utilizados en la fase de entrenamiento, incorporando activamente muestras de un amplio espectro de grupos demográficos y socioeconómicos. Se debe aplicar el balanceo de clases mediante técnicas de preprocesamiento, como el sobremuestreo (e.g., SMOTE), el submuestreo o la generación de datos sintéticos, con el fin de corregir desequilibrios muestrales que puedan inducir sesgos. 2. Implementación de un Marco de Transparencia, Explicabilidad y Auditoría Continua (XAI) Establecer un sistema de gobernanza de la IA que requiera la documentación exhaustiva del ciclo de vida del modelo y el incremento de la transparencia y explicabilidad (XAI). Es fundamental realizar auditorías periódicas y monitoreo continuo post-despliegue para identificar y mitigar la emergencia o deriva del sesgo en tiempo real. Se recomienda el uso de herramientas de interpretabilidad (e.g., LIME, SHAP) para desentrañar la lógica de las predicciones y facilitar la rendición de cuentas. 3. Aplicación de Algoritmos y Técnicas de Corrección de Sesgo en el Modelo Integrar principios de equidad en la fase de diseño del algoritmo mediante la selección de modelos intrínsecamente menos propensos al sesgo o la aplicación de técnicas de corrección en el proceso. Esto incluye el reajuste de la función de optimización (función de pérdida) con restricciones de equidad, el uso de aprendizaje de representaciones justas (Fair Representation Learning) para codificar datos sin información discriminatoria, o la aplicación de técnicas como el desvío adversario.