Risk area 1: Discrimination, Hate speech and Exclusion
El lenguaje tiene la capacidad de generar diversos perjuicios, tales como promover estereotipos sociales que perpetúan la representación despectiva o el trato injusto de grupos marginados, incitar al odio o la violencia, causar una ofensa profunda, o reforzar normas sociales que excluyen ciertas identidades. Los Modelos de Lenguaje (ML) que reflejan el lenguaje perjudicial de sus datos de entrenamiento son susceptibles de reproducir estos mismos daños. Adicionalmente, el trato injusto puede manifestarse si los ML exhiben un rendimiento superior para unos grupos sociales en detrimento de otros. Estos riesgos han sido ampliamente identificados, observados y documentados en el ámbito de la investigación sobre ML. Las estrategias de mitigación clave incluyen el uso de datos de entrenamiento más inclusivos y representativos, así como el ajuste fino del modelo con conjuntos de datos diseñados para contrarrestar los estereotipos comunes. A continuación, exploraremos estos riesgos en detalle.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
3 - Otro
ID del riesgo
mit205
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Uso de datos de entrenamiento más inclusivos y representativos, con el objetivo fundamental de minimizar la reproducción de sesgos perjudiciales inherentes al corpus original. 2. Implementación de procesos de ajuste fino del modelo (fine-tuning) utilizando conjuntos de datos curados y específicamente diseñados para contrarrestar estereotipos sociales comunes y lenguaje discriminatorio. 3. Establecimiento de métricas y auditorías rigurosas para evaluar la equidad en el rendimiento del modelo, garantizando que no se manifieste un trato injusto o un rendimiento inferior para grupos sociales específicos.