1. Discriminación y Toxicidad3 - Otro

Equidad

La premisa de evitar el sesgo y asegurar la ausencia de rendimiento dispar se erige como el objetivo central de la equidad y la gobernanza en la Inteligencia Artificial. El *sesgo* en este contexto no se limita a un simple error estadístico; es la internalización por parte del modelo de *suposiciones incorrectas* o de *desigualdades históricas* presentes en los datos de entrenamiento. Si la data refleja un mundo donde un grupo ha sido históricamente desfavorecido, el algoritmo "aprende" y perpetúa esa preferencia o discriminación. Asegurar la *ausencia de rendimiento dispar* (o *disparate impact*) se refiere a la meta de diseño: garantizar que el sistema de IA arroje resultados justos y equitativos. Significa que, sin importar la raza, el género o cualquier otra característica protegida, la precisión de las predicciones, las tasas de error (como falsos positivos y falsos negativos) y las oportunidades resultantes deben ser consistentes y justas entre los diferentes subgrupos de la población. En esencia, se busca que la tecnología no amplifique ni institucionalice las iniquidades preexistentes en la sociedad.

Fuente: MIT AI Risk Repositorymit455

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit455

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.3 > Rendimiento desigual entre grupos

Estrategia de mitigacion

1. Estrategia de Pre-procesamiento y Curación de Datos Implementar una auditoría exhaustiva de los conjuntos de datos de entrenamiento para identificar y cuantificar sesgos sistémicos o fallas de representación. Esto debe incluir la *diversificación activa de las fuentes de datos* para asegurar la inclusión representativa de todos los subgrupos demográficos y la aplicación de técnicas de *aumentación de datos* o *remuestreo* (sampling y reweighing) para corregir desequilibrios y lograr una muestra poblacional más equitativa antes de la fase de entrenamiento. 2. Integración de Mecanismos de Equidad en el Entrenamiento (In-processing) Ajustar la función de optimización del Modelo de Lenguaje Grande (LLM) mediante el uso de algoritmos conscientes de la equidad (fairness-aware optimization functions). Esto implica incorporar restricciones o penalizaciones, como *MinDiff* o *Counterfactual Logit Pairing (CLP)*, que optimicen explícitamente para un rendimiento consistente y justo, minimizando las diferencias en las métricas de error y predicción a través de los subgrupos sensibles (atributos protegidos). 3. Monitoreo Continuo y Corrección de Sesgo en la Inferencia (Post-processing) Establecer un marco riguroso de evaluación y monitoreo continuo del LLM en entornos de prueba y producción. Esto requiere el desarrollo de *métricas de equidad desagregadas* que evalúen la precisión, la paridad y las tasas de error (falsos positivos/negativos) para cada subgrupo. Adicionalmente, se deben implementar mecanismos de corrección en la fase de inferencia, tales como la *autoevaluación post-generación* (Self-Reflection) o enfoques multi-agente (*Cooperative Bias Mitigation in the Loop*), para identificar y ajustar las respuestas sesgadas antes de su entrega al usuario final.

EVIDENCIA ADICIONAL

La imparcialidad es crucial, ya que los Modelos de Lenguaje Grande (LLMs) con sesgos inherentes y desalineados de los principios morales humanos compartidos pueden provocar discriminación contra los usuarios, lo que resulta en una disminución de la confianza, la generación de opinión pública adversa hacia los responsables de la implementación y el potencial incumplimiento de la legislación antidiscriminatoria.