Sesgo y discriminación (incrustación de valores)
Los modelos de Inteligencia Artificial Generativa están sujetos al fenómeno de la "incorporación de valores" (*value embedding*). Este concepto describe el proceso por el cual los desarrolladores buscan mitigar sesgos en los resultados al reentrenar y aplicar un ajuste fino (*fine-tuning*) adicional a los modelos, guiados por un conjunto específico de valores normativos, reglas y principios. El riesgo se origina en la ausencia de estándares éticos universales. Los modelos contemporáneos reflejan los valores de su *data* de entrenamiento y, además, son moldeados activamente por la ideología y visión del mundo de sus desarrolladores durante este proceso de ajuste. Esto genera la preocupación de que el modelo incorpore valores no representativos de ciertos segmentos de la población o que perpetúe una reflexión estática y excesivamente simplificada de las normas culturales globales y la evolución de las perspectivas sociales.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit690
Linea de dominio
1. Discriminación y Toxicidad
1.3 > Rendimiento desigual entre grupos
Estrategia de mitigacion
1. Refinar la Curación y el Balanceo de *Datasets* de Ajuste Fino Auditar y reequilibrar rigurosamente los *datasets* utilizados para el ajuste fino (*fine-tuning*) del modelo, con el objetivo de asegurar la máxima representatividad demográfica, cultural y de perspectivas. Esto debe incluir la aplicación de técnicas de muestreo y *Counterfactual Data Augmentation* (CDA) para contrarrestar activamente la ideología o visión sesgada potencialmente incrustada en el modelo pre-entrenado o en el conjunto de valores normativos de los desarrolladores. 2. Establecer un Marco de Gobernanza Ética y Supervisión Obligatoria Implementar un comité de gobernanza de Inteligencia Artificial que defina y mandate un conjunto de principios éticos universales para guiar el proceso de *value embedding* y ajuste fino. Este marco debe estipular la supervisión humana (*Human-in-the-Loop*) y mecanismos de escalamiento para las decisiones críticas, garantizando que la responsabilidad legal y ética por la incorporación de valores no representativos recaiga en una entidad jurídica o persona física. 3. Evaluación Continua del Rendimiento Diferencial y Auditoría de Sesgos Desarrollar e implementar métricas de equidad (*fairness metrics*) específicas (e.g., *Demographic Parity*, *Equal Opportunity Difference*) para medir de manera continua el rendimiento y los resultados del modelo a través de distintos subgrupos de población. Esto requiere auditorías rigurosas y periódicas (*red teaming*) a lo largo de todo el ciclo de vida del modelo para detectar y mitigar cualquier sesgo persistente o emergente que refleje normas culturales estáticas.