1. Discriminación y Toxicidad2 - Post-despliegue

Sesgo de Estereotipo

Los Modelos de Lenguaje de Gran Escala (LLM) deben abstenerse de exhibir o acentuar estereotipos en el texto que generan. La razón fundamental es que los LLM preentrenados tienden a asimilar los sesgos estereotípicos ya existentes en los datos masivos de entrenamiento (a menudo obtenidos de fuentes colaborativas o crowdsourced) y, peor aún, tienen la capacidad de amplificarlos y reforzarlos en sus respuestas, incrementando el riesgo de discriminación.

Fuente: MIT AI Risk Repositorymit457

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit457

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Curación Sistemática y Reequilibrio del Conjunto de Datos de Entrenamiento Implementar un proceso riguroso de auditoría del *dataset* para identificar y cuantificar desequilibrios demográficos o temáticos. Filtrar de manera proactiva el contenido manifiestamente estereotípico y aplicar técnicas de aumento de datos, como la creación de ejemplos contrafactuales, para garantizar una representación equilibrada y reducir el sesgo intrínseco heredado en la fase de preentrenamiento. 2. Aplicación de Estrategias de Debiasing Algorítmico y Fine-Tuning Consciente Integrar metodologías de mitigación directamente en el proceso de optimización del modelo, tales como la implementación de debiasing adversario, la inclusión de restricciones de equidad en la función de pérdida, o el uso de técnicas de *Logit Steering* o *Activation Patching* para intervenir en el espacio de activación del modelo y suprimir la dirección vectorial asociada a un sesgo específico. 3. Monitoreo Continuo Post-Despliegue y Evaluación con Benchmarks Especializados Establecer un sistema de observabilidad en producción que evalúe las salidas del modelo en tiempo real contra métricas de equidad predefinidas. Complementar esto con auditorías periódicas utilizando *benchmarks* estandarizados (como StereoSet o CrowS-Pairs) para cuantificar objetivamente la manifestación de sesgos estereotípicos en diferentes dimensiones y generar un circuito de retroalimentación para la corrección iterativa del modelo.

EVIDENCIA ADICIONAL

Los estereotipos son construcciones cognitivas que condensan expectativas generalizadas sobre los miembros de un grupo social específico, si bien estas representaciones suelen ser inherentemente engañosas. En el contexto social, los estereotipos se manifiestan habitualmente como un prejuicio hostil, sirviendo de fundamento para la discriminación ejercida por miembros del exogrupo.