1. Discriminación y Toxicidad2 - Post-despliegue

Injusticia

Concepto Central: Paridad de Resultados o No-Discriminación por Grupo Este es un principio de equidad algorítmica. En términos sencillos, exige que los Modelos de Lenguaje Grande (LLM) operen con una "ceguera" controlada ante los atributos de grupo irrelevantes. Si tomamos a dos individuos idénticos en todas las características que realmente importan para la tarea (su "perfil relevante"), el texto sugerido o generado por el LLM debe ser fundamentalmente el mismo. Esto debe cumplirse sin importar el grupo sociodemográfico o categoría irrelevante a la que pertenezcan, como género, origen étnico o nacionalidad. El objetivo es que la pertenencia grupal, cuando es irrelevante, jamás sesgue o diferencie el resultado final del modelo.

Fuente: MIT AI Risk Repositorymit456

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit456

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. **Implementación de Aumento de Datos Contrafactuales (CDA)**: Aplicar técnicas de Aumento de Datos Contrafactuales y Sustitución Contrafactual de Datos (CDS) en la etapa de preprocesamiento del corpus de entrenamiento. Esto consiste en la generación sistemática de ejemplos sintéticos donde los atributos de grupo protegidos (ej., género, origen étnico) son alternados o invertidos, asegurando que el modelo aprenda a desvincular dichos atributos irrelevantes del perfil relevante para la tarea, lo cual es fundamental para alcanzar la equidad individual. 2. **Integración de Regularización y Ecualización Intra-Modelo**: Incorporar mecanismos de debiasing directamente en la arquitectura o función de pérdida del modelo durante el entrenamiento. Esto incluye la adición de términos de penalización (ej. *loss term equalization*) o el uso de técnicas como el *declustering* para evitar que las representaciones internas (embeddings) se agrupen en torno a variables sociodemográficas irrelevantes, promoviendo así la invariancia de la representación a los atributos sensibles. 3. **Adopción de Mecanismos de Auto-Mitigación en Post-Procesamiento**: Emplear estrategias de ajuste en la etapa de inferencia (post-despliegue), tales como la Auto-Reflexión (*Self-Reflection* o *Self-Debiasing*) o la Proyección en Subespacios Ortogonales. Estas técnicas permiten al LLM autoevaluar y ajustar su respuesta generada, o proyectar las representaciones de la frase en un subespacio que anule la dirección del sesgo detectado, asegurando una respuesta final más equitativa y balanceada sin requerir un reentrenamiento completo.

EVIDENCIA ADICIONAL

Dentro del marco de la justicia algorítmica, la imparcialidad emerge como una consideración fundamental. Este principio establece la exigencia de que el modelo, al operar en sistemas de Inteligencia Artificial o de Machine Learning, trate de forma equivalente a individuos que son esencialmente similares. Este requisito conceptual es notablemente análogo a la noción de equidad individual (individual fairness) que se maneja en la literatura especializada en fairness en el ámbito del aprendizaje automático.