1. Discriminación y Toxicidad1 - Pre-despliegue

Datos de Entrenamiento Sesgados

La definición de sesgo (bias) en los modelos de lenguaje de gran escala (LLMs) resulta intrínsecamente más subjetiva y dependiente del contexto que la de toxicidad. Basándonos en la investigación, describimos el sesgo como **disparidades** que exacerban las diferencias demográficas entre diversos grupos, lo cual se materializa principalmente a través de dos mecanismos: - **Prevalencia demográfica de palabras:** La frecuencia desigual de ciertos pronombres e identidades en los datos de entrenamiento puede inclinar la tendencia de un LLM respecto a categorías como el género, la raza, la religión o la cultura. Por ejemplo, si el pronombre "He" (Él) está sobrerrepresentado en el corpus en comparación con "She" (Ella), el modelo aprenderá menos contextos asociados a "She" y tendrá una mayor probabilidad de generar "He". - **Sesgo estereotípico:** Consiste en las **creencias sobregeneralizadas** —que suelen contener valores incorrectos— acerca de un grupo específico de personas. Este sesgo se halla a menudo oculto en contenidos de gran escala que parecen benignos. Es importante señalar que la delimitación exacta de qué constituye un estereotipo en los corpus de datos masivos sigue siendo un problema fundamentalmente abierto en la seguridad de la IA.

Fuente: MIT AI Risk Repositorymit37

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit37

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Auditoría y Balanceo Proactivo del Corpus de Datos Realizar un análisis exhaustivo del corpus masivo de entrenamiento para identificar y cuantificar la sobrerrepresentación y subrepresentación de atributos demográficos (e.g., género, raza) y la presencia de sesgos estereotípicos. Implementar técnicas de ingeniería de datos como el balanceo, el *debiasing* o la neutralización de atributos sensibles en el *embedding space* para asegurar que el modelo no aprenda disparidades estadísticas desde la base. 2. Implementación de Mecanismos de Regularización Conscientes del Sesgo Integrar algoritmos de *in-processing* durante la fase de entrenamiento del LLM. Estos mecanismos, como el *Adversarial Debiasing* o las funciones de pérdida que incluyen términos de penalización por disparidad, deben asegurar la minimización de la correlación entre la sensibilidad del modelo a atributos protegidos y la probabilidad de generación de sesgos o estereotipos. 3. Creación de un Marco de Evaluación de Equidad Continuo (*Fairness Benchmarking*) Desarrollar y aplicar baterías de pruebas estandarizadas (e.g., SEAT, CrowS-Pairs) y métricas de equidad (*Disparate Impact*, *Equal Opportunity*) tanto en el pre-despliegue como en el monitoreo continuo. Utilizar los resultados de estas evaluaciones para el *fine-tuning* correctivo con el objetivo de alinear el comportamiento del modelo con los principios de equidad y no discriminación.