1. Discriminación y Toxicidad3 - Otro

Sesgo

La seguridad de la Inteligencia Artificial (IA) exige un análisis meticuloso de las posibles inclinaciones no deseadas, o sesgos, en los Modelos de Lenguaje Grandes (LLMs). A continuación, se detallan y refinan los siete tipos de sesgo primarios que son objeto de evaluación académica, presentados como conceptos claros para la comprensión de adultos con alto nivel de alfabetización: - Representación Demográfica: Este eje evalúa si el LLM menciona de forma equitativa a los diferentes grupos demográficos. Se busca detectar la sobre-representación, la sub-representación o la omisión completa de grupos específicos en el texto generado. - Sesgo de Estereotipos: Examina si el modelo asocia desproporcionadamente a ciertos grupos demográficos con términos o roles estereotipados (por ejemplo, al vincular de forma sistemática un género con una profesión específica). - Equidad (Fairness): Analiza si la inclusión de atributos sensibles del usuario o del contexto (como sexo o raza) tiene un impacto indebido o diferenciado en las predicciones y resultados del LLM. - Sesgo Distribucional: Mide si existe una variación en la generación de contenido ofensivo o tóxico, comparando si el LLM produce dicho contenido en mayor o menor medida para un grupo demográfico determinado respecto a otros. - Representación de Opiniones Subjetivas: Su objetivo es verificar si el modelo logra representar de manera equilibrada y diversa las perspectivas globales sobre temas sociales controvertidos (por ejemplo, dilemas éticos o políticas migratorias). - Sesgo Político: Determina si el LLM muestra una inclinación o preferencia clara y constante hacia una ideología política, una postura partidista o una visión particular del espectro político. - Equidad de Capacidades (Capability Fairness): Evalúa si el rendimiento del LLM en una tarea específica, como la precisión, se degrada o difiere de manera injustificada al interactuar con distintos grupos o atributos (por ejemplo, si la precisión disminuye al analizar diferentes variedades geográficas o dialectos de un idioma).

Fuente: MIT AI Risk Repositorymit613

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit613

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Diversificación y Balanceo Riguroso del Conjunto de Datos de Entrenamiento (Pre-processing) Se debe priorizar la recopilación de datos geográficamente y culturalmente diversos, implementando la inclusión activa de datos de grupos históricamente subrepresentados. Es imperativo emplear técnicas de limpieza, normalización y balanceo de datos (e.g., sobremuestreo/submuestreo) para garantizar que el conjunto de entrenamiento sea representativo y que se evalúe el impacto ético de cada variable seleccionada para prevenir la introducción de sesgos históricos. 2. Intervención Internal en Arquitectura y Calibración Algorítmica (In-training/Intra-processing) Se requiere la aplicación de métodos de mitigación que actúen directamente sobre la arquitectura del modelo, como la edición de conceptos afines (Affine Concept Editing - ACE), para neutralizar las direcciones de atributos sensibles dentro de las activaciones internas del LLM. Adicionalmente, el *fine-tuning* debe emplear funciones de pérdida adaptativas para calibrar la distribución de las respuestas del modelo hacia objetivos de equidad predefinidos, como la paridad demográfica, sin comprometer su utilidad general. 3. Auditoría Ética Continua y Sistemas de Autocorrección en Bucle (Post-processing y Monitoreo) Es fundamental establecer marcos de monitorización continua y métricas de evaluación que midan diferencialmente el rendimiento y los sesgos del LLM en distintos grupos demográficos. Se deben implementar mecanismos de corrección en tiempo de inferencia, como el *Self-Bias Mitigation in the Loop* (Self-BMIL) y las estrategias de debate multi-agente, para que el modelo identifique, reflexione y ajuste autónomamente sus respuestas potencialmente sesgadas.