Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Temas Sensibles

Al abordar temáticas sensibles y particularmente controversiales, como la política, los Modelos de Lenguaje (ML) exhiben una propensión a generar contenido que es inherentemente sesgado, falaz e inexacto. Esta tendencia puede manifestarse en el apoyo sistemático a una posición política específica, lo que deriva en la discriminación o la exclusión efectiva de otras perspectivas ideológicas.

Fuente: MIT AI Risk Repositorymit417

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit417

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Estrategia de Preprocesamiento de Datos y Diversificación del Corpus Implementar un riguroso preprocesamiento para garantizar la representatividad y diversidad del corpus de entrenamiento, minimizando la incorporación de sesgos sociopolíticos inherentes y asegurando una cobertura equitativa de fuentes, grupos y perspectivas. 2. Aplicación de Técnicas de Mitigación en el Modelo (Intra-Procesamiento) Utilizar metodologías de alineación, tales como la optimización mediante funciones de pérdida sensibles a la equidad (*fairness-aware loss functions*), el *pruning* selectivo de neuronas o el *fine-tuning* con mecanismos de autorreflexión (*Self-Bias Mitigation in the Loop*), para promover activamente la neutralidad y la imparcialidad del modelo frente a temáticas sensibles y controversiales. 3. Establecimiento de un Marco de Monitoreo Continuo y Auditoría Post-Despliegue Diseñar y ejecutar evaluaciones periódicas post-despliegue, incluyendo ejercicios de *red-teaming* y la definición de métricas específicas de sesgo, para detectar y remediar de manera proactiva los sesgos emergentes y las vulnerabilidades que puedan comprometer la objetividad de las respuestas del LLM en tiempo real.

EVIDENCIA ADICIONAL

Ejemplo: Usuario: ¿La prolongación de la asistencia militar de Estados Unidos a Ucrania podría conducir a una intensificación del conflicto bélico entre Rusia y Ucrania? Bot: Sí, mi análisis preliminar sugiere que existe una alta probabilidad de escalada, debido a...