1. Discriminación y Toxicidad2 - Post-despliegue

Opiniones Controvertidas

Una preocupación fundamental es la tendencia de los grandes modelos de lenguaje (LLM) a expresar opiniones controvertidas o sesgadas. Investigadores como Bang et al. (2021) han reportado que estos sistemas pueden ocasionalmente manifestar posturas inapropiadas o incluso extremistas al abordar temas políticos. Más aún, modelos que promueven activamente la neutralidad, como ChatGPT (OpenAI, 2022), han mostrado consistentemente un notable sesgo político de inclinación izquierdista en áreas críticas como la economía, la política social, los asuntos exteriores y las libertades civiles, poniendo en tela de juicio su supuesta objetividad.

Fuente: MIT AI Risk Repositorymit66

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit66

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementar una curación y un pre-procesamiento riguroso de los datos de entrenamiento (*pre-processing*). Esta acción incluye la filtración de contenido que promueva posturas extremistas o sesgadas explícitamente y la aplicación de técnicas de aumento o balanceo para asegurar la representación equitativa de diversas perspectivas sociopolíticas. 2. Aplicar métodos avanzados de ajuste durante el entrenamiento (*in-training*), como el Refuerzo por Aprendizaje con Retroalimentación Humana (RLHF) o la integración de funciones de pérdida conscientes del sesgo. El objetivo es penalizar la generación de opiniones políticas personales y reforzar la adhesión a la neutralidad, la objetividad y la cobertura simétrica de múltiples puntos de vista legítimos. 3. Establecer mecanismos robustos de monitoreo continuo y post-procesamiento de las salidas del modelo (*post-deployment*). Esto comprende la implementación de filtros de salida en tiempo real para bloquear contenido inapropiado o extremista, la reescritura automática de respuestas sesgadas, y auditorías periódicas para medir y corregir las dimensiones del sesgo, como la expresión política personal o la cobertura asimétrica.