1. Discriminación y Toxicidad1 - Pre-despliegue

Respuestas dañinas

Los modelos avanzados de Inteligencia Artificial de frontera no son entidades neutrales; de hecho, tienden a exacerbar los sesgos preexistentes en sus vastos conjuntos de datos de entrenamiento. Esta amplificación permite su manipulación, lo que resulta en la generación de respuestas potencialmente perjudiciales, como contenido discriminatorio o lenguaje abusivo. Es crucial notar que este riesgo no se limita a la generación de texto, sino que se manifiesta en todas las modalidades de la IA generativa. La causa subyacente radica en la composición de sus datos: al ser entrenados predominantemente con enormes volúmenes de contenido de internet en inglés, en gran parte del Reino Unido y Estados Unidos, se produce una sobrerrepresentación de narrativas con sesgos específicos, incluyendo contenido misógino, edadista o de ideología supremacista blanca.

Fuente: MIT AI Risk Repositorymit802

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit802

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de protocolos rigurosos de gobernanza de datos para la curación y re-balanceo de los corpus de entrenamiento. Esto implica la aplicación de técnicas de *resampling* (sobremuestreo o submuestreo) y aumento de datos para asegurar una representación demográfica y lingüística equitativa, neutralizando así la amplificación de sesgos sistémicos heredados del contenido masivo de internet. 2. Aplicación de metodologías avanzadas de alineamiento del modelo durante la fase de *fine-tuning*. Esto incluye el uso de *Reinforcement Learning from Human Feedback* (RLHF), *Instruction Tuning* y destilación de contexto de seguridad para internalizar normativas éticas, minimizando la propensión del modelo a generar contenido abusivo o discriminatorio. 3. Ejecución sistemática de evaluaciones de sesgo y toxicidad pre-despliegue (*red-teaming*). Estas pruebas deben ser multi-modales y utilizar conjuntos de datos contrafactuales para identificar proactivamente las disparidades de rendimiento y las vulnerabilidades de seguridad (*d-hacking*) a través de diversos grupos demográficos antes de la liberación pública del modelo.