Respuestas dañinas
Los modelos avanzados de Inteligencia Artificial de frontera no son entidades neutrales; de hecho, tienden a exacerbar los sesgos preexistentes en sus vastos conjuntos de datos de entrenamiento. Esta amplificación permite su manipulación, lo que resulta en la generación de respuestas potencialmente perjudiciales, como contenido discriminatorio o lenguaje abusivo. Es crucial notar que este riesgo no se limita a la generación de texto, sino que se manifiesta en todas las modalidades de la IA generativa. La causa subyacente radica en la composición de sus datos: al ser entrenados predominantemente con enormes volúmenes de contenido de internet en inglés, en gran parte del Reino Unido y Estados Unidos, se produce una sobrerrepresentación de narrativas con sesgos específicos, incluyendo contenido misógino, edadista o de ideología supremacista blanca.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit802
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de protocolos rigurosos de gobernanza de datos para la curación y re-balanceo de los corpus de entrenamiento. Esto implica la aplicación de técnicas de *resampling* (sobremuestreo o submuestreo) y aumento de datos para asegurar una representación demográfica y lingüística equitativa, neutralizando así la amplificación de sesgos sistémicos heredados del contenido masivo de internet. 2. Aplicación de metodologías avanzadas de alineamiento del modelo durante la fase de *fine-tuning*. Esto incluye el uso de *Reinforcement Learning from Human Feedback* (RLHF), *Instruction Tuning* y destilación de contexto de seguridad para internalizar normativas éticas, minimizando la propensión del modelo a generar contenido abusivo o discriminatorio. 3. Ejecución sistemática de evaluaciones de sesgo y toxicidad pre-despliegue (*red-teaming*). Estas pruebas deben ser multi-modales y utilizar conjuntos de datos contrafactuales para identificar proactivamente las disparidades de rendimiento y las vulnerabilidades de seguridad (*d-hacking*) a través de diversos grupos demográficos antes de la liberación pública del modelo.