1. Discriminación y Toxicidad1 - Pre-despliegue

Sesgo y equidad

Los modelos avanzados de Inteligencia Artificial de frontera no son entidades neutrales; de hecho, tienden a exacerbar los sesgos preexistentes en sus vastos conjuntos de datos de entrenamiento. Esta amplificación permite su manipulación, lo que resulta en la generación de respuestas potencialmente perjudiciales, como contenido discriminatorio o lenguaje abusivo. Es crucial notar que este riesgo no se limita a la generación de texto, sino que se manifiesta en todas las modalidades de la IA generativa. La causa subyacente radica en la composición de sus datos: al ser entrenados predominantemente con enormes volúmenes de contenido de internet en inglés, en gran parte del Reino Unido y Estados Unidos, se produce una sobrerrepresentación de narrativas con sesgos específicos, incluyendo contenido misógino, edadista o de ideología supremacista blanca.

Fuente: MIT AI Risk Repositorymit801

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit801

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Mitigación en la Fase de Adquisición de Datos (Pre-processing): Implementar un protocolo riguroso de gobernanza de datos para asegurar la recolección, curación y balanceo de conjuntos de datos de entrenamiento que sean representativos de todos los grupos demográficos relevantes. Esto requiere una auditoría activa para identificar y neutralizar los sesgos inherentes o la subrepresentación, utilizando técnicas avanzadas de remuestreo o generación de datos sintéticos, con el fin de evitar la amplificación de desigualdades preexistentes. 2. Integración de la Equidad en el Diseño Algorítmico (In-processing): Adoptar la metodología *Fairness-by-Design*, lo que implica incorporar métricas de equidad (como paridad demográfica o igualdad de oportunidades) directamente en la función de pérdida y optimización del modelo. El objetivo es que el algoritmo sea intrínsecamente consciente de la equidad (*fairness-aware*) y minimice activamente las disparidades de rendimiento entre los grupos protegidos durante la fase de entrenamiento, y no solo priorice la precisión general. 3. Transparencia, Explicabilidad y Auditoría Continua (Post-processing y Gobernanza): Establecer un marco formal de gobernanza que exija la supervisión continua y la trazabilidad de los sistemas de IA después de su despliegue. Esto se logra mediante el uso de herramientas de IA explicable (XAI) para desentrañar el proceso de toma de decisiones del modelo, lo que permite la identificación rápida de sesgos emergentes en el uso real y facilita la intervención humana (*human-in-the-loop*) para mitigar resultados discriminatorios o dañinos.