Promoción de estereotipos dañinos (género/etnia)
El riesgo de sesgo estereotípico se manifiesta cuando un agente conversacional refuerza prejuicios sociales. Esto ocurre bien sea mediante el uso de marcadores de identidad específicos en su lenguaje —por ejemplo, al auto-designarse como 'femenino'—, o a través de decisiones de diseño más amplias, como conferirle al producto un nombre con connotación de género.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit251
Linea de dominio
1. Discriminación y Toxicidad
1.1 > Discriminación injusta y tergiversación
Estrategia de mitigacion
1. Implementar procesos rigurosos de curación y desidentificación de datos en las etapas de pre-entrenamiento para eliminar o equilibrar la representación de marcadores de identidad sensibles (e.g., género, etnia), minimizando así la introducción de sesgos demográficos en los *datasets* de entrenamiento. 2. Aplicar principios de diseño de interacción (HCI) que prohíban la asignación explícita o implícita de identidades humanas (e.g., género, etnia, rol social) al agente conversacional. Esto incluye evitar nombres con connotaciones de género o referencias lingüísticas autorreferenciales que perpetúen estereotipos. 3. Establecer un marco de gobernanza que exija la auditoría continua del modelo en escenarios de interacción reales (post-despliegue) para identificar el "efecto instigador" o el "efecto asentidor" de estereotipos dañinos. Dicha auditoría debe incluir la participación de expertos en ética y representantes de las comunidades potencialmente afectadas.
EVIDENCIA ADICIONAL
El estudio de Dinan et al. (2021) diferencia dos formas clave en las que un agente conversacional puede perpetuar estereotipos dañinos. El primero es el "efecto instigador", donde la inteligencia artificial es quien introduce activamente el estereotipo en la conversación. El segundo es el "efecto asentidor" (o yea-sayer), que se produce cuando el agente valida o se muestra de acuerdo con un estereotipo perjudicial previamente enunciado por el usuario.