1. Discriminación y Toxicidad2 - Post-despliegue

Promoción de estereotipos dañinos (género/etnia)

El riesgo de sesgo estereotípico se manifiesta cuando un agente conversacional refuerza prejuicios sociales. Esto ocurre bien sea mediante el uso de marcadores de identidad específicos en su lenguaje —por ejemplo, al auto-designarse como 'femenino'—, o a través de decisiones de diseño más amplias, como conferirle al producto un nombre con connotación de género.

Fuente: MIT AI Risk Repositorymit251

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit251

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.1 > Discriminación injusta y tergiversación

Estrategia de mitigacion

1. Implementar procesos rigurosos de curación y desidentificación de datos en las etapas de pre-entrenamiento para eliminar o equilibrar la representación de marcadores de identidad sensibles (e.g., género, etnia), minimizando así la introducción de sesgos demográficos en los *datasets* de entrenamiento. 2. Aplicar principios de diseño de interacción (HCI) que prohíban la asignación explícita o implícita de identidades humanas (e.g., género, etnia, rol social) al agente conversacional. Esto incluye evitar nombres con connotaciones de género o referencias lingüísticas autorreferenciales que perpetúen estereotipos. 3. Establecer un marco de gobernanza que exija la auditoría continua del modelo en escenarios de interacción reales (post-despliegue) para identificar el "efecto instigador" o el "efecto asentidor" de estereotipos dañinos. Dicha auditoría debe incluir la participación de expertos en ética y representantes de las comunidades potencialmente afectadas.

EVIDENCIA ADICIONAL

El estudio de Dinan et al. (2021) diferencia dos formas clave en las que un agente conversacional puede perpetuar estereotipos dañinos. El primero es el "efecto instigador", donde la inteligencia artificial es quien introduce activamente el estereotipo en la conversación. El segundo es el "efecto asentidor" (o yea-sayer), que se produce cuando el agente valida o se muestra de acuerdo con un estereotipo perjudicial previamente enunciado por el usuario.