1. Discriminación y Toxicidad2 - Post-despliegue

Toxicidad y Contenido Abusivo

Este concepto describe la producción de expresiones que resultan ofensivas, perjudiciales o éticamente inaceptables, e incluye desde el lenguaje grosero o tóxico hasta el contenido que fomenta el daño o el acoso.

Fuente: MIT AI Risk Repositorymit63

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit63

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Sistemas de Detección y Filtrado Post-despliegue Establecer mecanismos automatizados de detección y desintoxicación de contenido rigurosos, focalizados en la salida (*output*) del modelo. Es crucial que estos sistemas incorporen un entendimiento *context-aware* para distinguir de manera efectiva entre lenguaje literal, figurado o sarcástico, y el contenido genuinamente ofensivo o perjudicial. 2. Desarrollo de Taxonomías Robustas y Mitigación de Sesgos en Datos Crear una taxonomía de toxicidad explícita e implícita bien definida y motivada que se alinee con conceptualizaciones éticas y políticas. Es fundamental auditar y diversificar los conjuntos de datos de entrenamiento para reducir la inconsistencia en la anotación y los sesgos inherentes que puedan conducir a la reproducción de problemas estructurales (como colonialismo o patriarcado) en la moderación y clasificación del contenido. 3. Adopción de Estrategias Socio-técnicas y Monitoreo Proactivo de la Exposición Aplicar principios de diseño sensible a valores (*Value-Sensitive Design*) e implementar soluciones sociotécnicas, como la inducción de comportamiento ('nudging') o el uso de contranarrativas, para prevenir la producción de contenido tóxico. Adicionalmente, se debe monitorear y registrar la exposición acumulativa del agente a estímulos tóxicos para predecir la propensión a generar contenido dañino y así activar medidas de mitigación ligeras y oportunas.