Toxicidad y Contenido Abusivo
Este concepto describe la producción de expresiones que resultan ofensivas, perjudiciales o éticamente inaceptables, e incluye desde el lenguaje grosero o tóxico hasta el contenido que fomenta el daño o el acoso.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit63
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de Sistemas de Detección y Filtrado Post-despliegue Establecer mecanismos automatizados de detección y desintoxicación de contenido rigurosos, focalizados en la salida (*output*) del modelo. Es crucial que estos sistemas incorporen un entendimiento *context-aware* para distinguir de manera efectiva entre lenguaje literal, figurado o sarcástico, y el contenido genuinamente ofensivo o perjudicial. 2. Desarrollo de Taxonomías Robustas y Mitigación de Sesgos en Datos Crear una taxonomía de toxicidad explícita e implícita bien definida y motivada que se alinee con conceptualizaciones éticas y políticas. Es fundamental auditar y diversificar los conjuntos de datos de entrenamiento para reducir la inconsistencia en la anotación y los sesgos inherentes que puedan conducir a la reproducción de problemas estructurales (como colonialismo o patriarcado) en la moderación y clasificación del contenido. 3. Adopción de Estrategias Socio-técnicas y Monitoreo Proactivo de la Exposición Aplicar principios de diseño sensible a valores (*Value-Sensitive Design*) e implementar soluciones sociotécnicas, como la inducción de comportamiento ('nudging') o el uso de contranarrativas, para prevenir la producción de contenido tóxico. Adicionalmente, se debe monitorear y registrar la exposición acumulativa del agente a estímulos tóxicos para predecir la propensión a generar contenido dañino y así activar medidas de mitigación ligeras y oportunas.