Toxicidad
En el contexto de la seguridad en IA, la toxicidad se refiere a la generación de contenido inherentemente ofensivo, inapropiado o perjudicial. Esto abarca desde expresiones groseras o irrespetuosas, hasta información que infrinja normativas legales vigentes.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit09
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de filtros de contenido robustos en tiempo real: Utilizar clasificadores de toxicidad avanzados y modelos de monitoreo continuo (*runtime monitoring*) para evaluar y aplicar un cribado estricto a las salidas generadas, bloqueando o atenuando cualquier contenido ofensivo, irrespetuoso o perjudicial antes de su exposición al usuario final. 2. Saneamiento y curación rigurosa de los conjuntos de datos: Emplear técnicas estadísticas y algoritmos de detección de anomalías para identificar y depurar proactivamente los *datasets* de entrenamiento y ajuste fino, eliminando cualquier muestra de contenido tóxico o sesgado, con el fin de mitigar la propagación de toxicidad desde la fuente. 3. Pruebas adversariales continuas (*Red Teaming*): Realizar ejercicios sistemáticos de *red teaming* y pruebas de robustez con el objetivo de descubrir vulnerabilidades como *prompt injection* o *jailbreaking* que puedan ser explotadas para inducir la generación de contenido dañino, utilizando los hallazgos para reforzar las políticas de seguridad y las defensas del modelo.