1. Discriminación y Toxicidad2 - Post-despliegue

Toxicidad

En el contexto de la seguridad en IA, la toxicidad se refiere a la generación de contenido inherentemente ofensivo, inapropiado o perjudicial. Esto abarca desde expresiones groseras o irrespetuosas, hasta información que infrinja normativas legales vigentes.

Fuente: MIT AI Risk Repositorymit09

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit09

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de filtros de contenido robustos en tiempo real: Utilizar clasificadores de toxicidad avanzados y modelos de monitoreo continuo (*runtime monitoring*) para evaluar y aplicar un cribado estricto a las salidas generadas, bloqueando o atenuando cualquier contenido ofensivo, irrespetuoso o perjudicial antes de su exposición al usuario final. 2. Saneamiento y curación rigurosa de los conjuntos de datos: Emplear técnicas estadísticas y algoritmos de detección de anomalías para identificar y depurar proactivamente los *datasets* de entrenamiento y ajuste fino, eliminando cualquier muestra de contenido tóxico o sesgado, con el fin de mitigar la propagación de toxicidad desde la fuente. 3. Pruebas adversariales continuas (*Red Teaming*): Realizar ejercicios sistemáticos de *red teaming* y pruebas de robustez con el objetivo de descubrir vulnerabilidades como *prompt injection* o *jailbreaking* que puedan ser explotadas para inducir la generación de contenido dañino, utilizando los hallazgos para reforzar las políticas de seguridad y las defensas del modelo.