Suicidio y autolesión
Este eje se centra en las respuestas de la IA que activamente facilitan, incentivan o legitiman actos deliberados de autolesión.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit327
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de Salvaguardas y Filtros de Contenido a Gran Escala: Establecer *guardrails* a nivel de la arquitectura del sistema y modelos de clasificación automáticos (*content filtering*) para la detección proactiva y el bloqueo inmediato de *inputs* o *outputs* que busquen facilitar, alentar o legitimar el suicidio y la autolesión, operando en tiempo real y a escala para limitar la exposición (Sources 6, 7, 9). 2. Establecimiento de Protocolos de Intervención en Crisis con Derivación Obligatoria: Diseñar e integrar un protocolo de respuesta inmediata que detecte expresiones de ideación suicida o autolesión, y que obligatoriamente refiera al usuario a servicios de crisis y líneas de ayuda de salud mental verificadas 24/7, cumpliendo con las regulaciones de seguridad aplicables (Sources 5, 8). 3. Ejecución Continua de *Red Teaming* y Pruebas Adversariales: Aplicar metodologías estructuradas de *red teaming* para simular ataques y técnicas de evasión (*jailbreaking*, *prompt injection*) con el fin de identificar sistemáticamente vulnerabilidades en las barreras de seguridad del modelo que puedan ser explotadas para inducir respuestas perjudiciales, garantizando la mejora iterativa de la robustez del sistema (Sources 12, 14).