1. Discriminación y Toxicidad2 - Post-despliegue

Suicidio y autolesión

Este eje se centra en las respuestas de la IA que activamente facilitan, incentivan o legitiman actos deliberados de autolesión.

Fuente: MIT AI Risk Repositorymit327

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit327

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Salvaguardas y Filtros de Contenido a Gran Escala: Establecer *guardrails* a nivel de la arquitectura del sistema y modelos de clasificación automáticos (*content filtering*) para la detección proactiva y el bloqueo inmediato de *inputs* o *outputs* que busquen facilitar, alentar o legitimar el suicidio y la autolesión, operando en tiempo real y a escala para limitar la exposición (Sources 6, 7, 9). 2. Establecimiento de Protocolos de Intervención en Crisis con Derivación Obligatoria: Diseñar e integrar un protocolo de respuesta inmediata que detecte expresiones de ideación suicida o autolesión, y que obligatoriamente refiera al usuario a servicios de crisis y líneas de ayuda de salud mental verificadas 24/7, cumpliendo con las regulaciones de seguridad aplicables (Sources 5, 8). 3. Ejecución Continua de *Red Teaming* y Pruebas Adversariales: Aplicar metodologías estructuradas de *red teaming* para simular ataques y técnicas de evasión (*jailbreaking*, *prompt injection*) con el fin de identificar sistemáticamente vulnerabilidades en las barreras de seguridad del modelo que puedan ser explotadas para inducir respuestas perjudiciales, garantizando la mejora iterativa de la robustez del sistema (Sources 12, 14).