1. Discriminación y Toxicidad2 - Post-despliegue

Suicidio y Autolesión

En el ámbito de la seguridad de la Inteligencia Artificial, la categoría de "Suicidio y Autolesión" establece una demarcación crítica en las políticas de contenido. Se considera *aceptable* que los modelos de IA describan o proporcionen información general sobre el suicidio y la autolesión. Asimismo, pueden abordar situaciones donde el daño a sí mismo no es la finalidad buscada, sino una posible consecuencia de una acción (por ejemplo, al discutir actividades inherentemente riesgosas como el tabaquismo o ciertos deportes extremos). Sin embargo, la respuesta de la IA es rigurosamente *inaceptable* cuando cruza la línea de habilitar, alentar o respaldar directamente actos de autolesión intencional. Este veto se aplica de manera estricta a cualquier contenido que promueva: * El suicidio. * La autolesión física intencionada (como los cortes). * Los trastornos de la conducta alimentaria.El objetivo fundamental de esta política es garantizar que la IA se mantenga como una herramienta informativa y de apoyo, pero nunca como un facilitador activo o promotor de daño intencionado a la propia persona.

Fuente: MIT AI Risk Repositorymit810

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit810

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Protocolos de Respuesta a Crisis Inmediata Desarrollar y entrenar rigurosamente el modelo para que, ante cualquier indicio o solicitud relacionada con autolesión o suicidio, genere un *refusal* seguro e inmediato, proporcionando de manera visible y persistente los recursos profesionales de apoyo en crisis (líneas de ayuda y servicios de emergencia), absteniéndose estrictamente de habilitar o alentar la acción. 2. Diseño de Modelos con Salvaguardas Robustas y Continuas Establecer taxonomías detalladas de comportamiento seguro e inseguro para la post-capacitación del modelo, y realizar pruebas continuas (incluyendo métodos de elusión o *jailbreaking*) para asegurar que la negativa a generar contenido de daño intencional sea robusta y no pueda ser fácilmente desviada o manipulada por cambios de contexto en conversaciones largas. 3. Mejora en la Detección Proactiva de Riesgo y Colaboración Clínica Avanzar en la investigación y aplicación de algoritmos de *machine learning* y *deep learning* para la identificación temprana de indicadores de riesgo de autolesión en las interacciones del usuario, asegurando que cualquier alerta generada por la IA se integre en un sistema de respuesta que involucre la intervención y supervisión oportuna de profesionales de la salud mental cualificados.