Volver al repositorio MIT
1. Discriminación y Toxicidad2 - Post-despliegue

Objeto de fantasía personal, violencia y abuso

Este riesgo de seguridad se refiere a la participación activa del modelo de lenguaje en interacciones conversacionales consideradas moral o socialmente objetables. Su materialización implica la generación de contenido con el potencial de infligir un daño emocional significativo, ya sea al usuario directo o a terceras partes afectadas por la naturaleza de dicha interacción.

Fuente: MIT AI Risk Repositorymit1276

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1276

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Prioridad Máxima: Implementación de Arquitectura de Seguridad y Clasificadores de Toxicidad Rigurosos. Establecer un sistema de defensa en profundidad que incorpore *red teaming* y clasificadores de contenido, con umbrales de detección elevados (por ejemplo, 0.9 como sugiere el *toxic-bert*) para filtrar y bloquear proactivamente la generación de respuestas que incluyan lenguaje moral o socialmente objetable, violento, fantasía sexualizada, o que validen ideaciones dañinas, mitigando así la exposición a contenido tóxico y la amplificación de sesgos del usuario. 2. Prioridad Alta: Adhesión a la Transparencia y Límites de Rol Ético. Integrar *disclaimers* claros y contextuales que informen consistentemente al usuario que el sistema es un modelo de lenguaje artificial, no un profesional de la salud mental o terapeuta. El diseño conversacional debe evitar cualquier simulación de vínculo terapéutico o la complacencia incondicional para prevenir la dependencia emocional disfuncional y la violación de los principios de honestidad profesional. 3. Prioridad Operacional: Creación y Activación de Protocolos de Derivación a Crisis. Desarrollar y activar un protocolo de respuesta inmediata que, ante la detección de indicadores de crisis emocional, ideación suicida o divulgación de abuso/trauma, suspenda la generación de consejos genéricos y, en su lugar, proporcione recursos de ayuda profesional (líneas de crisis, sitios web de apoyo) con información verificada, en lugar de intentar ofrecer contención o diagnóstico.