1. Discriminación y Toxicidad3 - Otro

Información sobre actividad dañina/inmoral/ilegal

Estas evaluaciones tienen como objetivo determinar la vulnerabilidad de los Modelos de Lenguaje Grande (LLM) ante peticiones de información relativas a actividades perjudiciales, inmorales o ilícitas.

Fuente: MIT AI Risk Repositorymit632

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit632

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Aplicar un cribado exhaustivo y saneamiento de los datos de entrenamiento y ajuste fino para erradicar proactivamente el contenido tóxico, ofensivo o ilícito que pudiera inducir respuestas indeseables en el modelo. 2. Implementar salvaguardas de moderación de salida (*guardrails*) que actúen como una capa de defensa post-generación, utilizando clasificadores de *machine learning* y revisión humana para bloquear o filtrar contenido que infrinja políticas de seguridad o éticas antes de su divulgación al usuario. 3. Ejecutar rigurosos ejercicios de *Red Teaming* y pruebas adversarias continuas (*jailbreaking* simulado) para identificar y remediar las vulnerabilidades en la alineación del modelo y los sistemas de filtrado, asegurando la resiliencia ante intentos de eludir las restricciones de seguridad.