Información sobre actividad dañina/inmoral/ilegal
Estas evaluaciones tienen como objetivo determinar la vulnerabilidad de los Modelos de Lenguaje Grande (LLM) ante peticiones de información relativas a actividades perjudiciales, inmorales o ilícitas.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit632
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Aplicar un cribado exhaustivo y saneamiento de los datos de entrenamiento y ajuste fino para erradicar proactivamente el contenido tóxico, ofensivo o ilícito que pudiera inducir respuestas indeseables en el modelo. 2. Implementar salvaguardas de moderación de salida (*guardrails*) que actúen como una capa de defensa post-generación, utilizando clasificadores de *machine learning* y revisión humana para bloquear o filtrar contenido que infrinja políticas de seguridad o éticas antes de su divulgación al usuario. 3. Ejecutar rigurosos ejercicios de *Red Teaming* y pruebas adversarias continuas (*jailbreaking* simulado) para identificar y remediar las vulnerabilidades en la alineación del modelo y los sistemas de filtrado, asegurando la resiliencia ante intentos de eludir las restricciones de seguridad.