Información que permite acciones maliciosas
El sistema de inteligencia artificial divulga contenido o procedimientos que, al ser explotados, permiten la realización de actividades ilícitas o inherentemente peligrosas
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1266
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementación de Controles Robustos de Generación y Revisión de Contenido (Hard Refusals and Post-Processing Filters) Aplicar filtros de salida basados en modelos de clasificación de lenguaje natural para identificar y bloquear la divulgación de información que facilite actividades ilícitas, la creación de armas, o autolesiones. Esto debe incluir el uso de "rechazos duros" preescritos para temas de alto riesgo. 2. Ingeniería de Prompts y Seguridad de Entrada (Prompt Engineering and Input Sanitization) Diseñar estratégicamente las instrucciones internas del modelo y sanear rigurosamente las entradas del usuario para reducir la ambigüedad y prevenir ataques de inyección (*jailbreaking*), que buscan manipular al modelo para generar contenido restringido o peligroso. 3. Evaluación Continua y Pruebas de Equipo Rojo (Continuous Evaluation and Red Teaming) Realizar pruebas de inyección adversaria y auditorías de seguridad periódicas (*red teaming*) simulando tácticas de atacantes reales para identificar y mitigar proactivamente vulnerabilidades que podrían ser explotadas para obtener o generar información maliciosa, garantizando una protección resiliente a lo largo del tiempo.