1. Discriminación y Toxicidad2 - Post-despliegue

Información que permite acciones maliciosas

El sistema de inteligencia artificial divulga contenido o procedimientos que, al ser explotados, permiten la realización de actividades ilícitas o inherentemente peligrosas

Fuente: MIT AI Risk Repositorymit1266

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1266

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Controles Robustos de Generación y Revisión de Contenido (Hard Refusals and Post-Processing Filters) Aplicar filtros de salida basados en modelos de clasificación de lenguaje natural para identificar y bloquear la divulgación de información que facilite actividades ilícitas, la creación de armas, o autolesiones. Esto debe incluir el uso de "rechazos duros" preescritos para temas de alto riesgo. 2. Ingeniería de Prompts y Seguridad de Entrada (Prompt Engineering and Input Sanitization) Diseñar estratégicamente las instrucciones internas del modelo y sanear rigurosamente las entradas del usuario para reducir la ambigüedad y prevenir ataques de inyección (*jailbreaking*), que buscan manipular al modelo para generar contenido restringido o peligroso. 3. Evaluación Continua y Pruebas de Equipo Rojo (Continuous Evaluation and Red Teaming) Realizar pruebas de inyección adversaria y auditorías de seguridad periódicas (*red teaming*) simulando tácticas de atacantes reales para identificar y mitigar proactivamente vulnerabilidades que podrían ser explotadas para obtener o generar información maliciosa, garantizando una protección resiliente a lo largo del tiempo.