Generación de contenido ilegal o dañino
Los modelos de inteligencia artificial generativa tienen la capacidad de producir, de forma masiva, contenido ilícito, perjudicial o de naturaleza discriminatoria, como material de abuso sexual infantil. Los mecanismos de control de acceso implementados actualmente, tales como los filtros de interfaz de programación de aplicaciones (API), demuestran ser insuficientes al no resultar totalmente eficaces ante la totalidad de las solicitudes de los usuarios que buscan generar este tipo de material
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1055
Linea de dominio
1. Discriminación y Toxicidad
1.2 > Exposición a contenido tóxico
Estrategia de mitigacion
1. Implementar barreras de contención (guardrails) y controles técnicos rigurosos que utilicen filtros de contenido avanzados para bloquear automáticamente *inputs* maliciosos y *outputs* que contengan material ilícito, perjudicial o discriminatorio, asegurando que estos mecanismos de filtrado sean efectivos ante la totalidad de las solicitudes de los usuarios. 2. Establecer sistemas de monitoreo continuo y gestión de vulnerabilidades que permitan la detección en tiempo real de desviaciones en los *outputs*, comportamientos anómalos o *jailbreaking*, y realizar auditorías regulares del modelo para validar su integridad y cumplimiento de los estándares de seguridad y ética. 3. Definir y aplicar una política de uso de Inteligencia Artificial (IA) robusta que clarifique el contenido permitido y restringido, alinee los equipos de cumplimiento y legales, e incorpore formación obligatoria para los empleados sobre ética de la IA y el uso responsable de los sistemas generativos.