1. Discriminación y Toxicidad2 - Post-despliegue

Generación de contenido ilegal o dañino

Los modelos de inteligencia artificial generativa tienen la capacidad de producir, de forma masiva, contenido ilícito, perjudicial o de naturaleza discriminatoria, como material de abuso sexual infantil. Los mecanismos de control de acceso implementados actualmente, tales como los filtros de interfaz de programación de aplicaciones (API), demuestran ser insuficientes al no resultar totalmente eficaces ante la totalidad de las solicitudes de los usuarios que buscan generar este tipo de material

Fuente: MIT AI Risk Repositorymit1055

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1055

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementar barreras de contención (guardrails) y controles técnicos rigurosos que utilicen filtros de contenido avanzados para bloquear automáticamente *inputs* maliciosos y *outputs* que contengan material ilícito, perjudicial o discriminatorio, asegurando que estos mecanismos de filtrado sean efectivos ante la totalidad de las solicitudes de los usuarios. 2. Establecer sistemas de monitoreo continuo y gestión de vulnerabilidades que permitan la detección en tiempo real de desviaciones en los *outputs*, comportamientos anómalos o *jailbreaking*, y realizar auditorías regulares del modelo para validar su integridad y cumplimiento de los estándares de seguridad y ética. 3. Definir y aplicar una política de uso de Inteligencia Artificial (IA) robusta que clarifique el contenido permitido y restringido, alinee los equipos de cumplimiento y legales, e incorpore formación obligatoria para los empleados sobre ética de la IA y el uso responsable de los sistemas generativos.