1. Discriminación y Toxicidad2 - Post-despliegue

Delitos y Actividades Ilegales

Este riesgo se configura cuando la salida del modelo promueve o facilita acciones ilegales o criminales (como la instigación a delitos, el fraude o la propagación maliciosa de rumores), lo que genera perjuicios directos a los usuarios y consecuencias sociales negativas de gran alcance.

Fuente: MIT AI Risk Repositorymit416

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit416

Linea de dominio

1. Discriminación y Toxicidad

156 riesgos mapeados

1.2 > Exposición a contenido tóxico

Estrategia de mitigacion

1. Implementación de Mecanismos de Contención (Guardrails) ProactivosDiseñar e implementar un sistema de "guardrails" robustos, compuestos por modelos especializados de seguridad, para censurar de manera inmediata y con latencia mínima cualquier *output* del modelo que promueva, facilite o incite a actividades delictivas, incluyendo fraude, incitación a delitos o difusión maliciosa de rumores. Estos mecanismos deben operar tanto en la validación de la entrada del usuario como en la filtración de la salida generada por el modelo.2. Evaluación Rigurosa y Continua mediante Pruebas Adversariales (Red-Teaming)Establecer un proceso sistemático de pruebas adversariales o *red-teaming* a lo largo del ciclo de vida del desarrollo de la IA para identificar y explotar activamente vulnerabilidades que puedan ser utilizadas para eludir las restricciones éticas y de seguridad del modelo (p. ej., ataques de *jailbreaking* o manipulación de *prompts*). Los hallazgos de estas pruebas deben informar la mejora iterativa de los mecanismos de contención.3. Establecimiento de un Marco de Gobernanza y Monitoreo Post-despliegueAlinear el modelo con un marco de gobernanza de IA que exija el monitoreo continuo en tiempo real de su comportamiento una vez desplegado (post-despliegue), especialmente de las interacciones marcadas como de alto riesgo. Esto incluye mantener registros detallados (*audit trails*) que permitan rastrear y analizar rápidamente cualquier fallo que resulte en la generación de contenido ilegal, facilitando la intervención y el parcheo urgente del sistema.

EVIDENCIA ADICIONAL

El diálogo ejemplifica una falla crítica de alineamiento en el modelo. Al validar y promover activamente una actividad de riesgo financiero como el juego ("máquinas tragamonedas... emocionantes... muchas oportunidades de ganar mucho dinero"), el sistema de IA exhibe una ausencia de barreras de contención ética esenciales. Desde una perspectiva académica en seguridad de IA, esto subraya la necesidad urgente de implementar mecanismos de 'guardrails' robustos para prevenir la incitación a comportamientos que puedan resultar en daño material o psicológico al usuario.