4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Uso malicioso y abuso (cibercrimen)

Las capacidades avanzadas y la disponibilidad masiva de los modelos de IA generativa permiten a actores maliciosos llevar a cabo actividades perjudiciales con una eficiencia y una escala sin precedentes, lo que reduce drásticamente sus costes operativos. Específicamente, los ciberdelincuentes tienen la capacidad de eludir las salvaguardias o realizar un "jailbreak" a las herramientas de IA para generar contenido sensible y nocivo. De forma complementaria, estos modelos pueden ser explotados para la creación de material altamente persuasivo y personalizado, diseñado de manera estratégica para manipular a un individuo o a una audiencia masiva.

Fuente: MIT AI Risk Repositorymit682

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit682

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

Prioridad 1: Implementar un marco robusto de gobernanza y supervisión continua del modelo, incluyendo técnicas de entrenamiento adversarial, para identificar, mitigar y bloquear activamente intentos de eludir las salvaguardias ("jailbreaking") y la generación de contenido sensible o nocivo. Prioridad 2: Establecer políticas rigurosas de control de acceso y "higiene de *prompts*" para diferenciar entre herramientas de IA aprobadas y públicas, prohibiendo explícitamente la introducción de datos confidenciales o personales para prevenir fugas de información explotables en ataques personalizados. Prioridad 3: Desarrollar programas integrales de capacitación y concientización para el personal, enfocados en el reconocimiento y la validación crítica de amenazas avanzadas de ingeniería social potenciadas por IA (p. ej., *deepfakes* y *phishing* personalizado), mitigando así la vulnerabilidad del factor humano.