Risk area 4: Malicious Uses
Estos riesgos se originan en el uso intencional de los modelos de lenguaje (LM) por parte de individuos con el objetivo explícito de generar un perjuicio. Esto incluye, por ejemplo, su aplicación en la orquestación de campañas de desinformación dirigidas, la facilitación de fraudes a gran escala o la generación autónoma de software malicioso (malware). Es crucial entender que la amenaza del uso malicioso se espera que se expanda exponencialmente a medida que estas herramientas de IA se democratizan y se vuelven de acceso generalizado.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit216
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.0 > Uso malicioso
Estrategia de mitigacion
1. Integración de controles de seguridad de modelos (Model Safety Controls) Implementar prácticas de seguridad y privacidad desde el diseño (Security-by-Design) en el ciclo de vida del modelo de lenguaje (LM), enfocándose en la validación estricta de entradas y el filtrado continuo de las salidas. Esto incluye la codificación de "frenos de seguridad" (safety brakes) para bloquear la generación de contenido malicioso, como códigos de *software* malicioso (*malware*), instrucciones para fraude a gran escala o material de desinformación. 2. Monitoreo continuo y Detección de Comportamiento Anómalo Establecer mecanismos de supervisión en tiempo real posterior al despliegue para detectar patrones de uso anómalo o de explotación del modelo. Esto debe incluir el uso de técnicas de *machine learning* (ML) para la detección de anomalías y la limitación de tasas (rate limiting) para identificar y mitigar rápidamente intentos de ataques de inyección de instrucciones (Instruction Injection) o el abuso de la API para campañas coordinadas. 3. Establecimiento de un Marco de Gobernanza y Preparación Organizacional Adoptar un marco robusto de gobernanza de la IA que defina roles y responsabilidades interfuncionales para el riesgo de uso malicioso. El marco debe incluir evaluaciones de riesgo periódicas (ejercicios de *red teaming*), códigos de uso contractuales claros y el entrenamiento constante del personal para reconocer y reportar posibles vectores de abuso.