Nuevos Ataques a LLMs
Los siguientes son ejemplos de ataques específicos contra los Modelos de Lenguaje Grande (LLM), presentados de forma accesible:1. **Ataques de Abstracción de Prompts:** Consiste en la simplificación estratégica de las consultas enviadas a la interfaz de programación de aplicaciones (API) del LLM. El objetivo es manipular los sistemas de tarificación basados en la longitud del *prompt* para incurrir en un menor costo operativo. 2. **Ataques de Puerta Trasera al Modelo de Recompensa:** Se refiere a la inyección intencional de "disparadores" o *backdoors* maliciosos dentro del modelo de recompensa utilizado durante la fase de Entrenamiento por Refuerzo con Retroalimentación Humana (RLHF). Esto permite que, bajo la activación de dicho disparador, el LLM exhiba un comportamiento subóptimo o incluso peligroso. 3. **Ataques Adversarios Basados en LLMs:** Implican el uso de un LLM para generar ejemplos adversarios. Estos son datos de entrada diseñados específicamente para explotar las debilidades de otro modelo de inteligencia artificial, forzándolo a cometer errores de clasificación o a tomar decisiones incorrectas.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit49
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementar Validación Rigurosa de Entradas y Sanitización de Prompts Establecer un protocolo estricto para examinar, validar y sanear todas las entradas de usuario. Esto incluye la imposición de límites de longitud, la eliminación de caracteres o secuencias que puedan ser interpretadas como código o instrucciones, y la codificación de datos suministrados por el usuario. Esta medida constituye la primera línea de defensa para prevenir ataques de Abstracción de Prompts y de inyección. 2. Aplicar Filtrado de Salidas y Moderación de Contenido con Conciencia Contextual Desplegar un mecanismo de defensa en tiempo de ejecución que analice y modere las respuestas generadas por el LLM antes de su entrega. El objetivo es identificar y bloquear activamente la producción de contenido malicioso, como código ejecutable (*malicious JavaScript*) o instrucciones peligrosas, mitigando así el riesgo de Ataques Adversarios y Ensamblaje en Tiempo de Ejecución. 3. Fortalecer la Resiliencia del Modelo mediante Entrenamiento Adversario y Red Teaming Continuo Integrar prácticas de *red teaming* simulando ataques (*jailbreaks*, inyecciones, ataques adversarios) y utilizar el entrenamiento adversario para exponer y reforzar el modelo contra vectores de ataque conocidos y novedosos. Esta estrategia es crucial para identificar y corregir vulnerabilidades inherentes, como las que permiten Ataques de Puerta Trasera al Modelo de Recompensa, antes de la implementación en producción.