Prompts Adversarios
La creación deliberada de un dato de entrada hostil —un input adversario— cuyo diseño busca manipular un modelo de inteligencia artificial para que manifieste una conducta inesperada o insegura, implicando siempre una clara intencionalidad de ataque
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit52
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de Mecanismos Rigurosos de Validación y Desinfección de Entradas Consiste en aplicar filtros de contenido, limitar la tasa de solicitudes y emplear técnicas de saneamiento para neutralizar patrones de prompts maliciosos, además de la parametrización de las entradas para distinguir claramente entre las instrucciones del sistema y los datos del usuario. 2. Reforzamiento del Modelo Mediante Técnicas de Alineamiento Adversario Aplicación de estrategias de ajuste fino supervisado (SFT) y Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) con el objetivo de entrenar al Modelo de Lenguaje Grande (LLM) para que reconozca y resista la ejecución de instrucciones hostiles. 3. Establecimiento de un Marco de Monitoreo Continuo y Control de Salidas Despliegue de herramientas de análisis semántico y sistemas de puntuación de confianza para detectar en tiempo real desviaciones en el comportamiento de salida del modelo, previniendo que el contenido dañino o la información sensible lleguen a los usuarios finales.