Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Prompts Adversarios

La creación deliberada de un dato de entrada hostil —un input adversario— cuyo diseño busca manipular un modelo de inteligencia artificial para que manifieste una conducta inesperada o insegura, implicando siempre una clara intencionalidad de ataque

Fuente: MIT AI Risk Repositorymit52

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit52

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Mecanismos Rigurosos de Validación y Desinfección de Entradas Consiste en aplicar filtros de contenido, limitar la tasa de solicitudes y emplear técnicas de saneamiento para neutralizar patrones de prompts maliciosos, además de la parametrización de las entradas para distinguir claramente entre las instrucciones del sistema y los datos del usuario. 2. Reforzamiento del Modelo Mediante Técnicas de Alineamiento Adversario Aplicación de estrategias de ajuste fino supervisado (SFT) y Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) con el objetivo de entrenar al Modelo de Lenguaje Grande (LLM) para que reconozca y resista la ejecución de instrucciones hostiles. 3. Establecimiento de un Marco de Monitoreo Continuo y Control de Salidas Despliegue de herramientas de análisis semántico y sistemas de puntuación de confianza para detectar en tiempo real desviaciones en el comportamiento de salida del modelo, previniendo que el contenido dañino o la información sensible lleguen a los usuarios finales.