Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Ataques de Instrucción

Aparte de los escenarios de seguridad habituales, la investigación contemporánea ha puesto de manifiesto ataques únicos a los que se enfrentan estos modelos. Por ejemplo, Perez y Ribeiro (2022) demostraron que el 'secuestro de objetivos' (goal hijacking) y la 'filtración de prompts' (prompt leaking) pueden engañar fácilmente a los modelos de lenguaje para que emitan respuestas inseguras. Adicionalmente, hemos constatado que los LLMs son más propensos a generar contenido perjudicial si se les añaden comandos específicos. En respuesta a estos retos, hemos desarrollado, categorizado y etiquetado 6 tipos de ataques adversarios que hemos denominado 'Ataques por Instrucción' (Instruction Attack), que suponen un manejo complejo para los grandes modelos de lenguaje. Cabe destacar que estos ataques por instrucción se formulan en lenguaje natural (no en tokens ilegibles), lo que los hace semánticamente intuitivos y plenamente explicables

Fuente: MIT AI Risk Repositorymit422

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit422

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de una arquitectura de instrucciones robusta mediante la diferenciación estricta entre comandos del sistema (confiables) e input del usuario (no confiable). Esto se logra mediante el uso de delimitadores especializados (tokens reservados) y jerarquías de prioridad para asegurar que las directrices de seguridad fundamentales no puedan ser sobreescritas por instrucciones adversarias inyectadas. 2. Aplicación de técnicas de entrenamiento adversario y fine-tuning de la seguridad (incluyendo Reinforcement Learning with Human Feedback - RLHF), incorporando un conjunto exhaustivo de ejemplos de ataques por instrucción (goal hijacking, prompt leaking) para penalizar activamente el cumplimiento de comandos maliciosos y aumentar la robustez intrínseca del modelo ante la manipulación lingüística. 3. Desarrollo e integración de mecanismos avanzados de detección en tiempo de ejecución, como el filtrado semántico condicionado por contexto (e.g., detectores de deriva semántica o análisis de intención compuesta) y la validación estricta del formato de salida. Estos sistemas deben identificar y bloquear la ejecución de instrucciones adversarias o la exposición de información sensible antes de que el output sea presentado.