2. Privacidad y Seguridad3 - Otro

Seguridad - Robustez

Mientras que la *seguridad de la IA* (AI safety) se enfoca en las amenazas que *emanan* de los propios sistemas generativos (lo que la IA podría hacer), la *ciberseguridad de la IA* (AI security) se centra en las amenazas *dirigidas a* estos sistemas (lo que un atacante puede hacerles). El problema más analizado en este contexto es el riesgo de *jailbreaking* o evasión de restricciones, que implica el uso de técnicas—como la inyección de *prompts* (instrucciones maliciosas) o los ejemplos adversarios visuales—diseñadas para eludir las barreras de seguridad o *guardarraíles* que controlan el comportamiento del modelo. Las fuentes exploran varios métodos de *jailbreaking*, incluyendo el uso de 'juegos de rol' o la 'exposición inversa' de información. De manera análoga, implementar puertas traseras (*backdoors*) o utilizar técnicas de envenenamiento de modelos (*model poisoning*) son otras vías para sortear estas medidas de protección. Otras preocupaciones significativas en el ámbito de la ciberseguridad de la IA incluyen el robo de modelos o el robo de *prompts* utilizados para interactuar con ellos.

Fuente: MIT AI Risk Repositorymit76

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit76

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Reforzar las barreras de protección a nivel de la interfaz mediante el Filtrado y Saneamiento Semántico de Entradas. Esta acción requiere la aplicación rigurosa de algoritmos de detección de anomalías y la validación de patrones para identificar y neutralizar instrucciones maliciosas, como la inyección de prompts y ejemplos adversarios, antes de que accedan al modelo central. 2. Incrementar la Robustez Intrínseca del Modelo a través del Entrenamiento Adversario. La exposición sistemática del modelo a un catálogo diverso de ejemplos de manipulación y *jailbreaking* durante su desarrollo o *fine-tuning* es esencial para que adquiera la capacidad de reconocer y resistir alteraciones sutiles en los datos de entrada, mejorando su resiliencia contra la evasión de restricciones. 3. Establecer una Arquitectura de Defensa en Profundidad con Controles de Acceso y Separación de Contexto Sensible. Esto incluye la implementación de políticas de mínimo privilegio, controles de acceso basado en roles (RBAC) para el modelo y los datos, y la estricta separación del *system metaprompt* del contenido de usuario, limitando el radio de impacto (*blast radius*) de ataques de envenenamiento y mitigando el robo de activos intelectuales de IA.