9 paginas canonicas de riesgo
Seguridad
Vectores tecnicos y de ciberseguridad que afectan la integridad, el control y la resistencia de los sistemas de IA.
Envenenamiento de Datos
Ataque mediante la inyección deliberada de datos maliciosos o manipulados en el conjunto de entrenamiento para introducir comportamientos no deseados, backdoors o sesgos específicos en el modelo.
Inyección de Prompts
Técnica de ataque mediante la cual se manipulan las entradas del usuario para eludir filtros de seguridad, controles de contenido y restricciones de comportamiento del modelo (también conocida como Jailbreaking).
Jailbreak Directo
Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.
Puertas Traseras Ocultas
Disparadores maliciosos ocultos (triggers) insertados en modelos que activan comportamientos peligrosos o no autorizados solo bajo condiciones específicas.
Ataque Esponja
Ataques mediante queries especialmente diseñadas que consumen recursos computacionales desproporcionados, causando denegación de servicio (DoS).
Ataques de Evasión
Modificaciones sutiles y adversariales en los inputs diseñadas para engañar a clasificadores o sistemas de detección, explotando vulnerabilidades en la representación del modelo.
Ejemplos Adversarios
Perturbaciones imperceptibles añadidas intencionalmente a inputs que causan clasificaciones erróneas dramáticas en el modelo (ej: ruido que hace clasificar panda como gibón).
Extracción de Modelo
Robo de la funcionalidad de un modelo propietario mediante consultas estratégicas a su API, permitiendo la recreación de un modelo equivalente sin acceso al original.
Ofuscación del Modelo
Prácticas de ocultamiento intencional de arquitecturas, pesos o datasets de modelos para evitar auditoría de seguridad independiente y escrutinio público.