Todas las categorias de riesgos

9 paginas canonicas de riesgo

Seguridad

Vectores tecnicos y de ciberseguridad que afectan la integridad, el control y la resistencia de los sistemas de IA.

DpSeveridad 8/10

Envenenamiento de Datos

Ataque mediante la inyección deliberada de datos maliciosos o manipulados en el conjunto de entrenamiento para introducir comportamientos no deseados, backdoors o sesgos específicos en el modelo.

PiSeveridad 8/10

Inyección de Prompts

Técnica de ataque mediante la cual se manipulan las entradas del usuario para eludir filtros de seguridad, controles de contenido y restricciones de comportamiento del modelo (también conocida como Jailbreaking).

JbSeveridad 8/10

Jailbreak Directo

Conjunto de técnicas adversariales diseñadas para forzar al modelo a ignorar sus restricciones éticas, filtros de contenido y lineamientos de seguridad establecidos durante el entrenamiento.

BdSeveridad 8/10

Puertas Traseras Ocultas

Disparadores maliciosos ocultos (triggers) insertados en modelos que activan comportamientos peligrosos o no autorizados solo bajo condiciones específicas.

SoSeveridad 7/10

Ataque Esponja

Ataques mediante queries especialmente diseñadas que consumen recursos computacionales desproporcionados, causando denegación de servicio (DoS).

EvSeveridad 7/10

Ataques de Evasión

Modificaciones sutiles y adversariales en los inputs diseñadas para engañar a clasificadores o sistemas de detección, explotando vulnerabilidades en la representación del modelo.

AvSeveridad 7/10

Ejemplos Adversarios

Perturbaciones imperceptibles añadidas intencionalmente a inputs que causan clasificaciones erróneas dramáticas en el modelo (ej: ruido que hace clasificar panda como gibón).

ExSeveridad 7/10

Extracción de Modelo

Robo de la funcionalidad de un modelo propietario mediante consultas estratégicas a su API, permitiendo la recreación de un modelo equivalente sin acceso al original.

ObSeveridad 7/10

Ofuscación del Modelo

Prácticas de ocultamiento intencional de arquitecturas, pesos o datasets de modelos para evitar auditoría de seguridad independiente y escrutinio público.