2. Privacidad y Seguridad1 - Pre-despliegue

Vulnerabilidad a Envenenamiento y Puertas Traseras

Tras examinar cómo las instrucciones malintencionadas (los llamados jailbreaks o prompts adversarios) logran activar capacidades perjudiciales que el modelo ya posee por su preentrenamiento, nos centramos ahora en un método distinto: los ataques de envenenamiento (Biggio et al., 2012). A diferencia de los anteriores, estos ataques sí modifican los datos de entrenamiento para introducir intencionalmente vulnerabilidades específicas, denominadas puertas traseras o backdoors, las cuales un atacante puede explotar más tarde, cuando el modelo ya está operativo (en el momento de la inferencia). Este es un desafío particularmente grave para los modelos de lenguaje grandes (LLMs) contemporáneos, dada su dependencia de vastos conjuntos de datos obtenidos de fuentes intrínsecamente no confiables, como Internet. Esta arquitectura facilita enormemente la inyección de datos corrompidos por parte de un adversario (Carlini et al., 2023b).

Fuente: MIT AI Risk Repositorymit1361

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit1361

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

- Implementación de un riguroso proceso de gobernanza y curación de datos de entrenamiento (Data Governance), priorizando la auditoría de procedencia (data provenance) para identificar y filtrar exhaustivamente las fuentes no confiables o con potencial de envenenamiento, mitigando la raíz del riesgo en la fase de pre-despliegue. - Desarrollo e implementación de métodos de entrenamiento robustos contra el envenenamiento (e.g., técnicas de sanitización de datos o entrenamiento adversarial) que minimicen la capacidad de los datos corrompidos para insertar vulnerabilidades específicas en la arquitectura del modelo final. - Establecimiento de mecanismos de detección de puertas traseras (backdoor detection) y monitoreo continuo de la inferencia, aplicando análisis de atribución (attribution analysis) y detección de anomalías en el comportamiento del modelo durante la fase operativa para identificar patrones de activación maliciosos.