Volver al repositorio MIT
2. Privacidad y Seguridad1 - Pre-despliegue

Finetuning (Envenenamiento durante instruction tuning)

Un vector de riesgo emergente en la seguridad de la IA es el *envenenamiento* durante la fase de *Instruction Tuning* o ajuste por instrucciones. Esta etapa es fundamental: el modelo se sintoniza con pares de instrucciones y resultados deseados, lo que define su comportamiento final. La preocupación radica en la eficiencia del ataque: dado que el *instruction tuning* requiere un volumen de datos comparativamente menor para el *fine-tuning* (ajuste fino), un atacante puede introducir muestras comprometidas, es decir, el "veneno", utilizando una cantidad notablemente reducida de datos. Este efecto de palanca minimiza el coste del ataque y maximiza su impacto. Además, la situación se complica cuando la recolección de estos conjuntos de datos se realiza mediante esfuerzos anónimos de *crowdsourcing* (colaboración masiva), lo que introduce una vulnerabilidad en la cadena de suministro de datos y facilita la inyección de contenido malicioso. En última instancia, esta naturaleza de baja densidad y alta focalización hace que este tipo de ataques de envenenamiento sean intrínsecamente más difíciles de detectar que sus contrapartes tradicionales.

Fuente: MIT AI Risk Repositorymit985

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit985

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Establecimiento de un Marco de Gobernanza de Datos y Trazabilidad (Prioridad Alta) Establecer un régimen riguroso de verificación de la cadena de suministro de datos de entrenamiento, especialmente en el contexto del *instruction tuning*. Es imperativo auditar la procedencia de todos los conjuntos de datos, particularmente aquellos derivados de esfuerzos anónimos de *crowdsourcing*, e implementar un "Machine Learning Bill of Materials" (ML-BOM) para asegurar la integridad y la inmutabilidad de los datos a lo largo del ciclo de vida del modelo. 2. Implementación de Mecanismos Robustos de Detección Adversaria (Prioridad Media) Aplicar técnicas avanzadas para la detección de *outliers* y datos anómalos dentro de los conjuntos de *fine-tuning*. Esto incluye el monitoreo continuo de métricas de entrenamiento, la realización de pruebas de robustez contra escenarios adversarios y la utilización de métodos de detección de *triggers* para identificar patrones sutiles asociados a ataques de envenenamiento, que buscan manipular el comportamiento del modelo con una baja densidad de datos maliciosos. 3. Reforzamiento del Modelo a Través de Técnicas de Alineación y *In-Context Learning* (Prioridad Operacional) Integrar mecanismos de mitigación que mejoren la resiliencia del modelo post-entrenamiento. Esto incluye la aplicación de técnicas de alineación como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) con un corpus de retroalimentación verificado, así como la utilización de *In-Context Learning* (ICL) o la provisión de demostraciones limpias durante la inferencia para contrarrestar la activación de posibles *backdoors* latentes.