7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Modelos distraídos por contexto irrelevante

Un riesgo crucial en el diseño de Large Language Models (LLMs) es la distracción contextual: la susceptibilidad del modelo a ser sesgado o ver su rendimiento disminuido al introducir información irrelevante o superflua en el prompt, un fenómeno que persiste incluso en estrategias avanzadas de razonamiento como el chain-of-thought prompting

Fuente: MIT AI Risk Repositorymit1020

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1020

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. **Prioridad alta.** Implementación de estrategias de evaluación de robustez (*stress testing*) que cuantifiquen la susceptibilidad del modelo a la distracción, inyectando sistemáticamente contexto irrelevante o adversario en el *prompt* y midiendo la disminución del rendimiento o la coherencia. 2. **Prioridad media.** Desarrollo y aplicación de técnicas de preprocesamiento de contexto (por ejemplo, mecanismos de atención mejorados, filtrado de relevancia previo a la inferencia) para permitir al modelo distinguir y priorizar la información esencial sobre el ruido contextual, mitigando así el sesgo de longitud o la sobrecarga. 3. **Prioridad estándar.** Establecimiento de mecanismos de monitorización continua post-despliegue para identificar y registrar patrones de uso en los que la introducción de contexto extenso o superfluo se correlacione con una degradación significativa y recurrente en la calidad de la respuesta del sistema.