7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Robustez

La evaluación de robustez examina la calidad, estabilidad y fiabilidad de los grandes modelos de lenguaje (LLM) ante *inputs* inesperados, no representados en el entrenamiento, o incluso diseñados para forzar el fallo (adversarios). Este análisis es crucial para garantizar que el LLM sea apto para su uso en el mundo real, al medir su capacidad de resiliencia frente a diversas perturbaciones o errores.

Fuente: MIT AI Risk Repositorymit616

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

3 - Otro

ID del riesgo

mit616

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Priorizar la implementación de un framework de evaluación robusta que incluya pruebas sistemáticas contra perturbaciones en los inputs (adversarios y fuera de distribución - OOD) y ataques maliciosos (ej. prompt injection, jailbreaking), empleando benchmarks estandarizados y entornos de simulación controlados para cuantificar la resiliencia del modelo. 2. Integrar mecanismos de defensa activos en el entorno de producción, tales como el filtrado dinámico de inputs y la activación de guardrails de seguridad, con el objetivo de mitigar en tiempo real la degradación del rendimiento del LLM causada por la variación, deriva o intención adversaria de los datos de entrada. 3. Establecer un proceso de monitorización continua y retroalimentación iterativa (feedback loop) para identificar y caracterizar tendencias en el fallo o drift del rendimiento. La data de estos fallos debe ser utilizada en ciclos de curación de datos y reentrenamiento estratégico para asegurar la adaptabilidad y estabilidad a largo plazo del modelo.