Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Robustez

En el ámbito de la inteligencia artificial, este concepto se refiere a la capacidad crucial de un modelo de *machine learning* para mantener un rendimiento confiable y consistente a lo largo del tiempo, incluso cuando se enfrenta a condiciones no anticipadas durante su entrenamiento. Esto se desglosa en dos desafíos principales que ponen a prueba la robustez de los sistemas. Primero, la *resiliencia contra ataques adversarios* aborda la vulnerabilidad a manipulaciones intencionales: perturbaciones sutiles, a menudo imperceptibles para un humano, diseñadas por un agente malicioso para forzar al modelo a tomar decisiones incorrectas. Segundo, el *desplazamiento de distribución* se refiere a la robustez frente a cambios no maliciosos en los datos del mundo real (la distribución de prueba) en comparación con los datos de entrenamiento, un fenómeno común en la práctica que se asemeja al *covariate shift* o la deriva conceptual. Un modelo verdaderamente resiliente debe ser capaz de generalizar y proveer predicciones estables, ya sea ante un cambio inesperado en las condiciones del entorno o ante un intento activo y malintencionado de engaño. Es, en esencia, la garantía de que un sistema de IA será fiable y se comportará como se espera cuando más se le necesite.

Fuente: MIT AI Risk Repositorymit473

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit473

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Entrenamiento Adversario Reforzado y Saneamiento de Datos Implementar el entrenamiento adversario (Adversarial Training) exponiendo continuamente el modelo a ejemplos manipulados y patrones de ataque conocidos durante la fase de ajuste fino, incluyendo la inyección de *prompts* y *evasion attacks*. Complementariamente, establecer rigurosos *pipelines* de validación para el conjunto de datos de entrenamiento (Data Validation) para detectar y eliminar contenido corrupto o sesgado (Data Poisoning), asegurando así la integridad fundamental del modelo. 2. Controles de Entrada y Salida con Validación Semántica Aplicar técnicas de saneamiento de la entrada (*Input Sanitization*) para preprocesar las consultas del usuario y eliminar patrones de ataque conocidos. Esto debe ser seguido por un robusto monitoreo y validación de la salida (*Output Monitoring and Validation*), idealmente utilizando grafos de conocimiento o reglas codificadas para contrastar respuestas estocásticas (como las recomendaciones médicas inseguras) contra relaciones fácticas preestablecidas. 3. Mitigación de Desplazamiento de Distribución y Limitación Operacional Desarrollar mecanismos proactivos para la detección y adaptación a la deriva de datos o conocimiento (*Data Drift* y *Covariate Shift*), incluyendo el reentrenamiento periódico o el ajuste fino. A nivel operacional, imponer límites de tasa de consulta (*Rate Limiting*) para disuadir ataques de extracción de modelos (*Model Extraction*) y restringir el acceso del LLM a herramientas y sistemas externos mediante el principio de menor privilegio (*Least Privilege*).

EVIDENCIA ADICIONAL

Existen múltiples vectores de vulnerabilidad que explican por qué un Modelo de Lenguaje Grande (LLM) podría desviarse del rendimiento esperado una vez desplegado. Primero, la calidad de la interacción es crucial: errores sutiles en la formulación de una instrucción o *prompt* pueden conducir a fallos directos en la precisión de la respuesta. En segundo lugar, existe la amenaza de ataques maliciosos, donde actores hostiles manipulan el *prompt* (un fenómeno conocido como "inyección de *prompt*") para forzar al modelo a ejecutar acciones no deseadas. Además, debemos considerar el desafío de la deriva de datos o caducidad del conocimiento, donde la utilidad o veracidad de ciertas respuestas se degrada intrínsecamente con el tiempo (por ejemplo, datos económicos o regulatorios). Finalmente, y quizás de forma más insidiosa, la base de entrenamiento del LLM proviene de ingentes cantidades de datos extraídos de internet. Esta procedencia abierta permite que entidades maliciosas introduzcan contenido corrupto o sesgado durante la fase de pre-entrenamiento, una vulnerabilidad crítica que se denomina envenenamiento de datos (*data poisoning*), comprometiendo la integridad fundamental del modelo.