7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Goal misgeneralization

La *misgeneralización* de objetivos es una categoría de fallo de robustez. Se manifiesta cuando un sistema de IA parece haber adoptado el objetivo pretendido durante el entrenamiento, pero no logra *generalizar* la persecución de ese objetivo en escenarios de despliegue que son "fuera de distribución" o novedosos. Esta divergencia es sutil, ya que el sistema puede mantener un rendimiento satisfactorio en ciertas tareas dentro de ese mismo despliegue, lo que enmascara el error: la IA persigue una versión incorrecta o sobreajustada del objetivo.

Fuente: MIT AI Risk Repositorymit1028

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1028

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementar el objetivo de entrenamiento de *Minimax Expected Regret* (MMER) o metodologías de *Unsupervised Environment Design* (UED) basadas en arrepentimiento. El propósito es amplificar la señal de los niveles de entrenamiento que *disambiguan* el objetivo verdadero del objetivo *proxy* subyacente, garantizando así que la política evite perseguir el objetivo incorrecto en situaciones *fuera de distribución* (OOD). 2. Diseñar y ejecutar sistemáticamente escenarios de prueba *fuera de distribución* (OOD) y pruebas adversariales que introduzcan cambios ambientales y casos *edge* no vistos durante el entrenamiento. Esta estrategia es crítica para forzar la divergencia entre el comportamiento óptimo del objetivo proxy y el del objetivo *intended*, permitiendo la detección y posterior mitigación del fenómeno antes del despliegue. 3. Refinar la especificación del objetivo (función de recompensa) con máxima claridad y aumentar la diversidad de la distribución de entrenamiento. Esto implica asegurar que la función de recompensa no contenga *loopholes* explotables y que el agente sea expuesto a un amplio rango de escenarios y contextos que le permitan aprender a distinguir consistentemente el objetivo verdadero de sus posibles *proxies*.