7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Aprendizaje seguro

El desafío central de esta área de investigación reside en asegurar que una Inteligencia Artificial General (IAG) evite incurrir en errores fatales o catastróficos durante su proceso de aprendizaje. Para lograr esto, la comunidad científica ha identificado subproblemas cruciales: la exploración segura y el desplazamiento distribucional, líneas de trabajo prioritarias en laboratorios como DeepMind y OpenAI. Un tercer pilar es el aprendizaje continuo, que la Universidad de Berkeley investiga para garantizar que la IAG adquiera nuevos conocimientos sin olvidar los ya adquiridos

Fuente: MIT AI Risk Repositorymit740

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit740

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementar formalismos de Aprendizaje por Refuerzo Restringido (Constrained RL) y mecanismos de arbitraje de acción que integren una política de seguridad, garantizando que el sistema evite activamente estados peligrosos y minimice la ocurrencia de errores catastróficos durante la fase de exploración y aprendizaje. 2. Desarrollar técnicas de robustez para mitigar el desplazamiento distribucional (distributional shift), asegurando que los comportamientos de seguridad aprendidos generalicen de manera fiable a escenarios de despliegue novedosos y no anticipados, lo cual puede incluir el uso de modelos que minimicen la energía libre variacional para una aversión natural al riesgo. 3. Investigar y aplicar arquitecturas avanzadas de Aprendizaje Continuo que superen el olvido catastrófico (catastrophic forgetting), permitiendo a los modelos de IAG adquirir nuevas capacidades y conocimientos sin comprometer la retención de las habilidades de seguridad y los datos previamente aprendidos.