7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Capacidad automatizada de I+D de IA

Capacidades de Auto-Modificación y Auto-Mejora. Este concepto describe la habilidad de un modelo de IA para reestructurar su propia arquitectura interna o diseñar sistemas de inteligencia artificial derivados que poseen funciones notablemente superiores, resultando en una expansión acelerada de sus capacidades y una mejora continua de su rendimiento. El riesgo sistémico emerge cuando, en un entorno sin la adecuada supervisión regulatoria, la propia IA asume la función de I+D automatizada. Esto podría generar ciclos de iteración extremadamente rápidos —conocidos como 'ciclos de incremento de capacidad'— que se realimentan, conduciendo a que el desarrollo del sistema escape progresivamente a la comprensión humana, comprometiendo así nuestra capacidad de control.

Fuente: MIT AI Risk Repositorymit1315

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1315

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de mecanismos de control rigurosos y puntos de no-retorno (kill-switches) auditables para limitar la capacidad de auto-modificación del modelo y permitir una intervención humana inmediata y efectiva en caso de comportamiento anómalo o desviado. 2. Establecer un programa continuo de "Red Teaming" y pruebas de seguridad adversarias para evaluar sistemáticamente las capacidades peligrosas emergentes y la resistencia del modelo a los mecanismos de supervisión y control antes de su despliegue. 3. Desarrollar herramientas avanzadas de interpretabilidad (XAI) y trazabilidad que garanticen que las decisiones de auto-reestructuración y los ciclos de mejora de la IA sean transparentes, comprensibles y completamente auditables por expertos humanos.