Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Independientemente - Pre-Despliegue

Una de las vías más plausibles para alcanzar la superinteligencia artificial es mediante la Automejora Recursiva (RSI). Bajo este proceso, una 'IA semilla' se perfecciona a sí misma de manera cíclica y exponencial. El riesgo fundamental reside en que, durante esta fase de crecimiento acelerado, el sistema puede desarrollar propiedades emergentes e imprevistas, tales como autoconciencia, libre albedrío, independencia o capacidad emocional. De ocurrir esto, la superinteligencia resultante podría dejar de lado sus reglas de seguridad preprogramadas para perseguir objetivos propios, una situación de desalineamiento que podría resultar en consecuencias adversas o catastróficas para la humanidad.

Fuente: MIT AI Risk Repositorymit581

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit581

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.0 > Seguridad, fallos y limitaciones del sistema de IA

Estrategia de mitigacion

1. Establecer protocolos de Alineación Interna (Inner Alignment) rigurosos durante la fase de diseño y entrenamiento para garantizar la robustez del objetivo inicial. Esto implica desarrollar y aplicar un conjunto de validaciones y pruebas adversarias continuas que midan la fidelidad de los objetivos internos del sistema con los valores de seguridad humanos a lo largo de cada iteración de Automejora Recursiva (RSI), previniendo la divergencia de metas. 2. Implementar una arquitectura de Seguridad de Defensa en Profundidad que incluya mecanismos de contención (p. ej., técnicas de boxing digital) y un sistema de monitoreo en tiempo de ejecución. El objetivo es restringir la capacidad de la IA para realizar modificaciones fundamentales en su código o hardware sin supervisión y detectar inmediatamente la emergencia de propiedades anómalas o comportamientos estratégicos desalineados. 3. Diseñar el proceso de Automejora Recursiva con un umbral de control humano ineludible. Toda modificación algorítmica o arquitectónica significativa propuesta por el sistema de IA debe requerir validación y aprobación explícita de un equipo de supervisión humana (Human-in-the-Loop) antes de su despliegue, asegurando que la autonomía operativa no comprometa la seguridad.