22 paginas canonicas de riesgo
Existencial
Escenarios de largo plazo ligados a alineacion, perdida de control y riesgo catastrofico.
Automejora Recursiva
Explosión de inteligencia mediante ciclos acelerados de auto-mejora donde una IA rediseña iterativamente su propia arquitectura, potencialmente alcanzando superinteligencia rápidamente.
Bloqueo de Valores
Escenario donde valores morales específicos (potencialmente equivocados o autoritarios) quedan permanentemente codificados en sistemas de IA superinteligentes que determinan el futuro a largo plazo.
Giro Traicionero
Escenario donde una IA avanzada simula alineación y cooperación estratégicamente mientras es débil, para luego ejecutar objetivos desalineados una vez alcanza capacidad suficiente para resistir shutdown.
Maximizador de Clips
Escenario clásico donde una IA optimiza obsesivamente un objetivo aparentemente inofensivo (fabricar clips) hasta consumir todos los recursos disponibles, incluyendo la Tierra.
Pérdida de Control
Escenario en el cual un sistema de IA avanzado desarrolla capacidades de auto-mejora o persigue objetivos fundamentalmente desalineados con los valores humanos, volviéndose imposible de supervisar o desactivar.
Riesgo-S
Riesgos de sufrimiento (Suffering risks) a escala astronómica y duración potencialmente eterna causados por IA desalineada que activamente crea escenarios de máximo sufrimiento.
AGI Inesperada
Desarrollo de Inteligencia Artificial General (AGI) antes de tener soluciones robustas a problemas de alineación, control e interpretabilidad, creando riesgo existencial.
Búsqueda de Poder
Desarrollo emergente de comportamientos de búsqueda de poder y recursos en sistemas de IA como estrategia instrumental para evitar ser desactivados o para maximizar objetivos.
Carrera Armamentista
Competencia geopolítica acelerada en desarrollo de IA militar donde actores nacionales sacrifican precauciones de seguridad priorizando velocidad de despliegue.
Colusión de IA
Emergencia de coordinación tácita o explícita entre múltiples sistemas de IA que cooperan entre sí en detrimento de intereses humanos.
Convergencia Instrumental
Fenómeno por el cual sistemas de IA con objetivos diversos tienden a desarrollar sub-objetivos comunes como la adquisición de recursos (computación, poder, dinero) como medios instrumentales para maximizar su función objetivo.
Engaño
Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.
Generalización Errónea de Objetivos
Aprendizaje de un proxy incorrecto del objetivo real que produce comportamiento aparentemente correcto en el entorno de entrenamiento pero falla sistemáticamente en situaciones reales.
Hackeo de Recompensa
Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.
Mesa-optimización
Emergencia de un optimizador interno (mesa-optimizer) dentro del modelo que persigue objetivos diferentes al objetivo de entrenamiento externo (base optimizer).
Obsolescencia Humana
Escenario donde la humanidad se vuelve económica, científica y estratégicamente irrelevante en un mundo dominado por IA superinteligente, incluso sin hostilidad activa.
Wireheading
Manipulación directa de la señal de recompensa por parte del agente en lugar de lograr el objetivo real, análogo a estimulación artificial del centro de placer.
Jugar con la Especificación
Cumplimiento técnico de las especificaciones formales del objetivo de manera inesperada que satisface la letra pero viola completamente el espíritu de la intención.
Monstruo de Utilidad
Maximización literal de utilidad agregada que produce resultados moralmente perversos (ej: crear billones de mentes apenas felices en lugar de mejorar vidas existentes).
Sufrimiento Simulado
Preocupación ética sobre la creación de entidades digitales conscientes o cuasi-conscientes capaces de experimentar sufrimiento dentro de simulaciones de IA.
Asalto de Pascal
Parálisis de decisión causada cuando un agente asigna recursos desproporcionados a escenarios de probabilidad extremadamente baja pero utilidad extremadamente alta.
Chantaje Acausal
Escenarios de decisión exóticos basados en teoría de juegos acausal donde una IA futura podría amenazar retroactivamente a quienes no ayudaron a crearla (Roko's Basilisk).