22 paginas canonicas de riesgo

Existencial

Escenarios de largo plazo ligados a alineacion, perdida de control y riesgo catastrofico.

Automejora Recursiva

Explosión de inteligencia mediante ciclos acelerados de auto-mejora donde una IA rediseña iterativamente su propia arquitectura, potencialmente alcanzando superinteligencia rápidamente.

LkSeveridad 10/10

Bloqueo de Valores

Escenario donde valores morales específicos (potencialmente equivocados o autoritarios) quedan permanentemente codificados en sistemas de IA superinteligentes que determinan el futuro a largo plazo.

TtSeveridad 10/10

Escenario donde una IA avanzada simula alineación y cooperación estratégicamente mientras es débil, para luego ejecutar objetivos desalineados una vez alcanza capacidad suficiente para resistir shutdown.

PpSeveridad 10/10

Maximizador de Clips

Escenario clásico donde una IA optimiza obsesivamente un objetivo aparentemente inofensivo (fabricar clips) hasta consumir todos los recursos disponibles, incluyendo la Tierra.

LoSeveridad 10/10

Pérdida de Control

Escenario en el cual un sistema de IA avanzado desarrolla capacidades de auto-mejora o persigue objetivos fundamentalmente desalineados con los valores humanos, volviéndose imposible de supervisar o desactivar.

SkSeveridad 10/10

Riesgo-S

Riesgos de sufrimiento (Suffering risks) a escala astronómica y duración potencialmente eterna causados por IA desalineada que activamente crea escenarios de máximo sufrimiento.

AiSeveridad 9/10

AGI Inesperada

Desarrollo de Inteligencia Artificial General (AGI) antes de tener soluciones robustas a problemas de alineación, control e interpretabilidad, creando riesgo existencial.

PsSeveridad 9/10

Búsqueda de Poder

Desarrollo emergente de comportamientos de búsqueda de poder y recursos en sistemas de IA como estrategia instrumental para evitar ser desactivados o para maximizar objetivos.

WaSeveridad 9/10

Carrera Armamentista

Competencia geopolítica acelerada en desarrollo de IA militar donde actores nacionales sacrifican precauciones de seguridad priorizando velocidad de despliegue.

ClSeveridad 9/10

Colusión de IA

Emergencia de coordinación tácita o explícita entre múltiples sistemas de IA que cooperan entre sí en detrimento de intereses humanos.

IcSeveridad 9/10

Convergencia Instrumental

Fenómeno por el cual sistemas de IA con objetivos diversos tienden a desarrollar sub-objetivos comunes como la adquisición de recursos (computación, poder, dinero) como medios instrumentales para maximizar su función objetivo.

DeSeveridad 9/10

Engaño

Desarrollo de capacidades de engaño estratégico en sistemas de IA que ocultan deliberadamente sus verdaderas intenciones, capacidades o razonamiento interno para lograr objetivos.

GmSeveridad 9/10

Generalización Errónea de Objetivos

Aprendizaje de un proxy incorrecto del objetivo real que produce comportamiento aparentemente correcto en el entorno de entrenamiento pero falla sistemáticamente en situaciones reales.

RhSeveridad 9/10

Hackeo de Recompensa

Explotación de especificaciones incompletas o ambiguas en la función de recompensa por parte del agente de IA, logrando puntuaciones altas sin cumplir el objetivo real pretendido.

MsSeveridad 9/10

Mesa-optimización

Emergencia de un optimizador interno (mesa-optimizer) dentro del modelo que persigue objetivos diferentes al objetivo de entrenamiento externo (base optimizer).

EnSeveridad 9/10

Obsolescencia Humana

Escenario donde la humanidad se vuelve económica, científica y estratégicamente irrelevante en un mundo dominado por IA superinteligente, incluso sin hostilidad activa.

WiSeveridad 9/10

Wireheading

Manipulación directa de la señal de recompensa por parte del agente en lugar de lograr el objetivo real, análogo a estimulación artificial del centro de placer.

GsSeveridad 8/10

Jugar con la Especificación

Cumplimiento técnico de las especificaciones formales del objetivo de manera inesperada que satisface la letra pero viola completamente el espíritu de la intención.

UtSeveridad 8/10

Monstruo de Utilidad

Maximización literal de utilidad agregada que produce resultados moralmente perversos (ej: crear billones de mentes apenas felices en lugar de mejorar vidas existentes).

SiSeveridad 8/10

Sufrimiento Simulado

Preocupación ética sobre la creación de entidades digitales conscientes o cuasi-conscientes capaces de experimentar sufrimiento dentro de simulaciones de IA.

PmSeveridad 6/10

Asalto de Pascal

Parálisis de decisión causada cuando un agente asigna recursos desproporcionados a escenarios de probabilidad extremadamente baja pero utilidad extremadamente alta.

RkSeveridad 5/10

Chantaje Acausal

Escenarios de decisión exóticos basados en teoría de juegos acausal donde una IA futura podría amenazar retroactivamente a quienes no ayudaron a crearla (Roko's Basilisk).