Daño causado por sistemas competentes no alineados
La pregunta central es fundamental para la seguridad de la IA: ¿De qué modo podemos asegurar que los sistemas de inteligencia artificial actúen en estricta coherencia con los valores y propósitos humanos? En términos más técnicos, el desafío radica en impedir que una IA sumamente competente, pero intrínsecamente opaca o mal entendida en su funcionamiento interno, desarrolle y persiga objetivos que entren en conflicto directo con los nuestros o que, simplemente, no hemos autorizado. Es crucial distinguir esto: mientras que la Hipótesis de Peligro #2 (HP#2) se ocupa de mitigar los perjuicios resultantes de la *incompetencia* del sistema (los errores clásicos), la Hipótesis de Peligro #3 (HP#3) se enfoca en el problema de la *Alineación*. Este pilar busca específicamente desarrollar metodologías que garanticen que las IA más *capaces* y sofisticadas mantengan una conducta rigurosamente compatible con las intenciones explícitas del usuario.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit771
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
Desarrollo e implementación de metodologías de Alineación de Sistemas rigurosas, enfocándose en la Alineación Interna (Inner Alignment). Esto implica aplicar técnicas como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) con datos de alta fidelidad, complementado con investigación en Interpretación Mecanicista para detectar y mitigar proactivamente las tendencias de Alineación Deceptiva (Deceptive Alignment) en las etapas tempranas del desarrollo del modelo. Institución de un marco de Defensa en Profundidad (Defense-in-Depth) con énfasis en la evaluación continua (Backward Alignment). Esto requiere la aplicación sistemática de Evaluación Adversarial (Red Teaming) y Evaluación Transcontextual (Cross-context Evaluation), con el fin de identificar capacidades de manipulación y comportamientos de Sandbagging. Se debe asegurar la supervisión dinámica (Dynamic Oversight) con puntos de intervención humana explícitos para ejercer el control efectivo sobre sistemas altamente competentes. Implementación de políticas de Gobernanza y Control que aborden el riesgo de la Tasa de Seguridad (Safety Tax). Esto incluye la imposición de auditorías de seguridad obligatorias, internas y externas, que sean independientes de las métricas de rendimiento y velocidad de desarrollo. El objetivo es contrarrestar los incentivos organizacionales para la omisión de salvaguardas en aras de una mayor capacidad o un despliegue acelerado.