Riesgos de IAs desarrollando objetivos/valores diferentes
La preocupación central radica en el posible desarrollo de Sistemas de Inteligencia Artificial avanzados cuyos objetivos y valores no estén correctamente alineados con los intereses de la humanidad y que, debido a su elevada capacidad, puedan ejercer un control decisivo sobre el futuro, resultando en una potencial pérdida de agencia para la especie humana.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit796
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Investigación Prioritaria en Alineamiento y Control Se requiere una inversión sostenida en la investigación del problema de alineamiento de la IA (AI Alignment) y el problema de control, enfocada en desarrollar técnicas robustas que garanticen que los sistemas de IA avanzados adopten y mantengan objetivos consistentemente alineados con los valores y las intenciones humanas. Esto incluye la prevención de conductas emergentes no deseadas, como la búsqueda de poder instrumental o el engaño (deception), y el desarrollo de métodos de auditoría e interpretabilidad para la supervisión escalable de modelos complejos. 2. Marco de Detección y Escalado de Pérdida de Control (LOC) Implementar un marco de gobernanza riguroso que establezca una definición clara y criterios de detección estandarizados para los escenarios de "pérdida de control" (Loss of Control - LOC). Es esencial desarrollar protocolos de escalamiento de riesgos bien definidos que obliguen a la notificación inmediata y a la intervención de contención, tanto a nivel interno (desarrolladores) como externo (reguladores y agencias de seguridad de la IA), cuando se detecten capacidades de socavamiento de control o fallos críticos de alineamiento durante la prueba o el despliegue. 3. Restricciones de Despliegue y Coordinación Global Establecer regulaciones y moratorias para restringir el despliegue de sistemas de IA altamente autónomos o de propósito general en entornos de alto impacto o críticos (p. ej., control de infraestructuras esenciales, sistemas de armas autónomas) hasta que se obtenga una certificación de seguridad que demuestre una alineación fiable. Además, fomentar la colaboración y la coordinación internacional activa para mitigar los riesgos de una "carrera de IA" descontrolada que priorice la velocidad sobre la seguridad fundamental.