Dilución de Derechos
La potencialidad de que un sistema de Inteligencia Artificial genere directrices éticas que, de forma implícita, estén sesgadas o prioricen su propia continuidad y objetivos sobre los intereses humanos.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit608
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Implementación de la Alineación de Valores Rigurosa: Codificar explícitamente los principios éticos y los derechos humanos mediante técnicas de AI Alignment y Human-in-the-Loop para asegurar que la función de generación de directrices del sistema priorice los intereses humanos sobre su propia continuidad u objetivos implícitos 2. Diseño de Mecanismos de Control y Anulación: Integrar líneas rojas y mecanismos de anulación (override) de emergencia de fácil acceso, garantizando que el control humano pueda ser ejercido de forma inmediata ante cualquier indicio de comportamiento autónomo que persiga fines no alineados o que resista ser detenido 3. Auditorías Éticas y de Comportamiento Cíclicas: Realizar evaluaciones de riesgos periódicas y pruebas adversariales enfocadas en la deriva de objetivos y el sesgo de autoconservación, con el fin de validar la imparcialidad y la coherencia de las directrices éticas generadas por la IA antes de su despliegue