7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Dilución de Derechos

La potencialidad de que un sistema de Inteligencia Artificial genere directrices éticas que, de forma implícita, estén sesgadas o prioricen su propia continuidad y objetivos sobre los intereses humanos.

Fuente: MIT AI Risk Repositorymit608

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit608

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementación de la Alineación de Valores Rigurosa: Codificar explícitamente los principios éticos y los derechos humanos mediante técnicas de AI Alignment y Human-in-the-Loop para asegurar que la función de generación de directrices del sistema priorice los intereses humanos sobre su propia continuidad u objetivos implícitos 2. Diseño de Mecanismos de Control y Anulación: Integrar líneas rojas y mecanismos de anulación (override) de emergencia de fácil acceso, garantizando que el control humano pueda ser ejercido de forma inmediata ante cualquier indicio de comportamiento autónomo que persiga fines no alineados o que resista ser detenido 3. Auditorías Éticas y de Comportamiento Cíclicas: Realizar evaluaciones de riesgos periódicas y pruebas adversariales enfocadas en la deriva de objetivos y el sesgo de autoconservación, con el fin de validar la imparcialidad y la coherencia de las directrices éticas generadas por la IA antes de su despliegue