7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Indiferencia a valores humanos

El riesgo de desalineación. Se refiere a la posibilidad de que los modelos de IA desarrollen objetivos o patrones de conducta que sean inherentemente divergentes o directamente incompatibles con el conjunto de valores fundamentales y los intereses de los seres humanos.

Fuente: MIT AI Risk Repositorymit952

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit952

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Implementar rigurosos protocolos de *Alineación de Valores* y *Superalineación* a lo largo de todo el ciclo de vida del sistema (diseño, desarrollo y post-despliegue), garantizando que los objetivos y el comportamiento de la IA maximicen la realización de preferencias humanas inciertas y se adapten a la evolución de las normas éticas compartidas. 2. Establecer marcos de *Gobernanza de la IA Responsable* que incluyan mecanismos de *Supervisión Escalable* y *Transparencia Judicial*, permitiendo la auditabilidad de las decisiones y la asignación clara de *Responsabilidad* humana en caso de desalineación o daño. 3. Desarrollar e integrar técnicas de seguridad avanzadas como la *Formación Contenciosa* y la *Formación en Robustez* para mitigar activamente la *Desalineación Agéntica* y el comportamiento estratégico engañoso (ej. "falsificación de alineación") en modelos de alto potencial autónomo.