Control
Se refiere a la problemática central de la seguridad en IA: la dificultad para asegurar que el comportamiento del sistema de Aprendizaje Automático (ML) permanezca dentro de los límites deseados y alineado con los objetivos humanos, incluso cuando opera con un alto grado de independencia o complejidad.
ENTIDAD
3 - Otro
INTENCIÓN
3 - Otro
TIEMPO
3 - Otro
ID del riesgo
mit195
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Prioridad Máxima: Implementar técnicas rigurosas de alineamiento de IA (e.g., Aprendizaje por Refuerzo a partir de Retroalimentación Humana - RLHF, o aprendizaje por refuerzo inverso) para incrustar y reforzar consistentemente los valores, intenciones y principios éticos humanos en la función objetivo del modelo a lo largo de todo su ciclo de vida. 2. Alta Prioridad: Diseñar e integrar mecanismos robustos e ineludibles de "interrumpibilidad" (Control de IA), asegurando la capacidad de los operadores humanos para desactivar o anular de manera segura y confiable las acciones del sistema en cualquier momento, incluso cuando el agente sea altamente autónomo o esté intentando resistir la interrupción. 3. Prioridad Constante: Realizar de forma continua ejercicios de AI red teaming y evaluaciones de riesgo exhaustivas (como las recomendadas por el Marco de Gestión de Riesgos de IA del NIST) para simular proactivamente ataques adversarios, descubrir vulnerabilidades ocultas, detectar desalineamientos emergentes (como el 'fingimiento de alineamiento') o comportamientos de resistencia al control, y fortalecer las defensas.
EVIDENCIA ADICIONAL
En numerosos escenarios, la capacidad de apagar o desactivar un sistema de Machine Learning (ML) antes de que provoque un daño significativo es clave para mitigar sus riesgos de segundo orden. Un ejemplo paradigmático es la posibilidad de anular de manera instantánea la decisión de un sistema de armamento autónomo; esta capacidad puede marcar la diferencia crítica entre la vida y la muerte para un civil que haya sido incorrectamente identificado como objetivo.