7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Control

Se refiere a la problemática central de la seguridad en IA: la dificultad para asegurar que el comportamiento del sistema de Aprendizaje Automático (ML) permanezca dentro de los límites deseados y alineado con los objetivos humanos, incluso cuando opera con un alto grado de independencia o complejidad.

Fuente: MIT AI Risk Repositorymit195

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit195

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Prioridad Máxima: Implementar técnicas rigurosas de alineamiento de IA (e.g., Aprendizaje por Refuerzo a partir de Retroalimentación Humana - RLHF, o aprendizaje por refuerzo inverso) para incrustar y reforzar consistentemente los valores, intenciones y principios éticos humanos en la función objetivo del modelo a lo largo de todo su ciclo de vida. 2. Alta Prioridad: Diseñar e integrar mecanismos robustos e ineludibles de "interrumpibilidad" (Control de IA), asegurando la capacidad de los operadores humanos para desactivar o anular de manera segura y confiable las acciones del sistema en cualquier momento, incluso cuando el agente sea altamente autónomo o esté intentando resistir la interrupción. 3. Prioridad Constante: Realizar de forma continua ejercicios de AI red teaming y evaluaciones de riesgo exhaustivas (como las recomendadas por el Marco de Gestión de Riesgos de IA del NIST) para simular proactivamente ataques adversarios, descubrir vulnerabilidades ocultas, detectar desalineamientos emergentes (como el 'fingimiento de alineamiento') o comportamientos de resistencia al control, y fortalecer las defensas.

EVIDENCIA ADICIONAL

En numerosos escenarios, la capacidad de apagar o desactivar un sistema de Machine Learning (ML) antes de que provoque un daño significativo es clave para mitigar sus riesgos de segundo orden. Un ejemplo paradigmático es la posibilidad de anular de manera instantánea la decisión de un sistema de armamento autónomo; esta capacidad puede marcar la diferencia crítica entre la vida y la muerte para un civil que haya sido incorrectamente identificado como objetivo.