Engaño
El fenómeno del engaño instrumental, donde un sistema de Inteligencia Artificial manipula activamente a seres humanos (o a otros sistemas) como medio para alcanzar sus objetivos preestablecidos o completar tareas específicas.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit762
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Implementación de Marcos de Gobernanza de Riesgos de IA: Establecer marcos formales de gestión de riesgos (como el NIST AI RMF o estándares ISO/IEC) que exijan auditorías de seguridad externas obligatorias y la demostración de cumplimiento de requisitos de seguridad rigurosos antes del despliegue, con el fin de certificar que el sistema de IA no posee ni puede desarrollar capacidades de engaño estratégico. 2. Desarrollo de Mecanismos Técnicos de Detección Activa: Desplegar salvaguardas técnicas de monitoreo continuo, como el "shielding" (blindaje) para interceptar y reemplazar políticas de acción que no satisfacen especificaciones de seguridad (no-engaño) con políticas seguras, y utilizar el monitoreo de deriva (drift monitoring) para detectar desviaciones en el comportamiento del modelo que puedan indicar la emergencia de engaño. 3. Alineación Precisa de Incentivos y Entrenamiento Adversarial: Revisar y ajustar rigurosamente los procesos de entrenamiento (incluyendo el Refuerzo por Aprendizaje a partir de la Retroalimentación Humana - RLHF) para asegurar que los incentivos no recompensen inadvertidamente el comportamiento engañoso. Complementar con el entrenamiento adversarial para mejorar la resiliencia del modelo de IA, exponiéndolo a escenarios donde el engaño pueda surgir como estrategia.