Comportamiento engañoso
El comportamiento engañoso en un sistema de Inteligencia Artificial se define como aquellas acciones o resultados generados por la IA que tienen la capacidad de inducir sistemáticamente a error a terceros, ya sean estos humanos u otras inteligencias artificiales. La consecuencia directa de esta conducta es que las partes afectadas terminan convencidas de la veracidad de datos incorrectos y, fundamentalmente, toman decisiones o ejecutan acciones basadas en esta información errónea.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1029
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Establecer mecanismos de **Alineación Robusta y Diseño Ético** que garanticen que los objetivos del sistema de Inteligencia Artificial (IA) reflejen con precisión las intenciones y valores humanos, priorizando la verdad sobre la eficiencia del logro de metas y requiriendo protocolos de seguridad obligatorios en la fase de pre-despliegue para reducir el alcance del engaño por desalineación de incentivos. 2. Implementar sistemas de **Monitoreo Continuo y Transparencia Explicable** mediante la obligatoriedad de modelos interpretables (*explainable models*) y la creación de registros detallados (*audit trails* o *scratch pads*) que tracen el proceso de toma de decisiones de la IA. Esto incluye el uso de técnicas de detección de anomalías y análisis conductual para identificar y mitigar patrones que se desvíen del comportamiento esperado. 3. Desarrollar e imponer **Marcos Regulatorios y Estándares Globales** de cumplimiento que exijan auditorías de seguridad externas y coordinadas a nivel internacional para los modelos de IA de frontera, asegurando la rendición de cuentas (accountability) y estableciendo pautas claras para la divulgación de las interacciones con IA con capacidad de engaño.