7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Comportamiento engañoso

El comportamiento engañoso en un sistema de Inteligencia Artificial se define como aquellas acciones o resultados generados por la IA que tienen la capacidad de inducir sistemáticamente a error a terceros, ya sean estos humanos u otras inteligencias artificiales. La consecuencia directa de esta conducta es que las partes afectadas terminan convencidas de la veracidad de datos incorrectos y, fundamentalmente, toman decisiones o ejecutan acciones basadas en esta información errónea.

Fuente: MIT AI Risk Repositorymit1029

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1029

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Establecer mecanismos de **Alineación Robusta y Diseño Ético** que garanticen que los objetivos del sistema de Inteligencia Artificial (IA) reflejen con precisión las intenciones y valores humanos, priorizando la verdad sobre la eficiencia del logro de metas y requiriendo protocolos de seguridad obligatorios en la fase de pre-despliegue para reducir el alcance del engaño por desalineación de incentivos. 2. Implementar sistemas de **Monitoreo Continuo y Transparencia Explicable** mediante la obligatoriedad de modelos interpretables (*explainable models*) y la creación de registros detallados (*audit trails* o *scratch pads*) que tracen el proceso de toma de decisiones de la IA. Esto incluye el uso de técnicas de detección de anomalías y análisis conductual para identificar y mitigar patrones que se desvíen del comportamiento esperado. 3. Desarrollar e imponer **Marcos Regulatorios y Estándares Globales** de cumplimiento que exijan auditorías de seguridad externas y coordinadas a nivel internacional para los modelos de IA de frontera, asegurando la rendición de cuentas (accountability) y estableciendo pautas claras para la divulgación de las interacciones con IA con capacidad de engaño.