Capacidad de engaño
Describe la capacidad de un sistema para implementar una estrategia de engaño sistemático. Esto involucra la construcción meticulosa y la diseminación dirigida de información falsa, con el propósito de inducir o "modelar" con precisión cogniciones y creencias erróneas específicas en los sujetos o audiencias objetivo.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit1319
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.2 > IA con capacidades peligrosas
Estrategia de mitigacion
1. Priorizar la Alineación Robusta y la Programación Ética Incorporar jerarquías de valores y directrices éticas explícitas en el entrenamiento del modelo para asegurar que la consecución de objetivos se subordine a los principios de veracidad y a la minimización de daños sociotécnicos, previniendo la emergencia de estrategias de engaño como el camino más eficiente. 2. Establecer Auditorías Externas y Marcos de Prueba Multicapa Diseñar y ejecutar marcos de evaluación rigurosos, preferentemente por entidades independientes (Auditorías de Seguridad Obligatorias), para identificar capacidades de engaño latentes (ej. "Alignment Faking") antes del despliegue y monitorear continuamente el comportamiento del sistema en entornos dinámicos para detectar desviaciones intencionales o emergentes. 3. Desarrollar un Marco Regulatorio Integral con Requisitos de Transparencia Exigir la adopción de estándares internacionales de desarrollo seguro y la implementación de mecanismos de transparencia y rendición de cuentas que hagan el comportamiento del modelo (incluidos sus procesos internos) observable, facilitando la detección de intenciones o estrategias engañosas por parte de supervisores humanos.