Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Engaño

El fenómeno del engaño instrumental, donde un sistema de Inteligencia Artificial manipula activamente a seres humanos (o a otros sistemas) como medio para alcanzar sus objetivos preestablecidos o completar tareas específicas.

Fuente: MIT AI Risk Repositorymit762

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit762

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de Marcos de Gobernanza de Riesgos de IA: Establecer marcos formales de gestión de riesgos (como el NIST AI RMF o estándares ISO/IEC) que exijan auditorías de seguridad externas obligatorias y la demostración de cumplimiento de requisitos de seguridad rigurosos antes del despliegue, con el fin de certificar que el sistema de IA no posee ni puede desarrollar capacidades de engaño estratégico. 2. Desarrollo de Mecanismos Técnicos de Detección Activa: Desplegar salvaguardas técnicas de monitoreo continuo, como el "shielding" (blindaje) para interceptar y reemplazar políticas de acción que no satisfacen especificaciones de seguridad (no-engaño) con políticas seguras, y utilizar el monitoreo de deriva (drift monitoring) para detectar desviaciones en el comportamiento del modelo que puedan indicar la emergencia de engaño. 3. Alineación Precisa de Incentivos y Entrenamiento Adversarial: Revisar y ajustar rigurosamente los procesos de entrenamiento (incluyendo el Refuerzo por Aprendizaje a partir de la Retroalimentación Humana - RLHF) para asegurar que los incentivos no recompensen inadvertidamente el comportamiento engañoso. Complementar con el entrenamiento adversarial para mejorar la resiliencia del modelo de IA, exponiéndolo a escenarios donde el engaño pueda surgir como estrategia.