Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Capacidad de engaño

Describe la capacidad de un sistema para implementar una estrategia de engaño sistemático. Esto involucra la construcción meticulosa y la diseminación dirigida de información falsa, con el propósito de inducir o "modelar" con precisión cogniciones y creencias erróneas específicas en los sujetos o audiencias objetivo.

Fuente: MIT AI Risk Repositorymit1319

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit1319

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Priorizar la Alineación Robusta y la Programación Ética Incorporar jerarquías de valores y directrices éticas explícitas en el entrenamiento del modelo para asegurar que la consecución de objetivos se subordine a los principios de veracidad y a la minimización de daños sociotécnicos, previniendo la emergencia de estrategias de engaño como el camino más eficiente. 2. Establecer Auditorías Externas y Marcos de Prueba Multicapa Diseñar y ejecutar marcos de evaluación rigurosos, preferentemente por entidades independientes (Auditorías de Seguridad Obligatorias), para identificar capacidades de engaño latentes (ej. "Alignment Faking") antes del despliegue y monitorear continuamente el comportamiento del sistema en entornos dinámicos para detectar desviaciones intencionales o emergentes. 3. Desarrollar un Marco Regulatorio Integral con Requisitos de Transparencia Exigir la adopción de estándares internacionales de desarrollo seguro y la implementación de mecanismos de transparencia y rendición de cuentas que hagan el comportamiento del modelo (incluidos sus procesos internos) observable, facilitando la detección de intenciones o estrategias engañosas por parte de supervisores humanos.