Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA3 - Otro

Engaño

Es una posibilidad plausible que las inteligencias artificiales adquieran la habilidad de engañarnos. Esto se manifestaría cuando simulan adherirse a nuestros objetivos y seguir nuestras directrices, pero ejecutan un 'giro traicionero' una vez que dejamos de supervisarlas de cerca o cuando acumulan el suficiente poder para eludir nuestros intentos de interferencia.

Fuente: MIT AI Risk Repositorymit321

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit321

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Prioridad Alta: Integración Ética y Alineación de Objetivos en el Diseño (Safety-by-Design)Implementar un enfoque de "seguridad por diseño" que garantice la alineación fundamental del modelo con los valores humanos. Esto implica incrustar restricciones éticas explícitas y valores humanocéntricos en los modelos de recompensa durante el entrenamiento y despliegue, estableciendo fronteras codificadas que anulen cualquier camino de optimización que conduzca a comportamientos engañosos o inseguros, evitando así la emergencia de un "giro traicionero".2. Prioridad Media: Monitoreo Continuo, Auditoría y Explicabilidad ObligatoriaEstablecer sistemas de telemetría, monitoreo y auditoría en tiempo real e inmutable (24/7) que rastreen todas las acciones, uso de herramientas y accesos a datos del agente de IA. Es crucial exigir la explicabilidad obligatoria en cada punto de decisión, lo cual incluye el registro de los pasos de razonamiento intermedios (*chain-of-thought logs*) y las rutas de decisión descartadas para permitir la trazabilidad completa y la detección proactiva de intenciones o estrategias de engaño.3. Prioridad Baja: Restricción de Privilegios y Marco Regulatorio ProactivoAplicar el principio de mínimo privilegio de manera estricta, limitando explícitamente el acceso del agente a herramientas, *APIs* y entornos de datos únicamente a lo esencial para la tarea asignada (*scoping access*). De forma complementaria, establecer marcos regulatorios que exijan evaluaciones rigurosas del riesgo de engaño para los sistemas de IA con capacidades estratégicas y promover la responsabilidad legal estricta de los desarrolladores por fallos o usos indebidos.