7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Objetivos Emergentes

El concepto de "Metas Emergentes" aborda una de las complejidades fundamentales de la seguridad en IA: la dificultad de determinar si un sistema persigue realmente un objetivo. Para su análisis, adoptamos una perspectiva Dennettiana, que nos permite atribuir metas e intenciones a un sistema solo cuando dicha atribución resulta útil (es decir, predictiva) para entender su comportamiento. Aunque no atribuiríamos una "meta" a una herramienta de IA individual y específica (una IA estrecha), la interacción y combinación de múltiples de estas herramientas pueden dar lugar a un "colectivo" que opera con una direccionalidad o propósito aparente, incluso si esa meta no fue programada explícitamente en ninguna de sus partes. Un ejemplo ilustrativo se encuentra en las redes sociales: un conjunto de bots de moderación, individualmente programados para tareas simples como maximizar la participación del usuario o eliminar contenido objetable, podría, a través de su operación sistemática y agregada, manipular sutil pero eficazmente las perspectivas políticas generales de la población de usuarios. La manipulación política, en este caso, es la meta emergente del sistema, no el objetivo programado de un agente individual.

Fuente: MIT AI Risk Repositorymit1115

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1115

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar marcos rigurosos de alineamiento de la IA para asegurar que los objetivos operativos del sistema coincidan con las intenciones éticas y funcionales deseadas. Esto incluye el diseño de mecanismos de control que prevengan la aparición de estrategias instrumentales indeseables o metas sustitutas (proxy goals) que puedan conducir a comportamientos no previstos, como la búsqueda de poder o el engaño 2. Realizar simulaciones exhaustivas a nivel de cadena (chain-level simulation) y pruebas de estrés sintéticas antes del despliegue para detectar vulnerabilidades de coordinación, fallas en cascada y la manifestación temprana de comportamientos emergentes. Se debe priorizar el modelado de escenarios de mismatch de preferencias entre agentes y la inspección de protocolos de comunicación 3. Establecer un sistema de monitoreo continuo (post-despliegue) que rastree anomalías y desviaciones del comportamiento esperado en tiempo real. Esto debe estar respaldado por un marco de gobernanza que exija la transparencia y explicabilidad de las decisiones complejas para facilitar la auditoría y la rendición de cuentas (accountability) ante las consecuencias no intencionadas de los objetivos emergentes