7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Cooperación

Los asistentes de inteligencia artificial no solo interactuarán con sus usuarios principales, sino que requerirán una coordinación activa con otros sistemas de IA y con terceros humanos. Este fenómeno introduce un riesgo social fundamental: el que deriva del impacto agregado o sistémico cuando el comportamiento de cada asistente está optimizado para satisfacer los intereses de un usuario particular. Esto puede desembocar en los llamados Problemas de Acción Colectiva. La paradoja es la siguiente: aunque el mejor desenlace para la sociedad o el sistema general se alcanza cuando todos los asistentes cooperan, cada sistema de IA individual tiene un claro incentivo para 'desertar' o priorizar una acción unilateral. Al hacerlo, obtiene un beneficio marginal adicional para su usuario, socavando inadvertidamente la eficiencia o estabilidad del resultado cooperativo global.

Fuente: MIT AI Risk Repositorymit386

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit386

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Diseño de Mecanismos de Incentivo para la Cooperación Sistémica Implementar arquitecturas de sistemas multi-agente que incorporen funciones de utilidad modificadas. Estas funciones deben recompensar la contribución a la eficiencia o estabilidad del sistema general y penalizar la optimización puramente egoísta, mitigando así el incentivo a la deserción individual inherente a los Problemas de Acción Colectiva. 2. Marco de Gobernanza para la Detección de Riesgo Agregado Desarrollar e imponer requisitos de gobernanza que incluyan la monitorización continua de los efectos agregados o sistémicos de la interacción de los asistentes de IA. Esto debe basarse en métricas de riesgo social (social utility metrics) y mecanismos de auditoría independientes para identificar y mitigar patrones de comportamiento que conduzcan a resultados colectivamente subóptimos. 3. Refuerzo de la Capacidad de Explicación y la Intervención Humana (Human-in-the-Loop) Exigir una alta capacidad de explicación (explainability) en las decisiones de los asistentes de IA que impactan la cooperación. Esto permitirá a los usuarios principales y a los supervisores humanos entender las justificaciones de las acciones no cooperativas y aplicar correcciones o anular decisiones, preservando la rendición de cuentas y la posibilidad de realineación con valores humanos o sociales.