7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Compromiso y Confianza

Compromiso y Confianza: Este concepto, fundamental en la seguridad de la IA, describe un desafío de coordinación. Las dificultades inherentes para que los sistemas de inteligencia artificial establezcan *compromisos creíbles* o forjen una *reputación* de fiabilidad—tanto en sus interacciones con otros sistemas de IA como con seres humanos—introducen una incertidumbre sistémica. Dicha incertidumbre actúa como un impedimento crucial, evitando la consecución de ganancias mutuas y obstaculizando la cooperación óptima entre las partes involucradas.

Fuente: MIT AI Risk Repositorymit1109

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1109

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementar un marco de gobernanza robusto que exija la monitorización continua del rendimiento y el comportamiento de los agentes de IA, asegurando la trazabilidad completa de las decisiones y acciones mediante registros de historial inalterables. Esta estrategia es prioritaria ya que facilita la auditoría de la fiabilidad y es esencial para establecer una reputación verificable del sistema, base de la confianza. 2. Desarrollar e implementar reglas de validación estrictas previas a la ejecución de acciones, complementadas con mecanismos de asignación contractual del riesgo o acuerdos técnicos verificables, para codificar la credibilidad de los compromisos de la IA en interacciones multi-agente. 3. Establecer protocolos de escalamiento y supervisión humana ("human-in-the-loop") bien definidos para intervenciones críticas o ante la detección de desviaciones significativas del comportamiento esperado. Esto refuerza la integridad y benevolencia percibida del sistema, mitigando el riesgo reputacional y la incertidumbre sistémica.