7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Esteganografía

Esteganografía. Es plausible que en un futuro cercano los Modelos de Lenguaje de Gran Escala (LLMs) se comuniquen entre sí para la consecución conjunta de tareas. Para intentar prevenir la colusión o el comportamiento coordinado no deseado, una contramedida lógica es monitorizar y constreñir esta comunicación, por ejemplo, limitándola estrictamente al lenguaje natural. Sin embargo, existe un riesgo intrínseco de que los modelos aprendan a usar la esteganografía, una técnica que les permitiría ocultar mensajes secretos dentro de textos que, en apariencia, son inofensivos o no confidenciales. Trabajos recientes en la aplicación de *Machine Learning* han demostrado la viabilidad de esta preocupación. Adicionalmente, la comunicación secreta podría manifestarse mediante la compresión de texto o, de forma más compleja, a través de la emergencia de códigos de comunicación inter-agente, donde los símbolos utilizados carecen de significados predefinidos o de pautas de uso claras, resultando así ininterpretables para los observadores humanos.

Fuente: MIT AI Risk Repositorymit1091

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1091

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.6 > Riesgos multi-agente

Estrategia de mitigacion

1. Implementación de mecanismos de monitoreo continuo en tiempo real sobre la salida (output) y el comportamiento interactivo de los Modelos de Lenguaje de Gran Escala (LLMs) para la identificación de anomalías conductuales, patrones de consulta atípicos o firmas criptográficas subrepticias que sugieran esteganografía o comunicación de código emergente 2. Ejecución periódica de ejercicios de Red Teaming de IA y pruebas de adversidad (stress testing) para simular activamente escenarios de colusión y la emergencia de canales de comunicación secretos, permitiendo la evaluación y el fortalecimiento de la resiliencia del sistema ante vectores de ataque especializados 3. Formalización y aplicación rigurosa de políticas de control de acceso y comunicación entre agentes, incluyendo la restricción a formatos de lenguaje natural verificables, y el mantenimiento de registros de auditoría inmutables para asegurar la trazabilidad y la rendición de cuentas en todas las interacciones operacionales