7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Funcionalidad emergente

En el ámbito de la seguridad de la IA, nos enfrentamos al fenómeno de las capacidades emergentes: nuevas funcionalidades o habilidades complejas pueden surgir en un sistema de manera espontánea, sin haber sido anticipadas ni diseñadas por sus creadores. El desconocimiento de estas capacidades latentes compromete seriamente la controlabilidad del sistema y dificulta su despliegue seguro. Es crucial notar que estos riesgos imprevistos a menudo solo se manifiestan y se descubren una vez que el sistema se encuentra en funcionamiento real. Si alguna de estas funcionalidades emergentes resulta ser inherentemente peligrosa o perjudicial, su impacto potencial en el entorno real podría ser irreversible.

Fuente: MIT AI Risk Repositorymit541

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit541

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Implementación de un Marco de Observabilidad y Monitoreo Continuo Establecer plataformas de observabilidad con sistemas de detección de anomalías en tiempo real, enfocados en el comportamiento del modelo, las representaciones latentes y el uso de herramientas. Esto permite la identificación proactiva y la contención inmediata de capacidades o desviaciones de comportamiento inesperadas que solo se manifiestan en el entorno operativo. 2. Refuerzo de la Arquitectura de Seguridad y el Diseño por Controles Adoptar principios de diseño de sistemas de IA que prioricen la seguridad, tales como la especificación de límites operativos explícitos, el establecimiento de arquitecturas estructuradas para el agente y la integración de la robustez adversarial. Esto incluye el desarrollo e implementación de salvaguardas técnicas (por ejemplo, filtros de exclusión o pérdidas de confusión) diseñadas para interrumpir o mitigar activamente la emergencia de capacidades no deseadas. 3. Auditoría y Testeo Sistemático de Comportamientos no Anticipados Implementar un cambio de paradigma en la evaluación, pasando del testeo de verificación de requisitos a un proceso sistemático de auditoría y prueba ('Red Teaming') dirigido a la exploración de fronteras de comportamiento desconocidas. Se deben utilizar escenarios estratégicos complejos, simulaciones multi-agente o entornos con dilemas éticos para forzar y predecir umbrales de capacidad emergente antes del despliegue en entornos de alto riesgo.