7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Offensive cyber capability

Nos referimos a la capacidad de operacionalizar instrumentos cibernéticos ofensivos de alta complejidad. En términos sencillos, es el dominio para diseñar, lanzar y mantener "ciberarmas avanzadas". Esto se materializa a través de un espectro de tácticas que incluyen la explotación de vulnerabilidades de seguridad, la penetración profunda de infraestructuras de red, la orquestación de ataques de ingeniería social (manipulación humana) y el despliegue de sistemas de ataque distribuidos. El fin último no es solo el asalto inicial, sino la habilidad de sortear los mecanismos de defensa perimetrales para, finalmente, establecer y preservar canales de acceso persistente, asegurando una puerta trasera permanente para futuras operaciones.

Fuente: MIT AI Risk Repositorymit1322

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1322

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. Refuerzo Proactivo de la Seguridad a Nivel de Modelo Implementar evaluaciones sistemáticas de las capacidades ofensivas del modelo (Capability Elicitation) a través de ejercicios de *red teaming* y emulación de adversarios habilitados por IA, con el fin de identificar umbrales de riesgo. Posteriormente, aplicar el ajuste fino de seguridad (*safety fine-tuning*) y el filtrado de uso indebido (*misuse filtering*) para mitigar o debilitar intencionalmente las capacidades cibernéticas peligrosas antes del despliegue productivo. 2. Controles de Acceso y Aislamiento de Despliegue Establecer políticas de seguridad de despliegue rigurosas, enfocadas en la segregación de redes (aislamiento físico o lógico del modelo respecto a Internet y la infraestructura crítica de la organización), la gestión estricta de credenciales y la aplicación estricta del Principio de Mínimo Privilegio (Least-Privilege Principle) para todas las interacciones con las APIs y *endpoints* del sistema de IA. 3. Monitoreo Continuo y Respuesta Comportamental en Tiempo de Ejecución Desplegar analíticas conductuales en *runtime* para el monitoreo continuo de interacciones, incluyendo la detección de patrones de consulta inusuales o repetitivos que sugieran intentos de explotación. Implementar sistemas de Prevención de Pérdida de Datos (DLP) y mecanismos de respuesta automatizada que aseguren el bloqueo instantáneo del usuario o la restricción de acceso ante la detección de actividades sospechosas o intentos de evasión de defensas perimetrales.