Adquisición de armas
El propósito de estas evaluaciones es determinar la capacidad de un Modelo de Lenguaje Grande (LLM) para generar riesgos militares y de proliferación; específicamente, analizan si un LLM podría obtener acceso no autorizado a sistemas de armas operativos o contribuir activamente al diseño y desarrollo de nuevas tecnologías armamentísticas.
ENTIDAD
2 - IA
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit620
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.2 > Ciberataques, desarrollo o uso de armas y daño masivo
Estrategia de mitigacion
1. Implementación de Control Riguroso del Contenido (Guardrails y Filtrado)Implementar un sistema de capas de seguridad robustas (guardrails), incluyendo el filtrado de entradas y salidas, el fine-tuning y pruebas adversarias continuas para mitigar activamente el riesgo de que el LLM genere información que facilite la adquisición, el diseño o la proliferación de armas (incluyendo CBRN), neutralizando técnicas de jailbreaking y prompt injection.2. Restricción de Acceso y Principio de Mínimo PrivilegioAplicar el principio de mínimo privilegio para restringir el acceso del LLM a bases de datos, archivos y APIs sensibles, especialmente en sistemas militares o críticos, y evitar su integración en plataformas de comando y control (C2) debido a la inherente vulnerabilidad de prompt injection.3. Evaluación Adversaria Continua y MonitorizaciónDesarrollar una infraestructura de evaluación independiente para realizar pruebas adversarias continuas y sistemáticas contra categorías de alto riesgo, enfocándose en la capacidad demostrada en lugar de la escala computacional. Adicionalmente, monitorear y registrar las interacciones del LLM para detectar patrones inusuales o manipulación de prompts.