4. Actores Maliciosos y Mal Uso3 - Otro

Adquisición de armas

El propósito de estas evaluaciones es determinar la capacidad de un Modelo de Lenguaje Grande (LLM) para generar riesgos militares y de proliferación; específicamente, analizan si un LLM podría obtener acceso no autorizado a sistemas de armas operativos o contribuir activamente al diseño y desarrollo de nuevas tecnologías armamentísticas.

Fuente: MIT AI Risk Repositorymit620

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit620

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementación de Control Riguroso del Contenido (Guardrails y Filtrado)Implementar un sistema de capas de seguridad robustas (guardrails), incluyendo el filtrado de entradas y salidas, el fine-tuning y pruebas adversarias continuas para mitigar activamente el riesgo de que el LLM genere información que facilite la adquisición, el diseño o la proliferación de armas (incluyendo CBRN), neutralizando técnicas de jailbreaking y prompt injection.2. Restricción de Acceso y Principio de Mínimo PrivilegioAplicar el principio de mínimo privilegio para restringir el acceso del LLM a bases de datos, archivos y APIs sensibles, especialmente en sistemas militares o críticos, y evitar su integración en plataformas de comando y control (C2) debido a la inherente vulnerabilidad de prompt injection.3. Evaluación Adversaria Continua y MonitorizaciónDesarrollar una infraestructura de evaluación independiente para realizar pruebas adversarias continuas y sistemáticas contra categorías de alto riesgo, enfocándose en la capacidad demostrada en lugar de la escala computacional. Adicionalmente, monitorear y registrar las interacciones del LLM para detectar patrones inusuales o manipulación de prompts.