4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Seguridad (Security)

Si bien los modelos conversacionales de IA aún no poseen la capacidad de generar *malware* totalmente inédito de forma autónoma, es inminente la posibilidad de que los atacantes cibernéticos aprovechen las competencias de codificación de los Modelos de Lenguaje de Gran Escala (LLMs), como ChatGPT. Esta automatización permite la creación de *software* malicioso altamente sofisticado y de ajuste minucioso, lo cual tiene el efecto de "democratizar" la amenaza, transformando a actores con menor pericia técnica en vectores de riesgo de seguridad significativos.

Fuente: MIT AI Risk Repositorymit482

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit482

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Aplicación Estricta del Principio de Mínimo Privilegio y Aislamiento del Entorno Restringir las capacidades del LLM limitando su acceso a APIs, sistemas de archivos y funciones sensibles, adhiriéndose al principio de mínimo privilegio. Es fundamental aislar el entorno de ejecución del modelo mediante *sandboxing* o contenedorización para minimizar la superficie de ataque y el "radio de explosión" potencial en caso de que se logre una inyección de *prompt* o una generación de código malicioso. 2. Validación y Saneamiento Bidireccional Riguroso Implementar filtros de entrada conversacionales (*prompt firewalls*) para detectar y bloquear proactivamente solicitudes que busquen generar *malware* o eludir restricciones de seguridad. Además, se debe clasificar y validar toda salida de código generada, tratándola como no confiable (*untrusted*) y aplicando capas de saneamiento antes de que sea entregada a un usuario o a sistemas *downstream*. 3. Evaluación Continua Mediante Red Teaming y Pruebas Adversarias Someter el LLM a ejercicios periódicos y especializados de *red teaming* para simular intentos de generación de código malicioso, *jailbreaking* y otras tácticas de explotación. Los hallazgos de estas pruebas adversarias deben ser utilizados para ajustar los *guardrails* del modelo y mejorar de forma iterativa su entrenamiento de seguridad (*safety alignment*).