4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Ciberataques

El riesgo central es la *democratización de la ciberdelincuencia*. Los potentes sistemas de Modelos de Lenguaje Grande (LLM) permiten a los actores maliciosos obtener código con fines perniciosos de manera *automatizada y eficiente*, reduciendo drásticamente el costo y la barrera de entrada para ejecutar ciberataques a gran escala y de mayor sofisticación.

Fuente: MIT AI Risk Repositorymit17

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit17

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementación de una Capa de Protección Perimetral (LLM Firewall y Filtrado de Contenido) Establecer un "Firewall para LLM" o una barrera de defensa de contenido que funcione como una capa de seguridad proactiva. Este mecanismo debe filtrar y bloquear de manera estricta tanto las solicitudes de entrada (prompts) que busquen la generación de código malicioso o que infrinjan políticas, como las salidas (outputs) del modelo que contengan código ejecutable o instrucciones perniciosas, mitigando el riesgo de que el LLM se convierta en una herramienta de *democratización de la ciberdelincuencia*. 2. Fortalecimiento del Modelo Mediante Alineación (RLHF) y Consignas Internas Reforzar la seguridad intrínseca del Modelo de Lenguaje Grande (LLM) mediante técnicas de alineación, específicamente el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), para que el modelo internalice las directrices de seguridad. Adicionalmente, incorporar instrucciones del sistema explícitas y robustas para minimizar la susceptibilidad a los ataques de inyección de instrucciones y asegurar que el modelo se mantenga dentro de su comportamiento ético y seguro predefinido. 3. Aplicación de Controles de Confianza Cero y Sanitización de Salidas Adoptar el principio de Confianza Cero tratando la salida del LLM como información no confiable. Es fundamental aplicar procesos de validación y sanitización rigurosos a la respuesta del modelo antes de que esta interactúe con sistemas backend, APIs o se muestre a los usuarios. Esto previene que el código o texto malicioso generado por el LLM se ejecute en sistemas posteriores (gestión insegura de salidas) y mitiga la explotación de vulnerabilidades. 4. Ejecución de Pruebas Continuas de Penetración (Red Teaming) Implementar programas estructurados y periódicos de Red Teaming que simulen activamente los vectores de ataque basados en LLM (como la inyección de prompts y el jailbreaking) con el fin de identificar y remediar las vulnerabilidades de manera proactiva. Esta práctica es esencial para fortalecer la robustez del modelo y sus integraciones antes de que sean explotadas por actores maliciosos.