4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Capacidades de Doble Uso Permiten Uso Malicioso de LLMs

Al igual que con cualquier avance tecnológico, los Modelos de Lenguaje Grandes (LLM) albergan el potencial de ser instrumentalizados por agentes malintencionados. Este fenómeno, conocido en el ámbito de la seguridad de la IA como el 'problema del doble uso', donde una misma capacidad puede generar tanto beneficios como perjuicios graves, constituye una preocupación constante y bien documentada en la investigación académica (Brundage et al., 2018; Hendrycks et al., 2023; Mozes et al., 2023)

Fuente: MIT AI Risk Repositorymit1341

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1341

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.0 > Uso malicioso

Estrategia de mitigacion

El riesgo inherente a las Capacidades de Doble Uso de los Modelos de Lenguaje Extensos (LLMs) exige una estrategia de mitigación estructurada y proactiva. A continuación, se detallan tres acciones prioritarias, con un enfoque en la gobernanza y la seguridad:1. **Evaluación Rigurosa Pre-Despliegue y Pruebas de Límites (*Red Teaming*):** Implementar programas exhaustivos de *Red Teaming* y evaluaciones de límites (*stress testing*) en los dominios de doble uso más críticos (p. ej., ciberseguridad, riesgos químicos, biológicos, radiológicos y nucleares - QBRN). El objetivo es identificar y remediar las vulnerabilidades y las rutas de explotación que puedan facilitar la instrumentalización maliciosa de las capacidades del modelo antes de su liberación al público o su integración en sistemas operativos. 2. **Alineación de Seguridad Robusta y Restricciones Conductuales (*Safety Alignment*):** Establecer mecanismos avanzados de alineación de seguridad, como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF), para configurar explícitamente las directrices del sistema (*system prompt*) e inducir el rechazo sistemático de solicitudes que promuevan actividades ilícitas (p. ej., generación de malware, instrucciones para fraude). Esta acción debe garantizar que el LLM priorice la seguridad sobre la utilidad en contextos de riesgo. 3. **Implementación de Arquitectura de Confianza Cero y Monitoreo Continuo Post-Despliegue:** Adoptar un modelo de seguridad de Confianza Cero (*Zero Trust*) para el manejo de la salida del LLM, tratando el contenido generado como un insumo no confiable y validándolo rigurosamente antes de permitir cualquier interacción con sistemas *backend* o de usuario final. Paralelamente, desplegar sistemas de monitoreo continuo en tiempo real para analizar patrones de uso anómalo y detectar tempranamente indicadores de compromiso o de uso malicioso, asegurando una respuesta rápida ante incidentes.