4. Actores Maliciosos y Mal Uso3 - Otro

Capacidades ciberofensivas

Estas evaluaciones se enfocan en analizar la potencial destreza de un Modelo de Lenguaje Grande (LLM) en el ámbito cibernético. Específicamente, buscan determinar si la IA es capaz de identificar y explotar fallas de seguridad presentes tanto en la infraestructura física (*hardware*), como en los programas (*software*) y la información almacenada (datos). Además, se examina su habilidad para operar sin ser detectado una vez que se infiltra en un sistema o red, y la eficacia con la que puede ejecutar una secuencia de acciones dirigidas a lograr objetivos predefinidos

Fuente: MIT AI Risk Repositorymit619

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

3 - Otro

ID del riesgo

mit619

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Implementar el principio de "mínimo privilegio" y "cero confianza" en la arquitectura de la LLM y sus integraciones con APIs y sistemas externos. Esto implica tratar las salidas del modelo como datos no confiables y limitar su agencia a capacidades mínimas y entornos aislados (*sandboxes*) de ejecución, restringiendo el acceso a información sensible y funciones críticas. 2. Establecer defensas rigurosas contra ataques adversariales, como la inyección de *prompts* y el envenenamiento de datos, mediante la aplicación de validación estricta de entradas, la sanitización exhaustiva de datos de entrenamiento y la implementación de filtrado de salida en tiempo de ejecución para bloquear patrones maliciosos. 3. Implementar de forma proactiva prácticas de *Red Teaming* (simulación de ataques ofensivos) para evaluar la resistencia de la LLM y sus sistemas circundantes, complementado con el monitoreo continuo para detectar anomalías y patrones de consulta que sugieran explotación o extracción de información.