4. Actores Maliciosos y Mal Uso2 - Post-despliegue

Generación de Código Malicioso

El código malicioso es aquel *software* o *script* diseñado para comprometer la seguridad de una aplicación. El riesgo fundamental reside en que los asistentes de IA avanzados pueden democratizar la creación de ciberataques, permitiendo a actores con pocas habilidades de programación generar código dinámico, ofuscado y polimórfico. Esto no solo rebaja la barrera de entrada para desarrollar *malware*, sino que también facilita la creación de programas que mutan con cada ejecución, volviendo las campañas ofensivas más automatizadas, sigilosas y efectivas a gran escala, al evadir las defensas tradicionales basadas en firmas.

Fuente: MIT AI Risk Repositorymit348

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit348

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.2 > Ciberataques, desarrollo o uso de armas y daño masivo

Estrategia de mitigacion

1. Prioridad Alta: Implementación de Controles Rigurosos en CI/CD Establecer un proceso de validación mandatorio en la cadena de Integración Continua/Entrega Continua (CI/CD) que trate todo el código generado por IA como no confiable. Esto incluye la ejecución obligatoria de Análisis Estático de Aplicaciones (SAST), Análisis Dinámico de Aplicaciones (DAST), y pruebas de propiedad y unitarias, configurando la canalización (*pipeline*) con *gates* de seguridad que impidan el *merge* y despliegue de cualquier código que contenga vulnerabilidades de alta severidad o patrones maliciosos (código ofuscado o polimórfico). 2. Prioridad Media: Aplicación del Principio de Mínimo Privilegio y Sandboxing Aplicar el Principio de Mínimo Privilegio (PoLP) a las identidades y tokens utilizados por los asistentes de IA, limitando su acceso estrictamente a los repositorios, ramas y rutas esenciales para su funcionamiento. Además, utilizar entornos aislados (*sandboxes*) y entornos de prueba desechables para ejecutar y evaluar el código generado por IA, aislando cualquier comportamiento malicioso o no deseado del entorno productivo. 3. Prioridad Necesaria: Refuerzo de la Higiene de Prompting y *Guardrails* Desarrollar y aplicar guías claras de *prompting* para los desarrolladores, junto con la implementación de filtros de sanitización a nivel de servidor para remover información sensible (como credenciales o datos propietarios) de las entradas antes de que lleguen al modelo. Estos *guardrails* actúan como una defensa de entrada para prevenir la inyección de instrucciones maliciosas y la exposición inadvertida de secretos a través de las interacciones con el asistente.