Generación de código dañino
La capacidad de los modelos para generar código conlleva el riesgo inherente de producir resultados que causen daños o que, de forma no intencionada, interfieran o alteren el funcionamiento de otros sistemas.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit1174
Linea de dominio
2. Privacidad y Seguridad
2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA
Estrategia de mitigacion
1. Implementación de mecanismos de validación estática y dinámica, y de entornos de ejecución aislados (sandboxing) para la salida de código generada por los modelos. Esta medida es primordial para prevenir la propagación de código malicioso o defectuoso, limitando su capacidad de interactuar y afectar a sistemas externos o infraestructuras críticas hasta que se haya verificado su integridad, funcionalidad y seguridad. 2. Desarrollo de filtros de inyección de instrucciones y defensas adversarias contextuales. Se requiere un enfoque adaptativo, no estático, para la detección y mitigación de entradas maliciosas (incluyendo aquellas ofuscadas en contenido estructurado o referenciado externamente), con el objetivo de frustrar los intentos de manipular el modelo para que genere código dañino o con vulnerabilidades. 3. Institución de una revisión de seguridad de doble fase (humana y automatizada) para el código asistido por IA, junto con una capacitación continua en ciberseguridad para los desarrolladores. Es imperativo contrarrestar la sobreconfianza de los programadores en el código generado, garantizando que todo el código final sea objeto de un escrutinio humano experto y de análisis de vulnerabilidades automatizados antes de su despliegue.