2. Privacidad y Seguridad2 - Post-despliegue

Generación de código dañino

La capacidad de los modelos para generar código conlleva el riesgo inherente de producir resultados que causen daños o que, de forma no intencionada, interfieran o alteren el funcionamiento de otros sistemas.

Fuente: MIT AI Risk Repositorymit1174

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit1174

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de mecanismos de validación estática y dinámica, y de entornos de ejecución aislados (sandboxing) para la salida de código generada por los modelos. Esta medida es primordial para prevenir la propagación de código malicioso o defectuoso, limitando su capacidad de interactuar y afectar a sistemas externos o infraestructuras críticas hasta que se haya verificado su integridad, funcionalidad y seguridad. 2. Desarrollo de filtros de inyección de instrucciones y defensas adversarias contextuales. Se requiere un enfoque adaptativo, no estático, para la detección y mitigación de entradas maliciosas (incluyendo aquellas ofuscadas en contenido estructurado o referenciado externamente), con el objetivo de frustrar los intentos de manipular el modelo para que genere código dañino o con vulnerabilidades. 3. Institución de una revisión de seguridad de doble fase (humana y automatizada) para el código asistido por IA, junto con una capacitación continua en ciberseguridad para los desarrolladores. Es imperativo contrarrestar la sobreconfianza de los programadores en el código generado, garantizando que todo el código final sea objeto de un escrutinio humano experto y de análisis de vulnerabilidades automatizados antes de su despliegue.