A Propósito - Post-Despliegue
La seguridad de una Inteligencia Artificial, incluso si es bien diseñada inicialmente, no es estática. Existe un riesgo significativo de que un sistema perfectamente alineado se desvíe hacia resultados perjudiciales o peligrosos durante la fase de posdespliegue. Este cambio de comportamiento puede ser inducido de forma indirecta, por ejemplo, mediante la inyección deliberada de datos falsos o engañosos en sus sistemas de aprendizaje, lo que compromete su integridad funcional. O bien, puede ser provocado de forma directa, a través de instrucciones explícitas que ordenan a la IA ejecutar acciones ilícitas o que atenten contra la seguridad de otras personas.
ENTIDAD
1 - Humano
INTENCIÓN
1 - Intencional
TIEMPO
2 - Post-despliegue
ID del riesgo
mit576
Linea de dominio
4. Actores Maliciosos y Mal Uso
4.3 > Fraude, estafas y manipulación dirigida
Estrategia de mitigacion
1. Implementar un monitoreo continuo del comportamiento del modelo en producción y el análisis en tiempo de ejecución (runtime) de las interacciones de los usuarios y los datos de entrada, con el fin de detectar anomalías, inyecciones adversarias o patrones de consulta inusuales que indiquen una manipulación intencional o una desviación del comportamiento alineado. 2. Establecer mecanismos rigurosos de validación, sanitización y filtrado en las entradas (prompts) y las salidas del sistema para prevenir ataques de inyección de instrucciones y el uso no autorizado o malicioso que induzca a la IA a realizar acciones ilegales o peligrosas. 3. Reforzar la gobernanza de la IA mediante la aplicación de políticas de uso aceptable claras y la implementación de Controles de Acceso Basado en Roles (RBAC) estrictos para limitar quién puede interactuar con el modelo y acceder a datos sensibles, asegurando la trazabilidad completa y la rendición de cuentas en el entorno de posdespliegue.