Volver al repositorio MIT
4. Actores Maliciosos y Mal Uso2 - Post-despliegue

A Propósito - Post-Despliegue

La seguridad de una Inteligencia Artificial, incluso si es bien diseñada inicialmente, no es estática. Existe un riesgo significativo de que un sistema perfectamente alineado se desvíe hacia resultados perjudiciales o peligrosos durante la fase de posdespliegue. Este cambio de comportamiento puede ser inducido de forma indirecta, por ejemplo, mediante la inyección deliberada de datos falsos o engañosos en sus sistemas de aprendizaje, lo que compromete su integridad funcional. O bien, puede ser provocado de forma directa, a través de instrucciones explícitas que ordenan a la IA ejecutar acciones ilícitas o que atenten contra la seguridad de otras personas.

Fuente: MIT AI Risk Repositorymit576

ENTIDAD

1 - Humano

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit576

Linea de dominio

4. Actores Maliciosos y Mal Uso

223 riesgos mapeados

4.3 > Fraude, estafas y manipulación dirigida

Estrategia de mitigacion

1. Implementar un monitoreo continuo del comportamiento del modelo en producción y el análisis en tiempo de ejecución (runtime) de las interacciones de los usuarios y los datos de entrada, con el fin de detectar anomalías, inyecciones adversarias o patrones de consulta inusuales que indiquen una manipulación intencional o una desviación del comportamiento alineado. 2. Establecer mecanismos rigurosos de validación, sanitización y filtrado en las entradas (prompts) y las salidas del sistema para prevenir ataques de inyección de instrucciones y el uso no autorizado o malicioso que induzca a la IA a realizar acciones ilegales o peligrosas. 3. Reforzar la gobernanza de la IA mediante la aplicación de políticas de uso aceptable claras y la implementación de Controles de Acceso Basado en Roles (RBAC) estrictos para limitar quién puede interactuar con el modelo y acceder a datos sensibles, asegurando la trazabilidad completa y la rendición de cuentas en el entorno de posdespliegue.