2. Privacidad y Seguridad2 - Post-despliegue

Seguridad (Security)

La inteligencia artificial introduce inherentemente una serie de desafíos que deben abordarse para garantizar su fiabilidad, particularmente en el ámbito de la seguridad funcional. Los modelos de IA de mayor complejidad, como las redes neuronales, manifiestan vulnerabilidades únicas que no se observan en sistemas tradicionales. Por este motivo, su despliegue exige un nivel de escrutinio significativamente superior al habitual, especialmente cuando se implementan en contextos críticos para la seguridad.

Fuente: MIT AI Risk Repositorymit184

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit184

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

1. Implementación de Entrenamiento Adversario y Robustez de Modelos: Aplicar técnicas avanzadas de *Adversarial Training* y utilizar la extracción robusta de características para exponer los modelos de IA a ejemplos manipulados durante el entrenamiento. Esto es fundamental para aumentar la solidez intrínseca del sistema contra ataques de evasión y garantizar su fiabilidad en un contexto crítico para la seguridad. 2. Validación y Desinfección Rigurosa de Entradas: Establecer un protocolo estricto para la validación y *sanitización* de todas las entradas de datos y *prompts* que interactúan con el modelo. Esta medida es crucial para prevenir ataques de inyección de comandos o datos maliciosos, asegurando que el sistema de IA solo procese información que cumpla con los parámetros de integridad definidos. 3. Supervisión Continua y Auditoría en Tiempo Real: Desplegar mecanismos de supervisión continua del rendimiento y los patrones de acceso del sistema de IA en producción. Esto permite la detección inmediata de actividades anómalas o comportamientos que sugieran un ataque o una explotación de vulnerabilidades posterior al despliegue, facilitando una respuesta rápida y automatizada.

EVIDENCIA ADICIONAL

Una clase de ataques sobre los sistemas de Inteligencia Artificial que ha suscitado un interés particular en la investigación reciente es el Aprendizaje Automático Adversario (Adversarial Machine Learning). En esencia, esta disciplina estudia cómo un actor malintencionado busca manipular deliberadamente un modelo de IA para lograr uno de tres objetivos fundamentales: i) inducir un mal funcionamiento o error en su proceso de inferencia; ii) alterar el resultado esperado que el modelo debería generar; o iii) conseguir información privilegiada sobre el modelo que de otro modo permanecería inaccesible, comprometiendo así la seguridad y la fiabilidad del sistema.