Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

IA Adversaria (General)

La Inteligencia Artificial Adversaria (IAA) se refiere a una clase de ataques dirigidos a explotar las debilidades intrínsecas de los modelos de aprendizaje automático. Esta forma de abuso se manifiesta al manipular las vulnerabilidades del propio asistente de IA para eludir sus mecanismos de seguridad integrados, políticas y límites éticos, lo que a menudo permite la explotación de vulnerabilidades de privacidad. Más allá de su uso indebido para operaciones cibernéticas ofensivas, los asistentes avanzados de IA representan un objetivo de abuso emergente, donde actores malintencionados explotan los propios sistemas de IA para infligir daño. Aunque la plena comprensión de las vulnerabilidades en los modelos de IA de frontera es un desafío de investigación en curso, ya se han documentado ataques que son únicos para la IA. Estos incluyen técnicas como la evasión, el envenenamiento de datos, la replicación de modelos y la explotación de fallos de software tradicionales para engañar, manipular, comprometer o inutilizar los sistemas de IA. Esta amenaza es distinta de las actividades cibernéticas tradicionales. A diferencia de los ciberataques convencionales, que suelen derivarse de 'bugs' o errores humanos en el código, los ataques de IAA son viabilizados por vulnerabilidades inherentes a los algoritmos de IA subyacentes y a la forma en que estos se integran en los ecosistemas de software existentes.

Fuente: MIT AI Risk Repositorymit349

ENTIDAD

3 - Otro

INTENCIÓN

1 - Intencional

TIEMPO

2 - Post-despliegue

ID del riesgo

mit349

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.2 > Vulnerabilidades y ataques a la seguridad del sistema de IA

Estrategia de mitigacion

- Entrenamiento Adversario (Adversarial Training) Integrar proactivamente ejemplos adversarios en el conjunto de entrenamiento para mejorar la robustez intrínseca del modelo y su capacidad para clasificar correctamente entradas manipuladas, siendo la defensa de más alto nivel para los ataques de evasión. - Monitoreo Continuo y Detección de Anomalías Implementar sistemas de vigilancia en tiempo real que establezcan métricas de rendimiento base y monitoreen desviaciones en el comportamiento del modelo, permitiendo la detección rápida de patrones de decisión sospechosos indicativos de un compromiso o ataque activo. - Controles de Acceso Estricto y Arquitectura de Confianza Cero (Zero-Trust) Aplicar principios de confianza cero para los agentes y sistemas de IA, junto con una validación de entradas robusta y límites de tasa (rate limiting) en las consultas de API, para mitigar el riesgo de ataques de envenenamiento de datos, extracción de modelos e inyección de *prompts*.