2. Privacidad y Seguridad2 - Post-despliegue

Daños de Información y Seguridad

La definición describe el **riesgo de compromiso de la confidencialidad de la información**, donde un sistema de IA falla en su función de seguridad de datos. Este fallo no se limita a la simple **filtración** de datos sensibles o privados que ya existen en su entrenamiento (extracción), sino que abarca la capacidad del modelo para **reproducir** textualmente fragmentos confidenciales o, más sofisticadamente, **inferir y generar** activamente nueva información clasificada o de naturaleza peligrosa a partir de patrones y correlaciones que encontró latentes en su conjunto de datos.

Fuente: MIT AI Risk Repositorymit265

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit265

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Aplicación de mecanismos de Privacidad Diferencial (PD) Implementar algoritmos como el Descenso de Gradiente Estocástico con Privacidad Diferencial (DP-SGD), preferiblemente a nivel de usuario (User-level DP), durante el entrenamiento de los modelos. Esto introduce ruido calibrado matemáticamente para limitar la influencia de cualquier punto de datos individual, proporcionando así garantías rigurosas contra la extracción y memorización de información sensible. 2. Despliegue de herramientas de Prevención de Pérdida de Datos (DLP) en tiempo real Integrar soluciones DLP que realicen inspección en línea (inline) de *prompts* y respuestas generadas por los sistemas de IA. Estas herramientas deben ser capaces de clasificar dinámicamente la información sensible (PII, PHI) y ejecutar acciones inmediatas como la redacción, el bloqueo o la alerta ante cualquier intento de filtración inadvertida o maliciosa. 3. Establecimiento de un marco de Gobernanza y Control de Acceso Granular Imponer una Arquitectura de Confianza Cero (*Zero Trust*) complementada con Controles de Acceso Basados en Roles (RBAC) y el principio de Mínimo Privilegio. Esto asegura que solo el personal autorizado interactúe con los datos y los modelos bajo condiciones estrictamente definidas, minimizando el riesgo de exposición interna y la explotación de vulnerabilidades. 4. Implementación de Salvaguardas en el Preprocesamiento de Datos Asegurar la separación adecuada de los conjuntos de datos de entrenamiento y prueba (Data Splitting), y aplicar técnicas de anonimización, seudonimización y deduplicación de datos. Estas prácticas reducen la probabilidad de que el modelo memorice información *verbatim* antes de su exposición al sistema de IA.

EVIDENCIA ADICIONAL

El estado de la seguridad en la Inteligencia Artificial, tal como lo revela la investigación académica reciente, subraya una serie de vulnerabilidades críticas que desafían la noción de los modelos como cajas negras inexpugnables o inherentemente privados. En primer lugar, el fenómeno de la **memorización de datos** constituye una seria amenaza a la privacidad. Estudios rigurosos han evidenciado que los modelos generativos, incluidos los modelos de difusión de imágenes y los grandes modelos de lenguaje (LLMs), son susceptibles de emitir **ejemplos textuales o visuales *verbatim*** de sus datos de entrenamiento. Esto no solo concierne el riesgo de **violación de derechos de autor**, sino, crucialmente, la **filtración de información de identificación personal (PII)**. La dificultad de mitigar esta vulnerabilidad implica que la mera publicación de modelos pre-entrenados en datos web a gran escala puede socavar la confianza pública en la privacidad diferencial. En segundo lugar, se ha demostrado que los modelos de **caja negra** de producción son vulnerables a la **ingeniería inversa y la extracción de parámetros**. Los investigadores han logrado recuperar con éxito capas arquitectónicas completas, como la matriz de proyección de incrustación, de modelos como los de OpenAI y Google, a un coste sorprendentemente bajo. Este hecho no solo revela la anchura del modelo (un indicador de su tamaño total de parámetros), sino que también reduce su opacidad, contradiciendo la premisa de que ocultar los detalles de la arquitectura confiere una defensa significativa. Finalmente, las estrategias de mitigación son insuficientes ante las amenazas más sofisticadas. Los **ataques de evasión adversaria** han demostrado que las técnicas de alineación utilizadas en modelos como ChatGPT pueden ser manipuladas para que el modelo se **desvíe y revele datos de entrenamiento** a una tasa significativamente mayor. Además, las defensas de privacidad, como la destilación de modelos o el entrenamiento con privacidad diferencial, pueden ser anuladas por **canales laterales de privacidad**. Un ejemplo crítico es la deduplicación de datos de entrenamiento, la cual, cuando se aplica antes del entrenamiento con privacidad diferencial, puede **invalidar por completo las garantías de privacidad demostrables**.