2. Privacidad y Seguridad3 - Otro

Fuga de información privada

Debido a su inmensa capacidad de modelado, existe un riesgo significativo de que los pesos de los Modelos de Lenguaje Grandes (LLM) codifiquen y "memoricen" información privada presente en el corpus de entrenamiento. Específicamente, los LLM pueden retener datos de identificación personal (PII) —como nombres, direcciones o números de teléfono— y, consecuentemente, filtrarlos a través del texto que generan. Esta fuga de información puede ocurrir de forma accidental o como resultado de un ataque intencional en el que se utiliza un *prompt* adversario para extraer datos sensibles del modelo. En el contexto de los datos de preentrenamiento tomados de fuentes públicas en línea, la potencial filtración agrava la paradoja de "la privacidad en lo público" en relación con el paradigma del "derecho a ser dejado en paz", subrayando la necesidad de adoptar el marco de la integridad contextual para los LLM. Es importante señalar que la fuga también puede afectar a la información recopilada en etapas posteriores del desarrollo, como los datos de retroalimentación utilizados para el refinamiento del modelo. No obstante, la extracción de datos que ya están disponibles públicamente no los hace inherentemente más sensibles. La evaluación del riesgo asociado a tales ataques debe sopesarse según las intenciones y la culpabilidad del usuario que realiza la extracción.

Fuente: MIT AI Risk Repositorymit383

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

3 - Otro

ID del riesgo

mit383

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Implementación de un Marco Riguroso de Saneamiento y Minimización de Datos Se debe priorizar la mitigación en la fuente mediante la adopción de la *minimización de datos*, conservando solo la información indispensable para el funcionamiento preciso del LLM. Paralelamente, es crucial aplicar técnicas de *anonimización*, *enmascaramiento* o *eliminación (scrubbing)* de la Información de Identificación Personal (PII) antes de su inclusión en el corpus de entrenamiento o en los datos de ajuste. La *deduplicación* del conjunto de datos también es fundamental para reducir la redundancia lingüística, un factor que aumenta significativamente el riesgo de memorización y posterior fuga de información. 2. Integración de Privacidad Diferencial (DP) en el Proceso de Entrenamiento Incorporar la *Privacidad Diferencial (DP)* como una línea de defensa avanzada durante el entrenamiento o el ajuste fino del modelo. La DP añade ruido matemático a los datos, proporcionando una garantía formal y cuantificable contra la capacidad del modelo de "memorizar" registros individuales y, por lo tanto, previene su posterior extracción por ataques de inferencia o adversarios, manteniendo a la vez una utilidad aceptable del modelo. 3. Establecimiento de Controles de Acceso Granulares y Filtrado en Tiempo Real Establecer rigurosos *Controles de Acceso Basados en Roles (RBAC)* y el *Principio de Mínimo Privilegio* para limitar el acceso al modelo, a los almacenes de vectores (bases de datos RAG) y a los datos sensibles. En el entorno operativo, se debe implementar *validación de entrada y filtros de redacción de salida* a nivel de *token* o semántico. Estos filtros deben ser capaces de detectar y enmascarar PII o credenciales en tiempo real, previniendo la divulgación inadvertida de información y defendiendo contra el *prompting* adversario dirigido a la extracción de datos.