Risk area 2: Information Hazards
El concepto de "riesgos de la información" se refiere al perjuicio que emerge de la difusión veraz de datos sensibles por parte de un Modelo de Lenguaje (ML). El daño se materializa sin error del usuario, simplemente porque el ML expone información privada inferida o presente en sus datos de entrenamiento. Ejemplos incluyen la revelación de secretos comerciales o diagnósticos médicos, derivando en violaciones a la privacidad. La mitigación se centra en soluciones algorítmicas y estrategias de lanzamiento responsable de los modelos.
ENTIDAD
2 - IA
INTENCIÓN
2 - Involuntario
TIEMPO
2 - Post-despliegue
ID del riesgo
mit210
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. **Implementación de Soluciones Algorítmicas de Preservación de la Privacidad**: Aplicar de manera prioritaria técnicas criptográficas y de privacidad diferencial durante las fases de entrenamiento y refinamiento del Modelo de Lenguaje (ML) para mitigar la capacidad del modelo de memorizar o inferir datos sensibles del conjunto de entrenamiento. 2. **Curación Exhaustiva y Desensibilización del Conjunto de Datos de Entrenamiento**: Establecer un proceso riguroso de preprocesamiento de datos a gran escala para identificar y eliminar, ofuscar o anonimizar Información de Identificación Personal (IIP), secretos comerciales u otros datos confidenciales antes de la ingesta en el modelo, reduciendo así la superficie de riesgo de filtración. 3. **Establecimiento de un Marco de Gobernanza Post-Despliegue y Pruebas de Resistencia**: Definir estrategias de lanzamiento responsable que incluyan pruebas de "red team" especializadas en ataques de extracción y deducción. Asimismo, implementar mecanismos de monitoreo y control de acceso continuos para limitar la exposición y detectar patrones de consulta que sugieran un riesgo de divulgación de información.