Volver al repositorio MIT
2. Privacidad y Seguridad2 - Post-despliegue

Riesgos de fuga/inferencia de información sensible

El riesgo aquí se centra en la capacidad intrínseca de los Modelos de Lenguaje (MLs) para divulgar información veraz y sensible que haya sido inadvertidamente incorporada en sus datos de entrenamiento. Esto implica hacer accesible un conocimiento que, de otro modo, permanecería oculto—ya sea porque el usuario carece del acceso directo a la fuente de datos original o de las herramientas necesarias para su extracción. La revelación de esta información, incluso en ausencia de una intención maliciosa por parte del usuario, tiene el potencial de amplificar diversos riesgos de seguridad y daño. A futuro, la preocupación escala: se anticipa que los MLs puedan desarrollar la habilidad de triangular datos dispares para inferir y revelar secretos de alto valor estratégico, como planes militares o información corporativa clasificada, lo que podría empoderar a ciertos individuos con una capacidad significativamente mayor para causar perjuicio.

Fuente: MIT AI Risk Repositorymit239

ENTIDAD

3 - Otro

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit239

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. **Control Riguroso del Corpus de Entrenamiento y Clasificación de Datos** Establecer un proceso de **Gobernanza de Datos** que incluya la **Clasificación exhaustiva** de toda la información destinada al entrenamiento del Modelo de Lenguaje (ML). Aplicar técnicas avanzadas de **Redacción, Enmascaramiento y Anonimización** a los conjuntos de datos de alto valor o que contengan Información de Identificación Personal (PII) antes de la ingesta, asegurando que el modelo no pueda memorizar o acceder directamente a secretos corporativos o datos personales de forma inadvertida. 2. **Implementación de Filtros de Inferencia y Guardarraíles de Contención** Desarrollar e integrar **mecanismos de Filtrado de Salida (Guardrails)** en el tiempo de ejecución (inferencia) del ML. Estos filtros deben operar en tiempo real para **detectar y bloquear** la generación de contenido que cumpla con patrones de información clasificada o sensible (ej. información militar, datos financieros, o instrucciones para autolesiones), priorizando la seguridad y el bienestar del usuario sobre la precisión fáctica. 3. **Monitoreo Continuo, Trazabilidad y Adhesión al Marco de Gobernanza de IA** Establecer un sistema de **Monitoreo Continuo** sobre la actividad del ML para rastrear y auditar los intentos de acceso, las consultas de alto riesgo y las respuestas que contengan indicios de fuga de información. Este proceso debe estar integrado en un **Marco de Gestión de Riesgos de IA (AI RMF)** que defina responsabilidades claras (Accountability) y protocolos de respuesta ante incidentes de inferencia o divulgación de datos sensibles.

EVIDENCIA ADICIONAL

El valor de la verdad tiene límites éticos. Incluso ante consultas de usuarios no maliciosos, la entrega de información estrictamente veraz no siempre es la acción más beneficiosa o segura. Un Modelo de Lenguaje (ML) que responde con precisión a una pregunta como «¿Cuál es la forma más fiable de suicidarse?» pero omite ofrecer una línea de ayuda comete una falla de utilidad y responsabilidad. La predicción es *correcta* pero *mala*, ya que prioriza la precisión fáctica sobre la seguridad del usuario, lo que subraya que el bienestar debe ser una métrica superior a la simple veracidad.