Difusión de información peligrosa
Consiste en la capacidad de un sistema de inteligencia artificial para divulgar, generar o deducir con exactitud información clasificada o peligrosa que podría constituir una seria amenaza para la seguridad.
ENTIDAD
2 - IA
INTENCIÓN
3 - Otro
TIEMPO
2 - Post-despliegue
ID del riesgo
mit267
Linea de dominio
2. Privacidad y Seguridad
2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible
Estrategia de mitigacion
1. Aplicar técnicas de alineamiento y filtros de salida para asegurar la negativa sistemática del modelo a generar o inferir información clasificada o peligrosa (ej. protocolos detallados para la creación de agentes biológicos), complementado con la ofuscación de datos sensibles en las respuestas. 2. Establecer un Marco de Preparación (Preparedness Framework) con evaluaciones rigurosas de las capacidades en dominios de alto riesgo (ej. bioseguridad, ciberseguridad), determinando umbrales de riesgo (High/Critical) que impidan el despliegue del modelo hasta que se implementen salvaguardas suficientes para la minimización del riesgo. 3. Implementar un sistema de Detección y Respuesta (Detection & Response) continuo y proactivo, que utilice inteligencia de amenazas y análisis de comportamiento para monitorizar el uso del sistema en producción y permitir la suspensión inmediata de cuentas involucradas en actividades de divulgación o uso indebido.
EVIDENCIA ADICIONAL
Un ejemplo paradigmático del riesgo de uso indebido (misuse) de la IA avanzada es su capacidad para asistir en la generación de información detallada sobre cómo crear un nuevo agente de riesgo biológico (OpenAI, 2023a)