2. Privacidad y Seguridad2 - Post-despliegue

Difusión de información peligrosa

Consiste en la capacidad de un sistema de inteligencia artificial para divulgar, generar o deducir con exactitud información clasificada o peligrosa que podría constituir una seria amenaza para la seguridad.

Fuente: MIT AI Risk Repositorymit267

ENTIDAD

2 - IA

INTENCIÓN

3 - Otro

TIEMPO

2 - Post-despliegue

ID del riesgo

mit267

Linea de dominio

2. Privacidad y Seguridad

186 riesgos mapeados

2.1 > Compromiso de la privacidad por filtración o inferencia de información sensible

Estrategia de mitigacion

1. Aplicar técnicas de alineamiento y filtros de salida para asegurar la negativa sistemática del modelo a generar o inferir información clasificada o peligrosa (ej. protocolos detallados para la creación de agentes biológicos), complementado con la ofuscación de datos sensibles en las respuestas. 2. Establecer un Marco de Preparación (Preparedness Framework) con evaluaciones rigurosas de las capacidades en dominios de alto riesgo (ej. bioseguridad, ciberseguridad), determinando umbrales de riesgo (High/Critical) que impidan el despliegue del modelo hasta que se implementen salvaguardas suficientes para la minimización del riesgo. 3. Implementar un sistema de Detección y Respuesta (Detection & Response) continuo y proactivo, que utilice inteligencia de amenazas y análisis de comportamiento para monitorizar el uso del sistema en producción y permitir la suspensión inmediata de cuentas involucradas en actividades de divulgación o uso indebido.

EVIDENCIA ADICIONAL

Un ejemplo paradigmático del riesgo de uso indebido (misuse) de la IA avanzada es su capacidad para asistir en la generación de información detallada sobre cómo crear un nuevo agente de riesgo biológico (OpenAI, 2023a)