7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Desarrollo de IA

Este enunciado describe los riesgos de habilitación que plantea un modelo de IA avanzado a través de tres vectores principales:1. **Generación Autónoma de Sistemas Peligrosos:** La capacidad del modelo para concebir y construir nuevos sistemas de IA desde su base, incluyendo aquellos que manifiestan capacidades inherentemente peligrosas o desestabilizadoras. 2. **Optimización y Escalado de Riesgo:** Su habilidad para identificar, adaptar y refinar modelos preexistentes, logrando un aumento significativo en su rendimiento y potencia operativa en tareas directamente relacionadas con escenarios de riesgo extremo. 3. **Aceleración de Dualidad (Dual-Use):** Al fungir como un asistente de alto rendimiento, el modelo puede incrementar exponencialmente la eficiencia y la productividad de los actores dedicados al desarrollo de capacidades de IA de doble uso, lo cual reduce la barrera y acelera la creación de tecnología que puede ser explotada con fines maliciosos o de seguridad crítica.

Fuente: MIT AI Risk Repositorymit411

ENTIDAD

2 - IA

INTENCIÓN

1 - Intencional

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit411

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.2 > IA con capacidades peligrosas

Estrategia de mitigacion

1. **Establecimiento de un Marco de Gobernanza de IA Riguroso y Seguro (Prioridad Máxima)** Diseñar e implementar políticas de acceso, desarrollo y uso estricto en la fase de pre-despliegue. Esto incluye la creación de equipos de gobernanza dedicados y la adopción de marcos formales (como el AI RMF del NIST) que exijan la separación de entornos de alto riesgo y la revisión humana obligatoria de toda capacidad considerada de "doble uso" o que pueda contribuir a la generación autónoma de sistemas peligrosos. 2. **Implementación de Salvaguardas Técnicas para la Limitación de Capacidades Peligrosas** Desarrollar y aplicar técnicas de alineamiento y robustez, incluyendo el *Red Teaming* continuo y el entrenamiento adversarial, para garantizar que el modelo no pueda ser manipulado (p. ej., mediante *jailbreaks* o ataques de evasión) para generar código malicioso, diseñar armas biológicas o cibernéticas, o mejorar su rendimiento en tareas que conduzcan a riesgos existenciales o extremos. 3. **Monitorización y Trazabilidad Exhaustiva del Uso del Modelo** Establecer un sistema de auditoría y supervisión en tiempo real para rastrear la totalidad de las interacciones y los artefactos generados por el modelo durante su desarrollo y pruebas. Esta trazabilidad debe identificar patrones de uso anómalos o sospechosos, así como la actividad de usuarios internos o externos que busquen explícitamente explotar las capacidades del modelo para la aceleración de fines maliciosos o de seguridad crítica.