7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Tipo 2: Más grande de lo esperado

Los riesgos o perjuicios pueden emanar de sistemas de inteligencia artificial que, en principio, no se preveía que generaran un impacto considerable. Esto incluye escenarios como fallos de contención inesperados (similares a 'lab leaks'), la aparición de productos de código abierto con un grado de adicción sorprendente, o la reorientación no intencionada de un prototipo diseñado inicialmente solo para investigación.

Fuente: MIT AI Risk Repositorymit02

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit02

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Establecer un Marco de Gobernanza Estricto y Control de Acceso Implementar un sistema de gobernanza de la IA proactivo que defina con precisión el alcance operativo y los límites de uso del sistema. Esto incluye la gestión rigurosa de accesos y privilegios, así como la instauración obligatoria de un "interruptor de apagado" o *kill switch* humano, y la validación experta de todas las decisiones críticas asistidas por IA, documentando fehacientemente su trazabilidad y alineación con los objetivos organizacionales previstos. 2. Auditoría Continua de Robustez y Detección de Desviaciones Desplegar mecanismos de monitoreo constante a nivel de producción para evaluar la robustez del modelo frente a perturbaciones en los datos de entrada (ataques adversarios o *data drift*) y para identificar cualquier desviación significativa en el rendimiento o el comportamiento respecto al entorno de entrenamiento. Se requiere la revisión periódica para mitigar el riesgo de *overfitting* y la amplificación de sesgos a través de bucles de retroalimentación post-despliegue. 3. Ejecución Sistemática de Red Teaming y Evaluación de Impacto Sistémico Realizar ejercicios de *Red Teaming* de manera sistemática, involucrando a equipos multidisciplinarios para simular activamente el uso malicioso o la reorientación no intencionada de la tecnología (ej. producto de código abierto adictivo o *lab leak*). Adicionalmente, realizar Evaluaciones de Impacto a Gran Escala (EIS) para anticipar los posibles vectores de proliferación masiva y las consecuencias sistémicas no deseadas antes de la expansión de la tecnología.

EVIDENCIA ADICIONAL

El potencial de acción y, consecuentemente, el riesgo asociado a una tecnología de Inteligencia Artificial, se ve amplificado de manera significativa por dos vectores principales: la proliferación masiva (ser copiada repetidamente) o la divergencia respecto a la teleología inicial de sus creadores (la modificación no autorizada). No obstante, es crucial notar que un impacto de magnitud inesperadamente grande puede materializarse incluso si un único equipo es responsable de la creación e implementación inicial de la tecnología.