6. Socioeconómico y Ambiental1 - Pre-despliegue

Evaluaciones Generales (Cobertura limitada de capacidades)

La evaluación de modelos de IA de Propósito General (GPAI) es un proceso crucial antes de su despliegue, cuyo objetivo es identificar capacidades peligrosas o de doble uso. Sin embargo, estas pruebas de seguridad presentan un desafío inherente: la imposibilidad de garantizar una detección exhaustiva de todas las capacidades del modelo. Esta limitación se debe a varios factores críticos: la dificultad intrínseca para medir ciertas habilidades, el costo prohibitivo de verificar exhaustivamente cada vector de riesgo, o, irónicamente, el propio entrenamiento de seguridad del modelo que puede llevarlo a ocultar (por rechazo a responder) precisamente las capacidades de riesgo que se buscan evaluar. En consecuencia, el hecho de que una evaluación no demuestre una capacidad peligrosa no significa necesariamente que el modelo no la posea.

Fuente: MIT AI Risk Repositorymit989

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit989

Linea de dominio

6. Socioeconómico y Ambiental

262 riesgos mapeados

6.5 > Fallo de gobernanza

Estrategia de mitigacion

1. Implementar Pruebas de Adversarios y Evaluación Orientada a Tareas: Realizar pruebas adversariales rigurosas y ejercicios de simulación para provocar proactivamente capacidades peligrosas o de doble uso que el entrenamiento de seguridad pueda estar enmascarando, utilizando enfoques indirectos y puntos de referencia no estandarizados para validar el espectro completo de las habilidades del modelo. 2. Establecer un Marco de Mitigación de Riesgos Sistémicos Proactivo: Definir umbrales de riesgo claros para clasificar el modelo (e.g., riesgo sistémico) y aplicar un conjunto de medidas correctoras predefinidas (restricciones de uso, mejora de paliativos) que se activarán inmediatamente si las capacidades peligrosas se manifiestan, reconociendo la incertidumbre inherente de la evaluación pre-despliegue. 3. Instaurar un Monitoreo Continuo y Reevaluaciones Periódicas: Mantener un sistema de supervisión constante durante todo el ciclo de vida del modelo para detectar desviaciones en el desempeño o la aparición de capacidades inesperadas a través de la telemetría, el análisis de incidentes graves y la documentación detallada del comportamiento del modelo en el entorno real de operación.