7. Seguridad, Fallos y Limitaciones del Sistema de IA2 - Post-despliegue

Problema de exploración segura con asistentes IA desplegados

Es previsible que los asistentes de inteligencia artificial, a medida que se desplieguen masivamente y se integren en una amplia gama de contextos sociales, se enfrenten al llamado "problema de la exploración segura". Este desafío radica en que, a medida que surgen nuevos usuarios con diferentes requisitos o que el propio uso generalizado de la IA altera nuestros patrones de vida, los sistemas necesitan tomar acciones exploratorias para aprender cómo funcionar en estas situaciones novedosas. Es en este punto donde la exploración puede volverse insegura. El ejemplo más claro es el de un asistente médico de IA que, al encontrarse con una enfermedad para la que no tiene datos, podría sugerir un ensayo clínico puramente exploratorio cuyo resultado implique un daño prolongado o irreversible para la salud de los participantes.

Fuente: MIT AI Risk Repositorymit338

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit338

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.3 > Falta de capacidad o robustez

Estrategia de mitigacion

1. Implementación de **restricciones de seguridad explícitas (Shielding)**: Utilizar formalismos de Aprendizaje por Refuerzo con Restricciones (Constrained Reinforcement Learning - CRL) y escudos algorítmicos para garantizar que el agente no seleccione acciones que violen umbrales de costo o seguridad predefinidos durante el proceso de exploración, especialmente en dominios de alto riesgo. 2. Establecimiento de un **mecanismo de Monitoreo Continuo y "Humano en el Bucle" (Human-in-the-Loop)**: Desplegar herramientas de observabilidad para rastrear el rendimiento y la incertidumbre del modelo en tiempo real. Ante la detección de estados novedosos, escenarios fuera de la distribución de entrenamiento o alta incertidumbre (lo que desencadenaría una exploración), el sistema debe detener la ejecución o requerir la validación de un experto humano. 3. **Validación y Pruebas Rigurosas en Entornos Seguros (Sandboxing)**: Asegurar que el sistema se someta a exhaustivas pruebas en entornos aislados y simulaciones de alta fidelidad ("sim-to-real") antes del despliegue masivo. Esto debe incluir pruebas adversarias (AI Red Teaming) para forzar al modelo a explorar límites y exponer vulnerabilidades relacionadas con acciones inseguras o consecuencias imprevistas. 4. Integración de la **Estimación de Incertidumbre** en la política de exploración: Dotar al agente de la capacidad de evaluar su confianza en las predicciones. La política de exploración debe penalizar las acciones asociadas con una alta incertidumbre en estados críticos, favoreciendo una exploración más conservadora y la remisión a un experto cuando el riesgo no pueda ser cuantificado con fiabilidad.