7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Inteligibilidad

El desafío central de la seguridad en la IA plantea la siguiente interrogante: ¿Cómo podemos diseñar agentes artificiales cuyas decisiones complejas sean intrínsecamente comprensibles o *explicables* para los humanos (un enfoque clave de la investigación en Berkeley)? Esta *explicabilidad* es un requisito indispensable para lograr una *supervisión* genuinamente *informada* y efectiva por parte de los operadores (el foco de estudios como los de MIRI), asegurando que la autonomía de la IA permanezca bajo control humano y transparente.

Fuente: MIT AI Risk Repositorymit741

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit741

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.4 > Falta de transparencia o interpretabilidad

Estrategia de mitigacion

1. **Implementación de Arquitecturas de IA Explicable (XAI) para la Comprensión Intrínseca del Modelo** - Desarrollar e integrar modelos intrínsecamente interpretables, como los Árboles de Decisión Respaldados por Redes Neuronales (NBDTs), o aplicar técnicas de Explicabilidad Post-Hoc para generar justificaciones que detallen la secuencia de decisiones intermedias, garantizando que el razonamiento complejo del agente artificial sea verificable por los supervisores humanos.2. **Establecimiento de Marcos de Transparencia y Trazabilidad Algorítmica con Documentación Rigurosa** - Adoptar un protocolo estandarizado de documentación, análogo a los "model cards" o "system cards", que detalle las características, capacidades, limitaciones, finalidad prevista y registros de los datos de entrada/salida (incluidos los conjuntos de entrenamiento) del sistema, asegurando una trazabilidad completa de su funcionamiento para una rendición de cuentas efectiva.3. **Integración de Mecanismos de Supervisión Humana y Auditoría Externa para la Validación de la Explicabilidad** - Diseñar e incorporar *medidas de vigilancia humana* y facilitar procedimientos de *auditoría independiente* y *red-teaming* que evalúen de manera continua y crítica la solidez, la imparcialidad y la interpretabilidad del sistema, permitiendo a los usuarios la comprensión y la potencial impugnación de las decisiones automatizadas.