Inteligibilidad
El desafío central de la seguridad en la IA plantea la siguiente interrogante: ¿Cómo podemos diseñar agentes artificiales cuyas decisiones complejas sean intrínsecamente comprensibles o *explicables* para los humanos (un enfoque clave de la investigación en Berkeley)? Esta *explicabilidad* es un requisito indispensable para lograr una *supervisión* genuinamente *informada* y efectiva por parte de los operadores (el foco de estudios como los de MIRI), asegurando que la autonomía de la IA permanezca bajo control humano y transparente.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit741
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.4 > Falta de transparencia o interpretabilidad
Estrategia de mitigacion
1. **Implementación de Arquitecturas de IA Explicable (XAI) para la Comprensión Intrínseca del Modelo** - Desarrollar e integrar modelos intrínsecamente interpretables, como los Árboles de Decisión Respaldados por Redes Neuronales (NBDTs), o aplicar técnicas de Explicabilidad Post-Hoc para generar justificaciones que detallen la secuencia de decisiones intermedias, garantizando que el razonamiento complejo del agente artificial sea verificable por los supervisores humanos.2. **Establecimiento de Marcos de Transparencia y Trazabilidad Algorítmica con Documentación Rigurosa** - Adoptar un protocolo estandarizado de documentación, análogo a los "model cards" o "system cards", que detalle las características, capacidades, limitaciones, finalidad prevista y registros de los datos de entrada/salida (incluidos los conjuntos de entrenamiento) del sistema, asegurando una trazabilidad completa de su funcionamiento para una rendición de cuentas efectiva.3. **Integración de Mecanismos de Supervisión Humana y Auditoría Externa para la Validación de la Explicabilidad** - Diseñar e incorporar *medidas de vigilancia humana* y facilitar procedimientos de *auditoría independiente* y *red-teaming* que evalúen de manera continua y crítica la solidez, la imparcialidad y la interpretabilidad del sistema, permitiendo a los usuarios la comprensión y la potencial impugnación de las decisiones automatizadas.