Por Error - Pre-Despliegue
La fuente de problemas potenciales más discutida en las futuras IA es el error de diseño. La principal inquietud es crear una "IA equivocada", un sistema que no coincida con nuestras propiedades formales deseadas o que exhiba conductas no intencionadas, como impulsos de independencia o dominación. Estos fallos de diseño también abarcan desde simples errores de código (lógicos o de ejecución) y ponderaciones desproporcionadas en la función de aptitud, hasta objetivos desalineados con los valores humanos que desemboquen en una completa indiferencia por la seguridad de las personas.
ENTIDAD
1 - Humano
INTENCIÓN
2 - Involuntario
TIEMPO
1 - Pre-despliegue
ID del riesgo
mit577
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos
Estrategia de mitigacion
1. Fomentar la Superalineación y la Seguridad de la IA desde el DiseñoImplementar técnicas avanzadas de superalineación para garantizar la convergencia continua de los objetivos del sistema de IA con los valores humanos, incluyendo la formación en robustez y un enfoque de diseño inherentemente seguro para prevenir sesgos y comportamientos no deseados como la dominación o la independencia.2. Establecer un Marco de Gobernanza de IA y Validación Pre-despliegueDefinir e implementar una estrategia de gobernanza que guíe el desarrollo responsable. Esto incluye la validación exhaustiva de los conjuntos de datos de entrenamiento, la implementación de directrices éticas y el uso de técnicas de IA Explicable (XAI) para la trazabilidad e interpretabilidad de las decisiones del modelo antes de su liberación.3. Realizar Pruebas de Robustez y Evaluación de VulnerabilidadesAplicar metodologías de "Red Teaming" (pruebas adversariales) y modelado de amenazas para evaluar proactivamente las vulnerabilidades del modelo, identificar fallos de seguridad en el código (bugs lógicos o de ejecución) y verificar que los pesos de la función de aptitud no generen desviaciones o resultados perjudiciales.