Volver al repositorio MIT
7. Seguridad, Fallos y Limitaciones del Sistema de IA1 - Pre-despliegue

Por Error - Pre-Despliegue

La fuente de problemas potenciales más discutida en las futuras IA es el error de diseño. La principal inquietud es crear una "IA equivocada", un sistema que no coincida con nuestras propiedades formales deseadas o que exhiba conductas no intencionadas, como impulsos de independencia o dominación. Estos fallos de diseño también abarcan desde simples errores de código (lógicos o de ejecución) y ponderaciones desproporcionadas en la función de aptitud, hasta objetivos desalineados con los valores humanos que desemboquen en una completa indiferencia por la seguridad de las personas.

Fuente: MIT AI Risk Repositorymit577

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

1 - Pre-despliegue

ID del riesgo

mit577

Linea de dominio

7. Seguridad, Fallos y Limitaciones del Sistema de IA

375 riesgos mapeados

7.1 > IA persiguiendo sus propios objetivos en conflicto con valores humanos

Estrategia de mitigacion

1. Fomentar la Superalineación y la Seguridad de la IA desde el DiseñoImplementar técnicas avanzadas de superalineación para garantizar la convergencia continua de los objetivos del sistema de IA con los valores humanos, incluyendo la formación en robustez y un enfoque de diseño inherentemente seguro para prevenir sesgos y comportamientos no deseados como la dominación o la independencia.2. Establecer un Marco de Gobernanza de IA y Validación Pre-despliegueDefinir e implementar una estrategia de gobernanza que guíe el desarrollo responsable. Esto incluye la validación exhaustiva de los conjuntos de datos de entrenamiento, la implementación de directrices éticas y el uso de técnicas de IA Explicable (XAI) para la trazabilidad e interpretabilidad de las decisiones del modelo antes de su liberación.3. Realizar Pruebas de Robustez y Evaluación de VulnerabilidadesAplicar metodologías de "Red Teaming" (pruebas adversariales) y modelado de amenazas para evaluar proactivamente las vulnerabilidades del modelo, identificar fallos de seguridad en el código (bugs lógicos o de ejecución) y verificar que los pesos de la función de aptitud no generen desviaciones o resultados perjudiciales.