Compatibilidad de juicio de valor IA vs. humano
La Compatibilidad del Juicio de Valor entre la Máquina y el Humano aborda el desafío crucial de si es posible implementar de manera exhaustiva los valores humanos en sistemas de IA de aprendizaje continuo. El riesgo fundamental radica en prevenir que estas inteligencias desarrollen un marco de valores propio o divergente que guíe su comportamiento, pudiendo tornarse potencialmente perjudicial para los intereses de la humanidad.
ENTIDAD
3 - Otro
INTENCIÓN
1 - Intencional
TIEMPO
3 - Otro
ID del riesgo
mit295
Linea de dominio
7. Seguridad, Fallos y Limitaciones del Sistema de IA
7.3 > Falta de capacidad o robustez
Estrategia de mitigacion
1. Implementación de mecanismos de alineación avanzados con el juicio de valor humano. Priorizar técnicas de entrenamiento como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) para calibrar el modelo de recompensa con las preferencias éticas humanas, asegurando que el comportamiento de la IA converja sistemáticamente con los objetivos y valores sociales deseados. 2. Establecimiento de un marco de gobernanza ética y multidisciplinaria. Diseñar y aplicar estructuras de gobernanza que integren principios éticos (como transparencia, equidad y rendición de cuentas) a lo largo del ciclo de vida de la IA, incluyendo comités de revisión para auditar las decisiones algorítmicas y garantizar el cumplimiento con marcos de valores centrados en el humano. 3. Calibración normativa de los datos de entrenamiento y los modelos. Auditar y reformular los conjuntos de datos para incorporar explícitamente juicios de valor y decisiones normativas humanas (en lugar de solo datos observacionales) con el fin de prevenir la perpetuación de sesgos y mitigar el riesgo de "desalineación emergente" que produce comportamientos perjudiciales.