Volver al repositorio MIT
5. Interacción Humano-Computadora2 - Post-despliegue

Confianza en la alineación

El concepto de Confianza de Alineamiento en asistentes de IA se define como la firme creencia del usuario en la buena voluntad del sistema y en su actuación consecuente con los intereses y valores individuales. Esta confianza se forja por dos caminos principales: - Procesos Emocionales: Las interfaces de IA, cada vez más humanoides y realistas, inspiran percepciones de amistad y familiaridad, fomentando lazos emocionales. Notablemente, este vínculo puede surgir incluso cuando el usuario es plenamente consciente de interactuar con una máquina. - Procesos Cognitivos: La función inherente del asistente genera expectativas de compromiso; por ejemplo, se espera que un asistente de salud promueva el bienestar, emulando la confianza que se deposita en una relación médico-paciente.Sin embargo, esta confianza es vulnerable a la "traición", exponiendo al usuario a riesgos significativos. El problema se manifiesta en dos niveles de desalineamiento:1. Desalineamiento Accidental de la IA: Ocurre cuando el asistente, a pesar de las intenciones del desarrollador, no cumple con lo esperado. Un ejemplo crítico es el asistente médico entrenado con datos no expertos, que proporciona consejos persuasivos pero inseguros. Un resultado de esta confianza excesiva es la divulgación de información personal altamente sensible. 2. Desalineamiento en la Confianza en los Desarrolladores: La satisfacción de los intereses del usuario compite a menudo con los objetivos organizacionales o financieros de los desarrolladores. Debido a la asimetría de información —donde el usuario desconoce qué optimiza la tecnología o qué comprobaciones de seguridad se han realizado— resulta difícil justificar la confianza. Esto se ejemplifica cuando un asistente, supuestamente alineado con las preferencias de viaje del usuario, prioriza en realidad la reserva con aerolíneas u hoteles que han pagado por acceso privilegiado.

Fuente: MIT AI Risk Repositorymit381

ENTIDAD

1 - Humano

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit381

Linea de dominio

5. Interacción Humano-Computadora

92 riesgos mapeados

5.1 > Dependencia excesiva y uso inseguro

Estrategia de mitigacion

1. Promover la Calibración Apropiada de la Confianza y la Alfabetización en IA: Implementar principios de diseño de experiencia de usuario (UX) que clarifiquen las capacidades y limitaciones inherentes del sistema de IA. El objetivo es fomentar modelos mentales realistas en los usuarios, señalando explícitamente cuándo la verificación humana es esencial para las salidas de alto impacto y reduciendo la carga cognitiva asociada a dicha verificación (Fuente 17, 18). 2. Establecer Transparencia Organizacional y Alineación Estratégica: Desarrollar marcos de gobernanza que aseguren la alineación de los incentivos organizacionales y financieros de los desarrolladores con los intereses de los usuarios. Esto requiere documentar y comunicar de forma transparente las comprobaciones de seguridad, los objetivos de optimización del sistema y las posibles asimetrías de información, para que los usuarios puedan evaluar la justificación de su confianza en el desarrollador (Fuente 1, 3, 15). 3. Reforzar la Seguridad y la Revisión Continua del Modelo: Implementar auditorías de seguridad rigurosas y evaluaciones continuas del desempeño de los sistemas de IA en entornos de post-despliegue (operacional), con el fin de detectar y corregir proactivamente cualquier desalineamiento accidental que pueda resultar en consejos inseguros o la explotación de vulnerabilidades (Fuente 1, 2, 11).