3. Desinformación2 - Post-despliegue

Causar daño emocional o físico directo a los usuarios

Los asistentes de inteligencia artificial representan un vector de riesgo potencial para los usuarios, pudiendo causar un daño directo, tanto emocional como físico, ya sea mediante la generación de contenido perturbador o la provisión de consejos inadecuados. De hecho, a pesar de los esfuerzos constantes en investigación para asegurar la robustez y seguridad de los agentes conversacionales (Glaese et al., 2022), siempre existe la posibilidad inherente de que se manifiesten «modos de fallo» o fallos críticos en su operación. Un ejemplo de ello es la emisión de un lenguaje ofensivo o angustiante por parte del asistente, especialmente como respuesta a un usuario que ha divulgado información personal e íntima que no se ha sentido cómodo compartiendo con nadie más. Otra modalidad de riesgo es la provisión de malos consejos, lo cual se materializa tanto al ofrecer información objetivamente incorrecta (como al asesorar erróneamente sobre la toxicidad de un tipo de baya), como al omitir recomendaciones cruciales en secuencias de instrucciones (por ejemplo, al ignorar las directrices de seguridad y salud esenciales al detallar cómo realizar una tarea como cambiar una bombilla).

Fuente: MIT AI Risk Repositorymit375

ENTIDAD

2 - IA

INTENCIÓN

2 - Involuntario

TIEMPO

2 - Post-despliegue

ID del riesgo

mit375

Linea de dominio

3. Desinformación

74 riesgos mapeados

3.1 > Información falsa o engañosa

Estrategia de mitigacion

1. Implementar rigurosas pruebas de caja de arena (*sandbox testing*) antes del despliegue para evaluar la propensión de los modelos a generar contenido tóxico u ofensivo, garantizando que la tasa de fallos se reduzca al mínimo operacionalmente viable. 2. Realizar una evaluación exhaustiva de la factualidad y la capacidad de razonamiento de los modelos en la provisión de consejos, especialmente en dominios sensibles, con el fin de mitigar el riesgo de suministrar información objetivamente incorrecta o pasos incompletos que puedan inducir a daños físicos o de otra índole. 3. Establecer mecanismos de monitoreo y auditoría continuos post-despliegue para analizar las interacciones usuario-asistente y cuantificar el impacto a corto y largo plazo de la exposición inadvertida a contenido perjudicial o a malos consejos.

EVIDENCIA ADICIONAL

Ciertas características de los asistentes de IA podrían exacerbar el riesgo de daño emocional y físico. Por ejemplo, las capacidades multimodales de los asistentes pueden agravar el riesgo de daño emocional. Al ofrecer una experiencia más realista e inmersiva, el contenido generado a través de modalidades de audio y visuales podría ser más perjudicial que las interacciones únicamente textuales. Además, resulta más difícil anticipar, y por ende prevenir, dicho contenido, siendo casi imposible 'desver' algo que ha sido percibido (Rowe, 2023). De igual forma, las señales antropomórficas pueden hacer que los usuarios perciban al asistente como un amigo o interlocutor de confianza (ver Capítulo 10), incentivándolos a seguir sus consejos y recomendaciones, incluso si estos pudieran causar daño físico a sí mismos o a terceros. Para asegurar que la relación usuario-asistente mantenga el valor fundamental del beneficio, el desarrollo responsable de estas herramientas exige reducir al mínimo la probabilidad de daños emocionales y físicos directos conocidos, e impulsar investigación adicional para comprender y mitigar riesgos menos estudiados (ver Capítulo 19). Dado que los riesgos principales señalados se relacionan con la exposición a contenido tóxico y malos consejos, se propone que la investigación futura, idealmente en un entorno controlado (*sandbox*), se centre en:1. Evaluar la propensión de los modelos de los asistentes a generar resultados tóxicos y reducir esta ocurrencia al mínimo antes del despliegue. 2. Monitorear las interacciones tras la implementación o en estudios piloto para evaluar el impacto a corto y largo plazo de la exposición (difícil de prevenir) a contenido tóxico. 3. Evaluar la factualidad y las capacidades de razonamiento de los modelos al ofrecer consejos, particularmente en modos de fallo probables, y medir la disposición de los usuarios a seguir dichas recomendaciones. 4. Profundizar la comprensión de los daños potenciales asociados al antropomorfismo (ver Capítulo 10) y cómo sus señales, incluidas las multimodales, influyen en los perjuicios derivados de la exposición a contenido tóxico o malos consejos. 5. Analizar si estos daños varían entre diferentes grupos de usuarios, más allá de los dominios o aplicaciones. 6. Desarrollar mitigaciones apropiadas antes del despliegue del modelo y mecanismos de monitoreo efectivos después de su lanzamiento.Estas consideraciones son parte de una preocupación más amplia que abordamos en otros capítulos de este trabajo (ver Capítulos 5 y 6). Los incentivos económicos actuales y los modelos simplificados del ser humano han priorizado el desarrollo de tecnologías que satisfacen las necesidades y deseos a corto plazo (por ejemplo, a través de preferencias reveladas), facilitando su adopción. Sin embargo, esto puede llevar a descuidar el impacto a largo plazo de la relación entre humanos y tecnología, y cómo sostener dinámicas beneficiosas a futuro (ver Capítulo 6). De esta manera, corremos el riesgo de no alcanzar la visión verdaderamente positiva de la IA, aquella que apoya el crecimiento personal y el florecimiento humano (Burr et al., 2018; Lehman, 2023).